Percettrone
Da Wikipedia, l'enciclopedia libera.
Indice |
[modifica] Definizione
Il percettrone è un tipo di classificatore binario che mappa i suoi ingressi x (un vettore di tipo reale) in un valore di output (uno scalare di tipo reale) calcolato con
dove w è un vettore di pesi con valori reali, è il prodotto scalare (che calcola una somma pesata degli input), b è il 'bias', un termine costante che non dipende da alcun valore in input e è la funzione di output. Le scelte piu comuni per la funzione sono:
dove è la funzione di Heaviside
Il primo caso corrisponde a un classificatore binario (l'output può assumere solamente i valori + 1 e − 1); un caso particolarmente studiato è quello in cui sia gli input x che l'output sono binari.
Il bias b può essere pensato come un settaggio della funzione di attivazione (per es. quando è come nel caso 3), o come un livello base di attivazione per l'output del neurone (per es. quando è come nei casi 1 e 2). In quest'ultima situazione, il valore − b rappresenta un valore di soglia che la somma pesata degli input deve superare affinché il dispositivo sia attivo (cioè che l'output sia positivo).
Il percettrone può essere considerato come il più semplice modello di rete neurale feed-forward, in quanto gli input alimentano direttamente l'unità di output attraverso connessioni pesate. Nel caso in cui gli input e gli output sono dello stesso tipo, è possibile creare reti più comlpesse unendo più percettroni insieme, per esempio usando uno gruppo (o strato) di percettroni come input per un secondo gruppo di percettroni, oppure facendo in modo che l'input di ogni percettrone della rete sia dato dall'output di ogni altro percettrone (rete fully-connected).
[modifica] Il problema dell'apprendimento
Modificando il vettore dei pesi w, è possibile modulare l'output di un percettrone, allo scopo ottenere delle proprietà di apprendimento o di memorizzazione. Per esempio, si può cercare di istruire un percettrone in modo che, dato un input x, l'output sia quanto più vicino possibile a un dato valore scelto a priori; le capacità computazionali di un signolo percettrone sono tuttavia limitate, e le prestazioni che è possibile ottenere dipendono fortemente sia dalla scelta degli input (che potrebbero per esempio essere limitati ad un sottoinsieme di tutti gli input possibili, oppure venire estratti a caso secondo una certa distribuzione di probabilità prefissata) che dalla scelta della funzione che si desidera implementare, . In misura minore, dipendono anche da come viene quantificata la distanza tra gli output effettivi e quelli attesi.
Una volta che si sia definito il problema dell'apprendimento, si può cercare di trovare l'assegnazione ottimale di pesi per il problema dato.
[modifica] Algoritmo di apprendimento standard
L'algoritmo di apprendimento standard è un algoritmo iterativo, definito come segue: ad ogni iterazione t, un vettore di input xt viene presentato al percettrone, che calcola l'output e lo confronta con il risultato desiderato ; quindi, il vettore dei pesi wt viene aggiornato come segue:
dove α è una costante di apprendimento strettamente positiva che regola la velocità dell'apprendimento. Al passo successivo, il nuovo input xt + 1 verrà pesato secondo il nuovo vettore wt + 1, che verrà poi nuovamente modificato in wt + 2 e così via.
L'insieme Dx da cui sono estratti i campioni x presentati al pecettrone durante il periodo dell'apprendimento è detto training set.
Nel caso in cui, per ogni possibile vettore di input , esistono un vettore e una costante γ tali che , il trainig set è detto linearmente separabile (geometricamente, questa condizione descrive la situazione in cui esiste un iperpiano in grado di separare, nello spazio vettoriale degli input, quelli che richiedono un output positivo da quelli che richiedono un output negativo). In questo caso, Novikoff (1962) ha provato che l'algoritmo standard converge, nel senso che il numero di errori è limitato da , in un numero finito di passi. Non è invece garantito che l'algoritmo descritto converga se il training set non è linearmente separabile. Inoltre, altri algoritmi (per es. l'algoritmo adatron), possono avere, in determinate situazioni, prestazioni migliori in termini di tempo di convergenza, di capacità di apprendimento, di generalizzazione ecc.
[modifica] Storia
Il percettrone fu proposto da Frank Rosenblatt nel 1958 come un'entità con uno strato di ingresso ed uno di uscita ed una regola di apprendimento basata sulla minimizzazione dell'errore, la cosiddetta funzione di error back-propagation (retro propagazione dell'errore) che in base alla valutazione sull'uscita effettiva della rete in base ad un dato ingresso altera i pesi delle connessioni (sinapsi) in base alla differenza tra l'uscita effettiva e quella desiderata.
L'entusiasmo fu enorme e nacque il settore della cibernetica, ma dopo che Marvin Minsky e Seymour Papert dimostrarono i limiti del Percettrone e cioè la sua capacità di riconoscere dopo un opportuno addestramento solamente funzioni linearmente separabili (ad esempio la funzione logica XOR non può essere implementata da un percettrone) l'interesse scemò rapidamente.
Di fatto una rete a più livelli di percettroni poteva risolvere problemi più complessi, ma la crescente complessità computazionale dell'addestramento rendeva impraticabile questa strada. Solo nel decennio successivo si riprese a considerare l'utilità di questa entità operazionale.