Apprendimento di movimenti della testa tramite Hidden Markov Model

`
UNIVERSITA DEGLI STUDI DI ROMA “LA SAPIENZA”

Facolt` di Ingegneria
a
Corso di Laurea in Ingegneria Informatica

Apprendimento di movimenti della testa
tramite Hidden Markov Model

Relatore: Candidato:
Prof.ssa Fiora Pirri Anna Belardinelli
matricola 786894

Anno Accademico 2004-2005

Indice

Introduzione 7

1 L’apprendimento automatico 10
1.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2 Tipi di approccio e di apprendimento . . . . . . . . . . . . . . 12
1.3 Apprendimento supervisionato . . . . . . . . . . . . . . . . . . 14
1.4 Apprendimento non supervisionato . . . . . . . . . . . . . . . 18
1.5 Apprendimento con rinforzo . . . . . . . . . . . . . . . . . . . 20
1.6 Apprendimento Bayesiano . . . . . . . . . . . . . . . . . . . . 24

2 L’apprendimento per imitazione 27
2.1 Introduzione: problemi e questioni dell’apprendimento per i-
mitazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2 L’imitazione: la prospettiva delle scienze cognitive . . . . . . . 29
2.3 L’apprendimento per imitazione nei sistemi artiﬁciali . . . . . 34
2.4 Tecniche ed applicazioni . . . . . . . . . . . . . . . . . . . . . 38
2.5 Un approccio innovativo: un modello probabilistico dell’imi-
tazione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.6 Prospettive future . . . . . . . . . . . . . . . . . . . . . . . . . 42

3 Strumenti teorici e metodologici 43
3.1 Markov Chain Monte Carlo per l’apprendimento automatico . 43
3.1.1 Il principio di Monte Carlo . . . . . . . . . . . . . . . . 47
3.2 L’algoritmo di Metropolis-Hastings . . . . . . . . . . . . . . . 48

2

3.3 Hidden Markov Model . . . . . . . . . . . . . . . . . . . . . . 50
3.3.1 Processi di Markov discreti . . . . . . . . . . . . . . . . 51
3.3.2 Elementi di un HMM . . . . . . . . . . . . . . . . . . . 52
3.3.3 La procedura Forward-Backward . . . . . . . . . . . . 55
3.3.4 L’algoritmo di Viterbi . . . . . . . . . . . . . . . . . . 58
3.3.5 Le formule di Baum-Welch . . . . . . . . . . . . . . . . 59

4 Stato dell’arte e genesi del modello 64
4.1 Le architetture cognitive . . . . . . . . . . . . . . . . . . . . . 64
4.2 Perch` apprendere per imitazione a spostare il fuoco attentivo
e 69
4.3 Decomposizione del compito di attenzione condivisa . . . . . . 71
4.4 Apprendere i movimenti della testa: un confronto con la let-
teratura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.5 Costruzione del modello e dell’architettura cognitiva per l’e-
sperimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

5 Contributo sperimentale 80
5.1 Obiettivi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
5.2 L’apparato sperimentale . . . . . . . . . . . . . . . . . . . . . 81
5.3 La segmentazione . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.4 La metrica per i movimenti . . . . . . . . . . . . . . . . . . . 82
5.5 Produzione dei dati per l’addestramento . . . . . . . . . . . . 84
5.6 Modellazione con HMM . . . . . . . . . . . . . . . . . . . . . 86
5.7 L’addestramento . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.8 Risultati di riconoscimento e imitazione . . . . . . . . . . . . . 90

Conclusioni e sviluppi futuri 94

A L’algoritmo K-mean per il clustering 96

B Codice Matlab 98
B.1 calcolo deltac.m . . . . . . . . . . . . . . . . . . . . . . . . . . 98
B.2 segm imm.m . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

3

B.3 face crop.m . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
B.4 metropolis.m . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
B.5 campionidelta.m . . . . . . . . . . . . . . . . . . . . . . . . . . 103
B.6 trovaframe.m . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
B.7 elaborastati.m . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
B.8 calcolacentro.m . . . . . . . . . . . . . . . . . . . . . . . . . . 105
B.9 elaboraemissioni.m . . . . . . . . . . . . . . . . . . . . . . . . 106
B.10 hmmstima.m . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
B.11 hmmstima2.m . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
B.12 hmmtraining.m . . . . . . . . . . . . . . . . . . . . . . . . . . 108
B.13 hmmtraining2.m . . . . . . . . . . . . . . . . . . . . . . . . . 109
B.14 viterbi.m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
B.15 mostraris.m . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

Bibliograﬁa 112

4

Elenco delle ﬁgure

1.1 Albero di decisione per una funzione booleana . . . . . . . . . 15
1.2 Rete neurale multistrato . . . . . . . . . . . . . . . . . . . . . 16
1.3 Struttura dell’apprendimento con rinforzo . . . . . . . . . . . 22

3.1 Grafo di transizione per una catena di Markov a tre stati . . . 45
3.2 Sequenza di operazioni necessarie per il calcolo della variabile
forward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.3 Sequenza di operazioni necessarie per il calcolo di ξt (i, j) . . . 61

4.1 Decomposizione dell’abilit` di attenzione congiunta in quattro
a
sotto-compiti . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.2 Schema di apprendimento implementato . . . . . . . . . . . . 77
4.3 L’architettura cognitiva del sistema implementato : sono pre-
senti cinque aree e le relazioni intercorrenti . . . . . . . . . . . 78

5.1 Segmentazione del frame in 3 classi . . . . . . . . . . . . . . . 83
5.2 Sequenza di frame segmentati . . . . . . . . . . . . . . . . . . 85
5.3 Posizione del viso nel frame attuale e possibili movimenti nel
frame successivo . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.4 Visualizzazione degli stati imitati (frame 1-36) . . . . . . . . . 92
5.5 Visualizzazione degli stati imitati (frame 41-76) . . . . . . . . 93

A.1 Schema dei passi che compongono l’algoritmo K-mean per il
clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

5

Elenco delle tabelle

5.1 Matrice delle transizioni di stato . . . . . . . . . . . . . . . . . 88
5.2 Matrice delle emissioni . . . . . . . . . . . . . . . . . . . . . . 88
5.3 Matrice delle transizioni dopo l’addestramento . . . . . . . . . 89
5.4 Matrice delle emissioni dopo l’addestramento . . . . . . . . . . 90
5.5 Confronto tra stati eﬀettivi e stati ricostruiti . . . . . . . . . . 90

6

Introduzione

What is a system? As any poet knows, a system is a way of looking
at the world.

-Gerald M.Weinberg, An Introduction to General Systems Thinking

L’intelligenza artificiale ` una delle branche della scienza che ha fatto pi`
e u
progressi negli ultimi anni, offrendo possibilit` e scenari prima ascrivibili al
a
solo campo della fantascienza.
Le prospettive di un mondo in cui esseri umani e sistemi artificiali siano
pienamente integrati e possano collaborare in modo efficiente e naturale
sono visibili per ora solo proiettando lo sguardo verso l’orizzonte, ma le
fondamenta di questa visione vengono gettate oggi e inevitabilmente pog-
giano sui contributi di diversi campi scientifici, tecnologie e approcci inter- e
multidisciplinari.
Una delle esigenze emergenti della ricerca nel campo delle scienze cogni-
tive e dell’intelligenza artificiale e’ l’integrazione e cooperazione fra diverse
aree di ricerca per capire approfonditamente i meccanismi e i principi del-
l’apprendimento animale ed essere cosi’ in grado di riprodurli nei sistemi
artificiali.
Un ambito che si ` fortemente giovato di stimoli ed idee provenienti dalle
e
scienze cognitive, biologiche e neurofisiologiche ` sicuramente quello dell’ap-
e
prendimento automatico. Affrontando la descrizione, la formalizzazione e la

7

8

riproduzione di un’attivit` peculiarmente umana, per quanto, spesso, con
a
scopi e modalit` che esulano dalla prospettiva prettamente antropocentri-
a
ca, l’apprendimento automatico `, all’interno dell’intelligenza artificiale, uno
e
dei campi di ricerca in maggiore fermento e, tra quelli in grado, non solo
di mutuare elementi da altre scienze, ma anche di fornire in risposta spun-
ti, quando non soluzioni o giustificazioni scientifiche, a questioni riguardanti
l’uomo come sistema naturale.
Accanto ad approcci collaudati ed ampiamente esplorati, come l’apprendi-
mento supervisionato, non supervisionato e con rinforzo, nella comunit`
a
scientifica si stanno attualmente indagando le possibilit` e i risvolti com-
a
putazionalmente vantaggiosi offerti dall’apprendimento per imitazione. I
tempi per una ricerca del genere sono stati accelerati dall’estensione alla
visione artificiale, al decision-making e al ragionamento e all’apprendimento
automatici di metodi di statistica inferenziale Bayesiana. Queste tecniche
hanno permesso la realizzazione di sistemi predittivi e imitativi, basandosi
sull’evidenza che, implicitamente, anche l’uomo compie calcoli probabilistici
in molti processi cognitivi. Partendo da queste premesse e con l’entusiasmo
che accompagna i progetti dotati di aspetti pionieristici, grazie alla guida
della mia relatrice ho approfondito queste tematiche e sviluppato l’idea del
lavoro sperimentale presentato in questa tesi.
E’ esperienza comune il bisogno di stabilire un contatto visivo e imparare
a seguire i movimenti dell’interlocutore per poter interagire con lui. Questa
necessit` si presenta tanto pi` impellente nel caso di sistemi artificiali che,
a u
progettati per servire l’uomo, devono apprendere ad imitarlo nella sua fisi-
cit`, sia che si tratti di sistemi robotici mobili, che di piattaforme fisse che
a
interagiscono con utenti seduti. Apprendere i movimenti della testa ` perci`
e o
risultato un compito necessario per mantenere l’attenzione del sistema foca-
lizzata su un punto cruciale per l’osservazione o l’inferenza delle intenzioni
umane. Diversi approcci sono stati implementati in letteratura, in mancanza
di una comprensione completa delle molteplici sfaccettature del problema e
di una teoria unificata per descriverlo. In questo lavoro l’architettura co-

9

gnitiva scelta ` basata sull’utilizzo degli Hidden Markov Model, una tecnica
e
relativamente recente ma che ci ` sembrata ideale per modellizzare gli aspetti
e
probabilistici e sequenziali del problema.

Capitolo 1

L’apprendimento automatico

1.1 Introduzione
Hilgard e Bower (1970), psicologi comportamentisti, hanno definito l’ap-
prendimento come ”una modifica del comportamento, ovvero delle relazioni
tra stimoli e risposte, che si instaura in seguito ad opportune stimolazioni
esterne e non ` riconducibile a processi di maturazione biologica, a malattie
e
o all’assunzione di sostanze chimiche”. Il concetto di apprendimento copre
una vasta gamma di processi che ` difficile definire precisamente. Zoologi e
e
psicologi hanno studiato l’apprendimento negli animali e negli uomini. Ci
sono molti paralleli tra l’apprendimento automatico e quello animale. Varie
tecniche di apprendimento implementate in sistemi artificiali derivano dagli
sforzi degli psicologi di affinare le teorie sull’apprendimento umano ed animale
attraverso modelli computazionali. In maniera inversa, concetti e tecniche
studiate dai ricercatori nell’apprendimento automatico possono chiarire certi
aspetti dell’apprendimento biologico (Nilsson,1996, [23]).
Riguardo ai sistemi artificiali, si pu` dire, molto in generale, che una
o
macchina impara quando cambia la sua struttura, i programmi o i dati (in
base agli input o in risposta a informazioni esterne) in maniera tale che le
prestazioni successive migliorano. Alcuni di questi cambiamenti, come l’ag-
giunta di un record in un data base, ricadono nell’ambito di altre discipline

10

CAPITOLO 1. L’APPRENDIMENTO AUTOMATICO 11

e non sono necessariamente esempi di apprendimento. Quando, per`, i risul-
o
tati di una macchina per il riconoscimento del parlato, ad esempio, miglio-
rano dopo aver sentito diversi esempi del parlato di una persona, ci si sente
abbastanza giustificati nel dire che quella macchina ha imparato.
Ci si potrebbe chiedere perch´ le macchine debbano imparare, invece di
e
progettarle sin dall’inizio per svolgere i compiti desiderati. In molti casi
questo ` difficile se non impossibile. T. Dietterich ([12]) divide questi casi in
e
quattro categorie.
In primo luogo, ci sono problemi per cui non esistono esperti umani. Per
esempio nelle produzioni manifatturiere automatizzate si presenta il bisogno
di predire i guasti alle macchine prima che accadano, analizzando le misure
dei sensori. Poich´ le macchine sono nuove, non ci sono esperti umani che
e
possono essere consultati da un programmatore per ottenere la conoscenza
necessaria a costruire un sistema informatico. Un sistema in grado di ap-
prendere pu` studiare i dati registrati e i successivi guasti alle macchine e
o
imparare le regole per prevederli.
In secondo luogo, ci sono problemi per cui esistono esperti umani, ma questi
non sono in grado di spiegare la loro esperienza. Questo avviene in molti
compiti percettivi, come il riconoscimento del parlato, riconoscimento della
calligrafia o la comprensione del linguaggio naturale. In genere ogni uomo
ha capacit` da esperto in questi compiti, ma nessuno sa descrivere i passi
a
dettagliati che segue per raggiungere l’obiettivo. Fortunatamente, gli uomini
possono fornire alle macchine degli esempi di input e output corretti, cosicch´
e
gli algoritmi di apprendimento automatico possono imparare a mappare gli
input sugli output.
Nella terza categoria vengono inclusi i problemi in cui i fenomeni cambiano
rapidamente. Nella finanza, per esempio, le persone vorrebbero predire il
comportamento futuro del mercato azionario, della domanda di acquisto o
dei tassi di cambio. Questi comportamenti cambiano frequentemente, per-
tanto, anche se un programmatore potesse realizzare un buon programma
di predizione, questo andrebbe riscritto frequentemente. Un programma che


apprende pu` sollevare il programmatore da questo carico modificando e ag-
o
giustando costantemente un insieme di regole di predizione apprese.
Da ultimo, ci sono applicazioni che hanno bisogno di essere personalizzate
separatamente per ogni utente. Ad esempio, un programma che filtra la
posta elettronica. Non ` ragionevole aspettarsi che ogni utente programmi
e
le proprie regole di filtraggio. Un sistema che apprende pu` imparare quali
o
messaggi l’utente scarta e acquisire automaticamente le regole di filtraggio.

1.2 Tipi di approccio e di apprendimento
Gli studi sull’apprendimento automatico provengono da diverse discipline,
che hanno introdotto differenti approcci, metodologie e nomenclature. Tra i
campi coinvolti ci sono la statistica, il data mining, la psicologia, l’intelligenza
artificiale, il brain modeling, la teoria del controllo.
Nella scienza cognitiva contemporanea si sono distinti due tipi di approcci
alla soluzione dei problemi di apprendimento (Pessa, [24]):

• l’approccio simbolico, che descrive stimoli e risposte a livello macro-
scopico, rappresenta la conoscenza in modo localizzato tramite sim-
boli e prevede che l’apprendimento consista in processi computazionali
agenti sui simboli.

• l’approccio connessionistico, che descrive stimoli e risposte a livello
microscopico, rappresenta la conoscenza in maniera distribuita tramite
le relazioni tra micro-unit` cognitive (i nodi delle reti neurali), e fa
a
consistere l’apprendimento in particolari processi computazionali che
modificano i valori dei pesi della rete.

I modelli pi` comuni sono basati su macchine a stati finiti e grammatiche
u
generative, modelli simbolici basati su regole o programmi logici, model-
li probabilistici e funzionali. In generale, affrontando il problema del cosa
apprendere si assume che l’oggetto dell’apprendimento sia una struttura
computazionale di qualche sorta ([23]). Le strutture pi` comuni sono:
u


• funzioni

• programmi logici o insiemi di regole

• macchine a stati finiti

• grammatiche

• sistemi di problem solving

E’ stata fatta anche una distinzione basata sul tipo di compiti da ap-
prendere ([12]). L’apprendimento analitico non richiede input esterni, men-
tre l’apprendimento empirico si fonda su una qualche forma di esperienza
esterna. Nel primo il programma ` in grado di migliorare le prestazioni sem-
e
plicemente analizzando il problema (per esempio nel gioco degli scacchi). Nel
secondo gli algoritmi non possono inferire analiticamente le regole del gioco,
ma devono interagire con un insegnante per apprenderle.
La classificazione comunemente pi` accettata ` comunque quella che vede
u e
l’apprendimento supervisionato applicato ai problemi di decision-making di-
screto e di predizione continua, l’apprendimento con rinforzo per i problemi
di decision-making sequenziale e l’apprendimento non supervisionato, spesso
applicato a problemi di clusterizzazione o di stima di distribuzioni di proba-
bilit` (Dietterich, 1999, [14]). Nei prossimi paragrafi approfondiremo questa
a
suddivisione, ricordando che nello sviluppare un sistema di apprendimento
automatico bisogna rispondere a quattro domande:

1. Come viene rappresentato il classificatore?

2. Come vengono rappresentati gli esempi?

3. Quale funzione obiettivo dovrebbe essere utilizzata per valutare i clas-
sificatori candidati?

4. Quale algoritmo di ricerca dovrebbe essere usato?


1.3 Apprendimento supervisionato
L’apprendimento supervisionato per la classificazione ` uno dei compiti di
e
apprendimento automatico pi` semplici e meglio approfonditi. Esso si basa
u
su un certo numero di esempi pre-classificati, in cui, cio`, ` nota a priori la
e e
categoria alla quale deve appartenere ciascuno degli input usati come esem-
pi. Il nodo cruciale in questo caso ` il problema della generalizzazione: dopo
e
l’analisi di un campione (spesso piccolo) di esempi, il sistema dovrebbe pro-
durre un classificatore1 che lavori bene su tutti i possibili input. Una coppia
costituita da un oggetto e dalla classe associata ` detto esempio etichetta-
e
to. L’insieme degli esempi etichettati forniti all’algoritmo di apprendimento
viene detto training set. Una volta somministrato il training set all’algorit-
mo e ottenuto in output il classificatore, come si pu` valutarne la bont`?
o a
In genere si fornisce un secondo insieme di esempi etichettati (test set) e si
misura la percentuale di esempi classificati correttamente e la percentuale di
esempi di test mal classificati.
Nell’ambito dell’apprendimento supervisionato sono inclusi non solo i classi-
ficatori ma anche l’apprendimento di funzioni che predicono valori numerici.
Questo compito viene di solito chiamato regressione. In questo caso ogni
esempio etichettato per l’addestramento ` una coppia formata da un ogget-
e
to e dal valore numerico associato. La qualit` della funzione di predizione
a
appresa ` in genere misurata come il quadrato della differenza tra il valore
e
predetto e il valore reale, sebbene a volte venga preso invece il valore assoluto
di questa differenza.
Ci sono diversi algoritmi di apprendimento che sono stati sviluppati per
la classificazione e la regressione supervisionate. Si possono raggruppare in
base al formalismo adoperato per rappresentare il classificatore o il predit-
tore appreso: alberi di decisione, regole di decisione, reti neurali, funzioni
discriminanti lineari, reti Bayesiane. In particolare, gli alberi di decisione
sono uno degli algoritmi pi` versatili ed efficienti. In un albero di ricerca
u
1
programma che associa un oggetto dato in input ad una determinata classe


Figura 1.1: Albero di decisione per una funzione booleana

ogni nodo verifica il valore di una delle componenti del vettore in ingresso e
indirizza ad uno dei nodi figli, in base al risultato del test. Un nuovo esempio
viene classificato partendo dalla radice dell’albero e applicando il test a quel
nodo. Se il test ` positivo si passa al figlio sinistro, altrimenti al destro. Poi si
e
applica il test del nodo figlio, ricorsivamente fino a che si raggiunge un nodo
foglia, che fornisce la classificazione dell’esempio. Tipicamente gli alberi di
decisione sono costruiti incrementalmente con una procedura top-down. Un
esempio raffigurante una funzione booleana ` visibile in fig. 1.1.
e
L’apprendimento supervisionato ` la forma di apprendimento in cui le reti
e
neurali hanno ottenuto maggior successo. In particolare, i percettroni multi-
strato costituiscono le reti pi` popolari ([24]). Nella loro forma pi` tipica sono
u u
composti da tre strati di unit`: uno strato di ingresso, uno strato di uscita
a
ed uno o pi` strati nascosti, tra i primi due (fig. 1.2). Le connessioni tra gli
u
strati sono di tipo feed-forward, ovvero senza cicli e con l’output dipendente


Figura 1.2: Rete neurale multistrato

solo dall’input, e le unit` di uscita eo nascoste hanno leggi di attivazione
a
non lineare. Gli algoritmi di apprendimento pi` usati si basano su training
u
set di vettori di input e di corrispondenti output desiderati. L’apprendimento
consiste nell’esplorare varie volte il training set, aggiustando gradualmente i
pesi delle connessioni in modo tale che l’output si avvicini sempre pi` a quello
u
desiderato. Il problema di trovare valori ottimali dei pesi in funzione degli
esempi presentati viene risolto con leggi di apprendimento supervisionato:
la pi` famosa di queste leggi ` la regola di error-backpropagation. Secondo
u e
questa regola l’errore delle unit` di uscita viene propagato all’indietro per
a
produrre una stima di quanto una data unit` nascosta abbia contribuito al-
a
l’errore. Queste stime vengono poi usate per aggiustare i pesi (Arbib, [2]).
Questa regola, per`, presenta l’inconveniente di non poter garantire, all’au-
o
mentare delle iterazioni, la convergenza verso l’errore minimo possibile. Gli
esempi visti ﬁno adesso corrispondono, secondo un’ulteriore classiﬁcazione,
ad un apprendimento di tipo induttivo, detto inductive concept learning. In
questi casi, cio`, il training set in genere non esaurisce lo spazio degli esempi
e


possibili. Questi metodi sono definiti induttivi perch´ inferiscono un concetto
e
generale sulla base di un insieme di esempi; poich´ resta comunque aperto il
e
problema della falsificazione (Popper, 1959, [25]), l’apprendimento indutti-
vo soffre di problemi di overfitting. Altre forme di apprendimento induttivo
sono gli ID3 e il ”Version Space” di Mitchell ( [20], [21]). In contrasto con
essi c’` una forma di apprendimento deduttivo, in cui da un insieme di fatti ∆
e
viene dedotto una proposizione φ. Implicitamente φ era gi` nota, conoscen-
a
do ∆, ma poteva non essere ovvia. Da un insieme di ipotesi o conoscenza
di base ∆ viene dedotto un enunciato φ. Se la deduzione ` fatta nella lo-
e
gica classica, per la monotonicit` della deduzione logica φ e’ implicitamente
a
contenuto in ∆, quindi l’inferenza non pu` essere assimilata ad alcuna for-
o
ma di apprendimento. Viceversa se la deduzione ` ”non-classica” e dunque
e
non-monotona allora φ ` ottenuta aggiungendo a ∆ nuove ipotesi. Le ipotesi
e
aggiunte possono considerarsi come delle spiegazioni apprese. Un sistema
di apprendimento deduttivo conserva φ in memoria, in caso possa servire
successivamente. Questo processo pu` essere considerato apprendimento?
o
Dietterich l’ha chiamato speed-up learning. Esso ` analogo all’acquisizione di
e
abilit` da parte delle persone. L’obiettivo di questo apprendimento ` ana-
a e
lizzare e ricordare ricerche passate in modo da risolvere pi` velocemente i
u
problemi successivi. Una forma di speed-up learning ` l’explanation-based
e
learning, che si basa sulla disponibilit` di conoscenza pregressa per spiegare
a
perch´ un particolare passo ha successo o fallisce. Il processo di apprendi-
e
mento consiste nello ”specializzare” parti della teoria di un dominio al fine di
spiegare un esempio; poi si generalizza la spiegazione per produrre un altro
elemento della teoria del dominio, che potr` essere utile per esempi simili.
a
Un compito pi` complesso di apprendimento supervisionato si ` rivela-
u e
to l’apprendimento di sequenze, serie temporali e dati spaziali ([12]). Un
esempio di questo tipo ` il riconoscimento del parlato: un sistema progettato
e
per questo scopo deve poter apprendere non solo come mettere in relazione
il segnale vocale con i fonemi, ma anche come mettere in relazione i fonemi
tra di loro. Gli Hidden Markov Model (cfr. cap.3) sono un esempio di clas-


sificatore che pu` apprendere entrambi gli aspetti. Problemi simili nascono
o
nell’analisi di serie temporali. Ad esempio nell’analisi di misure legate alle
condizioni metereologiche per imparare a predire il tempo futuro. Sarebbe
un errore, anche in questo caso, trattare gli esempi etichettati come se fos-
sero indipendenti. I dati spaziali, a loro volta, presentano problemi simili ai
dati sequenziali, ma in due dimensioni. Spesso i dati di addestramento sono
immagini in cui ogni pixel viene etichettato secondo i vari scopi di classifi-
cazione. Metodi come i Markov Random Field possono essere applicati per
cogliere le relazioni tra pixel adiacenti.

1.4 Apprendimento non supervisionato
L’apprendimento non supervisionato studia come i sistemi possano imparare
a rappresentare particolari modelli dati in input in un modo che rifletta la
struttura statistica dell’intera collezione di modelli (Dayan, [9]). Contraria-
mente all’apprendimento supervsionato o a quello con rinforzo non ci sono
espliciti output-obiettivo o valutazioni ambientali associati ad ogni input;
piuttosto, l’apprendimento non supervisionato porta a produrre bias a priori
come aspetti della struttura dell’input che dovrebbero essere catturati nel-
l’output.
Questo tipo di apprendimento ` importante perch´ probabilmente nel cervel-
e e
lo umano ` molto pi` comune che l’apprendimento supervisionato. Gli unici
e u
oggetti del dominio dei modelli di apprendimento, in questo caso, sono i
dati x osservati in input, che spesso si assume siano campioni indipendenti
di una distribuzione di probabilit` sottostante sconosciuta, P (x), e alcune
a
informazioni a priori implicite o esplicite. Sono state suggerite due classi
di metodi per l’apprendimento non supervisionato. Le tecniche di stima di
densit` di probabilit` costruiscono modelli statistici (come le reti Bayesiane)
a a
di come le cause sottostanti possano creare gli input osservati. Le tecniche
di estrazione di features, invece, cercano di estrarre regolarit` statistiche (o,
a
talvolta, irregolarit`) direttamente dagli input.
a


La classe pi` ampia di metodi per l’apprendimento non supervisionato con-
u
siste in tecniche di stima della densit` con il maximum likelihood (ML). Tutte
a
queste tecniche si basano sulla costruzione di modelli parametrizzati P (x; ϑ)
(dove ϑ indica i parametri) della distribuzione di probabilit` PI (x), dove
a
le forme del modello (e possibilmente le distribuzioni a priori dei parametri
ϑ ) sono vincolate da informazioni a priori. Questi sono chiamati modelli
sintetici o generativi, perch´ dato un valore particolare di ϑ , essi speciﬁcano
e
come sintetizzare o generare campioni x da P (x; ϑ), la statistica dei quali
dovrebbe corrispondere a P (x). Un modello tipico ha la struttura:

P (x; ϑ) = P (x|y; ϑ) P (y; ϑ)
y

dove y rappresenta tutte le cause potenziali dell’input x. Dato un modello
x con parametri ϑ in input, l’output pi` generale di questo modello ` la
u e
distribuzione a posteriori P (y|x; ϑ), che riconosce quale particolare causa
potrebbe essere alla base di x, usando la regola di Bayes.
Oltre alla stima di densit` con ML e alla rilevazione di anomalie, ci sono
a
diversi altri compiti cui ` stato applicato l’apprendimento non supervisiona-
e
to.
Data un’ampia collezione di oggetti, spesso si vuole essere in grado di com-
prenderli e visualizzare le loro relazioni. Il compito del clustering gerarchico
divide un insieme di oggetti in una gerarchia tale che oggetti simili sono rag-
gruppati insieme. Un approccio standard consiste nel deﬁnire una misura di
similarit` tra due oggetti qualunque e quindi cercare cluster di oggetti che
a
sono pi` simili tra loro, rispetto agli oggetti negli altri cluster. Un altro ap-
u
proccio per comprendere e visualizzare dati consiste nel collocare gli oggetti
in uno spazio di dimensione minore (per esempio, passare da uno spazio a
dimensione 5 ad un piano bidimensionale) in modo da raggruppare in base ad
una misura di distanza (per esempio, la distanza Euclidea) gli oggetti vicini.
Anche applicazioni di completamento di oggetti e di recupero di informazioni
si basano sul clustering e sulla stima di densit`. Il primo compito consiste nel
a
predire le parti mancanti di un oggetto data una sua descrizione parziale. Il


secondo recupera oggetti rilevanti (documenti, immagini, impronte digitali)
da una vasta collezione, data una descrizione parziale o pochi esempi degli
oggetti cercati.

1.5 Apprendimento con rinforzo
L’apprendimento con rinforzo ` un approccio all’intelligenza artificiale che
e
enfatizza l’apprendimento da parte di un agente tramite le sue interazioni
con l’ambiente. Questo ` in contrasto con gli approcci classici all’apprendi-
e
mento automatico, concentrati piuttosto sull’apprendimento da un esperto o
sul ragionamento su un modello completo dell’ambiente (Sutton, [32]). La
ricerca attuale sull’apprendimento con rinforzo ` fortemente interdisciplinare,
e
include ricercatori specializzati in algoritmi genetici, reti neurali, psicologia
e ingegneria del controllo.
In tutti i sistemi di apprendimento questo si manifesta come un’aumenta-
ta capacit` di prendere decisioni. Nei compiti di apprendimento supervisio-
a
nato e non supervisionato visti le decisioni prese dal sistema di elaborazione,
in seguito all’apprendimento, sono non sequenziali. Questo significa che se
il sistema compie un errore in una decisione, esso non influenza le decisioni
successive. Compiti di decision-making sequenziale sorgono in vari domini,
in cui si renda necessario controllare un sistema (per esempio, guidare ro-
bot, macchine o veicoli spaziali; controlli automatici in raffinerie petrolifere,
impianti chimici o fabbriche; gestione di pazienti in terapia intensiva)([12]).
L’apprendimento con rinforzo ha come scopo l’imparare cosa fare-come map-
pare situazioni in azioni-in modo da massimizzare una funzione di ricompen-
sa. Al sistema non viene detto quale azione intraprendere, piuttosto esso
deve scoprire quali azioni portano ad una maggiore ricompensa, provandole.
Nei casi pi` interessanti le azioni possono influenzare non solo la ricompensa
u
immediata ma anche la situazione successiva e, attraverso questa, le ricom-
pense seguenti. Queste due caratteristiche, la ricerca trial and error e la
ricompensa ritardata, sono le due componenti distintive dell’apprendimento


con rinforzo ([32]).
Una delle questioni che sorgono in questo tipo di apprendimento riguarda
il bilanciamento tra esplorazione e sfruttamento. Per ottenere una grossa ri-
compensa, un agente deve preferire le azioni che ha provato in passato e che
sono risultate efficaci e remunerative in termini di ricompensa. Per scoprire
quali sono queste azioni, per`, deve selezionare delle azioni che non ha ancora
o
provato. L’agente deve cio` sfruttare quanto gi` sa per ottenere la ricom-
e a
pensa, ma deve anche esplorare in modo da poter fare una migliore selezione
delle azioni in futuro. Il problema ` che n´ lo sfruttamento n´ l’esplorazione
e e e
possono essere perseguite esclusivamente senza fallire l’obiettivo.
La ricerca attuale sull’apprendimento con rinforzo usa la struttura formale
dei Markov Decision Process, in cui l’agente e l’ambiente interagiscono in
una sequenza di passi a tempo discreto, t=0,1,2,3,.... Ad ogni passo l’agente
percepisce che l’ambiente si trova in uno stato, st , che riassume tutte le varia-
bili del sistema, e seleziona un’azione, at . In risposta, l’ambiente compie una
transizione stocastica verso un nuovo stato, st+1 , e stocasticamente emette
una ricompensa numerica, rt+1 ∈ , una misura del costo dell’azione e della
desiderabilit` dello stato attuale (cfr. fig.1.3). L’agente cerca di massimizzare
a
la ricompensa che riceve nel lungo termine. Ad esempio, l’obiettivo pi`
u
comune ` scegliere ogni azione at in modo da massimizzare il valore atteso
e
della ricompensa scontata:

E rt+1 + γrt+2 + γ 2 rt+3 + . . .

dove γ ` un parametro di tasso di sconto, 0 ≤ γ ≤ 1, simile ad un tasso di
e
interesse in economia. Questa struttura vuole trovare in maniera semplice le
componenti essenziali del problema dell’apprendimento da interazione. Com-
prende percezioni ed azioni, cause ed effetti e un obiettivo esplicito per agire
sull’ambiente. L’incertezza esiste sia all’interno dell’ambiente (poich´ ` sto-
ee
castico), sia riguardo l’ambiente (poich´ le probabilit` di transizione potreb-
e a
bero non essere del tutto note). Semplici estensioni di questo problema com-
prendono il caso di percezioni incomplete e limiti computazionali. Nel caso
in cui lo stato del sistema non possa essere interamente osservato ad ogni


Figura 1.3: Struttura dell’apprendimento con rinforzo


passo si parla di Partially Observable Markov Decision Process.
In ogni stato l’agente prende le sue decisioni secondo una politica di controllo,
che indica l’azione da compiere. La politica ottimale ` quella che massimizza
e
la somma delle ricompense. L’apprendimento con rinforzo consiste nell’im-
parare una politica di controllo interagendo con un ambiente sconosciuto. Si
pu` definire il valore di trovarsi in uno stato s sotto la politica π come il
o
guadagno scontato considerato partendo in quello stato e seguendo la poli-
tica π. La funzione che fa corrispondere a tutti gli stati i loro valori ` detta
e
funzione stato-valore per la politica:

V π = Eπ rt+1 + γrt+2 + γ 2 rt+3 + . . . |st = s .

I valori degli stati definiscono un ordinamento naturale per le politiche. Una
politica π ` migliore o uguale ad una politica π se e solo se V π (s) ≥ V π (s)
e
per ogni stato s.
Ci sono due approcci principali all’apprendimento per rinforzo: i metodi
model-based e i metodi model-free ([12]).
Nei metodi model-based, il sistema segue una poltica allo scopo di appren-
dere informazioni sull’ambiente. Ogni volta esegue un’azione a nello stato
s e osserva la ricompensa risultante r e lo stato successivo s’. Si memoriz-
za la quadrupla (s,a,r,s’ ) che descrive l’esperienza. Quando ha un numero
sufficiente di queste quadruple, il sistema pu` apprendere una funzione proba-
o
bilit` di transizione, P (s |s, a), e una funzione di ricompensa, R (s, a, s ). La
a
prima indica che se l’azione a viene eseguita nello stato s, allora l’ambiente
passer` nello stato s’ con probabilit` P (s |s, a). La seconda fornisce il valore
a a
medio della ricompensa che sar` ricevuta se quanto descritto sopra accade.
a
Date queste due funzioni, ` possibile applicare algoritmi di programmazione
e
dinamica per calcolare la politica ottima.
Gli algoritmi model-free apprendono la politica direttamente interagendo con
l’ambiente, senza memorizzare quadruple o apprendere P o R. L’algoritmo
pi` noto ` il Q-learning. Nella sua forma pi` semplice esso usa l’esperienza
u e u
di ogni stato per aggiornare un elemento di una matrice. Questa matrice,
indicata con Q, contiene un elemento, Q (s, a), per ogni coppia stato-azione.


Nella transizione st → st+1 , compiuta l’azione at e ricevuta la ricompensa
rt+1 , l’algoritmo opera l’aggiornamento

Q (st , at ) ← (1 − α) Q (st , at ) + α [rt+1 + γ max Q (st+1 , at )]

dove α ` un parametro positivo. Sotto appropriate condizioni (assicurando
e
un’esplorazione sufficiente e una riduzione di α nel tempo), questo processo
converge in modo che la politica golosa 2 rispetto a Q ` ottimale. In questo
e
modo l’algoritmo fornisce un modo per trovare una politica ottima basandosi
puramente sull’esperienza, senza modelli della dinamica dell’ambiente.
Metodi pi` sofisticati implementano Q non come una tabella, ma come una
u
funzione parametrizzata addestrabile, come una rete neurale. Questo permet-
te la generalizzazione tra gli stati, che pu` ridurre fortemente il tempo di
o
apprendimento e i requisiti di memoria.
L’apprendimento con rinforzo si ` dimostrato un approccio promettente
e
anche per la pianificazione e il problem solving. In questo caso un modello
dell’ambiente viene usato per simulare un’interazione estensiva tra l’ambiente
stesso e l’agente. Quest’esperienza simulata viene poi elaborata con metodi
di apprendimento con rinforzo proprio come se fosse veramente avvenuta. Il
risultato ` una sorta di ”pianificazione per ogni momento” in cui la politica
e
dell’agente migliora gradualmente col tempo e con lo sforzo computazionale.

1.6 Apprendimento Bayesiano
L’approccio Bayesiano, diversamente dall’approccio ML, si basa sul principio
che sia possibile stabilire inizialmente alcune caratteristiche del modello che
poi saranno aggiustate o verificate dall’esperienza. Esso considera tutti i
modelli di apprendimento (di parametri, di strutture o di entrambi) come la
riduzione dell’incertezza dell’utente riguardo al modello, dati i dati. Inoltre,
codifica tutte le incertezze sui parametri e sulla struttura del modello come
probabilit`.
a
2
Politica che sceglie in ogni stato s l’azione a per cui si ha che Q (s, a) ` massimo
e


L’apprendimento Bayesiano presenta due vantaggi rispetto all’apprendi-
mento classico (Heckerman, 1999, [17]):

1. combina la conoscenza a priori e i dati;

2. i metodi di apprendimento Bayesiano contengono insitamente la strut-
tura del rasoio di Occam.

Consideriamo un problema il cui dominio consiste nelle variabili X =
(X1 , X2 , . . . , Xn ). Inoltre immaginiamo di disporre dei dati D = (x1 , x2 , . . . , xN ),
che rappresentano un campione casuale di qualche distribuzione di proba-
bilit` ignota per X. Si assume che la distribuzione di probabilit` ignota pos-
a a
sa essere codificata da un qualche modello statistico con la struttura m e i
parametri ϑm . L’incertezza riguardo la struttura e i parametri del model-
lo vengono codificati nell’approccio Bayesiano usando delle probabilit`. In
a
particolare definiamo la variabile discreta M, i cui stati m corrispondono
ai possibili modelli veri, e denotiamo la nostra incertezza su M con la di-
stribuzione di probabilit` p (m|ξ), con ξ indicante le informazioni in nostro
a
possesso. Inoltre, per ogni struttura del modello m, definiamo una variabile
continua in forma di vettore Θm , le cui configurazioni ϑm corrispondono ai
possibili parametri veri. Rappresentiamo la nostra incertezza riguardo a Θm
con la funzione di densit` di probabilit` p (ϑm |m, ξ).
a a
Dato un campione casuale D, calcoliamo la distribuzione a posteriori per
ogni m e ϑm usando la regola di Bayes:

p (m|ξ) p (D|m, ξ)
p (m|D, ξ) =
m p (m|ξ) p (D|m, ξ)
p (ϑm |m, ξ) p (D|ϑm , m, ξ)
p (ϑm |D, m, ξ) =
p (D|mξ)
dove
p (D|m, ξ) = p (D|ϑm , m, ξ) p (ϑm |m, ξ) dϑm
` il likelihood marginale. Date alcune ipotesi di interesse, h, determiniamo la
e
probabilit` che h sia vera dati i dati D facendo la media su tutti i possibili
a
modelli e i loro parametri secondo le regole della probabilit`:
a


p (h|D, ξ) = p (m|D, ξ) p (h|D, m, ξ)
m

p (h|D, m, ξ) = p (h|ϑm , m, ξ) p (ϑm |D, m, ξ) dϑm .

Ad esempio, h potrebbe essere l’evento che la prossima osservazione sia
xN +1 . In questa situazione si ottiene

p (xN +1 |D, ξ) = p (m|D, ξ) p (xN +1 |ϑm , m, ξ) p (ϑm |D, m, ξ) dϑm ,
m

dove p (dN +1 |ϑm , m, ξ) ` il likelihood del modello. Questo approccio ` spesso
e e
chiamato Bayesian model averaging. Si noti che nessuna singola struttura
viene appresa, ma tutti i modelli possibili vengono pesati secondo la loro
probabilit` a posteriori.
a
Sotto certe condizioni, la probabilit` a posteriori dei parametri e il like-
a
lihood marginale possono essere calcolati eﬃcientemente e in forma chiusa.
Ad esempio questo avviene quando il likelihood ` dato da reti Bayesiane.
e
Quando sono possibili troppe strutture del modello, le sommatorie nelle
equazioni sopra possono essere intrattabili. In queste situazioni si pu` cercare
o
una o pi` strutture del modello con grandi probabilit` a posteriori e usare
u a
questi modelli come se fossero esaustivi (model selection).

Capitolo 2

L’apprendimento per
imitazione

2.1 Introduzione: problemi e questioni del-
l’apprendimento per imitazione
Le societ` hanno dimostrato modi efficienti per assicurare la sopravvivenza
a
delle specie. Essenzialmente hanno sviluppato una conoscenza usata per ri-
solvere i problemi sociali. Pertanto il trasferimento e l’adattamento di questa
conoscenza a problemi inerenti differenti contesti hanno permesso che gli indi-
vidui sviluppassero un comportamento intelligente. Di conseguenza, il com-
portamento di ogni individuo nella societ` ` influenzato da questa conoscenza
ae
sociale e l’individuo stesso inoltre influenza il comportamento di altri membri
della societ` (Calderon et al., 2003, [6]).
a
Fino ad ora nelle societ` sono gi` stati sviluppati una serie di meccanismi
a a
per l’apprendimento di comportamenti, compresi condizionamento e rinfor-
zo. Comunque, nessuno di questi meccanismi ` stato usato tanto quanto
e
l’imitazione per l’acquisizione di conoscenza. Di solito l’imitazione viene
vista come la capacit` di apprendere nuove abilit` dall’osservazione delle
a a
azioni dei propri simili. L’imitazione permette agli individui di acquisire
nuove capacit`, incoraggia l’interazione sociale e la trasmissione della cul-
a

27

CAPITOLO 2. L’APPRENDIMENTO PER IMITAZIONE 28

tura. Questa forma di adattamento aumenta le opportunit` dell’individuo
a
di essere accettato come parte della societ` e di sopravvivere in essa. Perci`
a o
comportamenti utili per la sopravvivenza della societ` possono essere rapi-
a
damente diffusi e trasmessi alla generazione successiva.
Dato che l’imitazione richiede significative capacit` percettive, cognitive e
a
motorie, emulazione e preparazione, essa ` limitata ad alcuni animali -come
e
primati, cetacei e uomini- capaci di far fronte alla crescente complessit` del-
a
l’interazione tra l’ambiente e gli individui (Byrne e Russon, 1998, [5]). Alcune
di queste abilit` vengono sviluppate incrementalmente durante la vita. Di-
a
versi sono i vantaggi derivanti dall’imitazione sia per gli individui che per le
societ` ([6]):
a

• velocizzazione del processo di apprendimento

• adattamento

• nessuna interruzione delle attivit` dell’individuo imitato.
a

• apprendimento simultaneo

• comunicazione implicita

• compatibilit` con altri meccanismi di apprendimento
a

• apprendimento efficiente

• comportamenti intelligenti

• interazione sociale

R. Price (2002, [26]) riporta la definizione di Mitchell secondo cui un certo
comportamento C viene appreso per imitazione se:

1. C, copia del comportamento, viene prodotto da un organismo

2. C ` simile ad M, il modello del comportamento
e


3. l’osservazione di M ` necessaria per la produzione di C (non solo livelli
e
base di C che si presentano spontaneamente)

4. C ` pensata per essere simile a M
e

5. il comportamento C deve essere un comportamento nuovo, non gi`
a
organizzato in quel preciso modo nel repertorio dell’organismo.

Gli esperti di robotica ritengono che sia possibile acquisire preziose in-
tuizioni sul modo in cui le competenze sociali e comunicative possano essere
apprese dalle macchine guardando al campo dello sviluppo cognitivo e sociale
umano. Per un sistema artificale potrebbe esser possibile partire da una ca-
pacit` imitativa per arrivare ad inferire le reazioni emotive dell’uomo con cui
a
interagisce e poi usare le proprie valutazioni sulle emozioni per determinare
il proprio comportamento ([4]).

2.2 L’imitazione: la prospettiva delle scienze
cognitive
Recentemente c’` stata un’esplosione della ricerca sullo sviluppo, l’evoluzione
e
e le basi cognitive dell’imitazione. L’imitazione coinvolge operazioni cogni-
tive complesse e non comprese ancora appieno. La ricerca sull’imitazione
negli animali ` stata sviluppata in due direzioni: 1) cos’` l’imitazione e come
e e
pu` essere distinta da altre forme di apprendimento sociale? 2) quali animali
o
sono capaci di imitare e dove si trovano nella scala naturale dell’intelligenza?
C’` un grosso disaccordo su entrambe le questioni. L’imitazione ` stata usata
e e
come etichetta per una variet` di fenomeni sociali, inclusi certi che potreb-
a
bero essere spiegati con altri processi pi` semplici, come condizionamento
u
osservativo o apprendimento strumentale. Diversi esperimenti con topi, pic-
cioni, delfini, scimmie e altri animali hanno affermato che questi esseri hanno
la capacit` di imitare.
a
La situazione ` piuttosto diversa per la ricerca sull’uomo(Meltzoff, 1999,[18],
e


Rao, 2004, [28]). Si d` per scontato che gli umani siano capaci di imitare e gli
a
studi sono per lo pi` rivolti al quando, perch´ e come essi imitino. Gli esseri
u e
umani sono altamente imitativi. Le teorie classiche dello sviluppo cognitivo
affermavano che i neonati non potessero comprendere la somiglianza tra se
stessi e gli altri. Si diceva che i neonati fossero ’solipsisti’ nello sperimentare
le loro sensazioni interne e nel vedere i movimenti degli altri, senza colle-
gare le due cose . Una delle teorie pi` importanti sullo sviluppo di capacit`
u a
imitative ` quella di Piaget (1951), che afferma che queste capacit` si svilup-
e a
pano per stadi. Secondo questa teoria i bambini nascono con la capacit` di
a
imitare comportamenti in cui sia l’azione del modello che dell’infante pu`
o
essere comparata nella stessa modalit` sensoriale (per esempio, imitazione
a
vocale o dei movimenti delle mani). Dopo un anno il bambino acquista la
capacit` di rilevare equivalenze cross-modali e imita azioni che richiedono
a
un’associazione cross-modale del genere (per esempio, l’imitazione facciale:
l’infante non ` capace di vedere se stesso per confrontare visivamente i due
e
atti, si affida alle informazioni propriocettive per farlo). Infine tra i 18 e i
24 mesi di et` diventa possibile l’imitazione ritardata, ovvero di atti non pi`
a u
presenti nel campo percettivo del bambino.
Al contrario, recenti osservazioni (Meltzoff e Moore, 1997, [19]) hanno di-
mostrato che infanti a soli quarantadue minuti dalla nascita imitano espres-
sioni facciali degli adulti. Com’` possibile l’imitazione? Una possibile rispos-
e
ta, secondo Meltzoff e Moore, ` l’active intermodal mapping. Il punto cru-
e
ciale ` che l’infante riesce a rappresentarsi l’espressione facciale dell’adulto e
e
cerca attivamente di conformare la sua a quella vista. Ovviamente, i bam-
bini non riescono a vedere i propri movimenti facciali ma possono usare la
propriocezione per monitorare le loro azioni non visibili e correggere il loro
comportamento. Meltzoff e Moore (1997) suggeriscono quattro stadi di capa-
cit` progressive di imitazione: 1) body babbling (apprendimento di come il
a
movimento di specifici muscoli produce configurazioni elementari del corpo;
questo processo pu` iniziare nell’utero), 2) imitazione di movimenti del corpo
o
(rilevata dai 42 minuti alle 36 ore dalla nascita), 3) imitazione di azioni su


oggetti (dopo vari mesi), 4) imitazione basata sull’inferenza delle intenzioni
degli altri; ` la forma pi` sofisticata di imitazione, riscontrata a circa 18 mesi
e u
di et`.
a
Le scoperte sull’imitazione suggeriscono una comune codifica ’supramodale’
per la percezione e la produzione di atti e possono essere direttamente com-
parate tra loro. Ricerche su adulti tramite analisi di zone del cervello e di
meccanismi cognitivi coinvolti nell’imitazione, percezione e immaginazione di
atti umani suggeriscono che queste operazioni insistano sugli stessi processi
. I meccanismi neurali che sottendono alla comprensione ed all’imitazione
di un’azione sono stati oggetti anche di interessanti studi di neuroimaging,
negli ultimi anni . Sebbene questa capacit` potrebbe semplicemente im-
a
plicare l’analisi visiva dell’azione, e’ stato dibattuto ed infine provato che
l’informazione visiva viene mappata nella sua rappresentazione motoria nel
nostro sistema nervoso. E’ ormai acclarata l’esistenza di un pool neuronale
detto ”mirror system” che pare predisposto a tale funzione di mapping nei
primati e negli esseri umani. I neuroni mirror sono una particolare classe di
neuroni viso-motori scoperti originariamente nella corteccia ventrale premo-
toria delle scimmie, chiamata area F5. Alcuni neuroni di F5 appartengono
alla corteccia motoria, altri invece rispondono agli stimoli visivi (Rizzolatti et
al., 2001,[29]). I primi sono attivati dalla presentazione di oggetti tridimen-
sionali, laddove altri (i neuroni mirror) richiedono l’osservazione di un’azione
vera e propria per attivarsi. I mirror sono neuroni correlati in maniera stretta
con il movimento. Questo modello suggerisce, infatti una codifica comune
tra le azioni percepite e le azioni eseguite (Breazeal et al., 2004, [4]). Questi
neuroni potrebbero giocare un ruolo molto importante nei meccanismi usati
dagli uomini e da altri animali per mettere in relazione le loro azioni con
quelle degli altri. Al momento non ` noto se i mirror neuron siano innati
e
nell’uomo, addestrati attraverso l’esperienza o entrambe le cose.
Attivandosi le stesse aree neurali sia durante la percezione che durante l’ese-
cuzione di un’azione potrebbe essere non solo possibile ma anche necessario
ricreare gli stati mentali che sono frequentemente associati con quell’azione.


Una struttura tipo i neuroni mirror potrebbe essere un elemento impor-
tante in un meccanismo per fare predizioni riguardo le intenzioni di un’altra
persona.
L’imitazione in et` infantile ha delle implicazioni con il problema filosofi-
a
co della mente degli altri. L’imitazione mostra che i bambini piccoli sono
sensibili ai movimenti loro e di altre persone e che possono mappare isomor-
fismi tra s´ e gli altri a livello di azioni. Attraverso l’esperienza possono
e
imparare che, quando agiscono in un certo modo, loro stessi hanno certi sta-
ti interni concomitanti (propriocezioni, emozioni, intenzioni, ecc.). Avendo
rilevato questa regolarit`, gli infanti hanno motivo di compiere l’inferenza
a
che, quando vedono una persona agire nello stesso modo in cui agiscono loro,
la persona ha degli stati interni simili ai loro. Con questo non ` necessario
e
accettare la tesi di Fodor (1987) che la Teoria Della Mente1 (TOM) deve
essere innata nell’uomo (perch` non pu` essere imparata tramite le classiche
e o
procedure con rinforzo). L’imitazione di movimenti del corpo, vocalizzazioni
e altri comportamenti orientati ad un obiettivo fornisce agli infanti un mezzo
per scoprire che le altre persone sono ”come me”, con stati interni proprio
come il S´. L’imitazione infantile potrebbe essere la base per sviluppare una
e
teoria della mente.
Cosa spinge i bambini ad imitare gli altri? L’imitazione ` utile per diverse
e
funzioni cognitive e sociali ma una possibilit` ` che bambini molto piccoli usi-
ae
no l’imitazione di comportamenti per classificare l’identit` delle persone. I
a
neonati sono interessati a determinare l’identit` degli oggetti che si muovono
a
nello spazio, scompaiono e ricompaiono. Ricerche dimostrano che i bambini
piccoli usano l’imitazione delle azioni di una persona per aiutarsi a distinguere
un individuo dall’altro e riconoscere le persone in incontri successivi. Gli in-
fanti usano le azioni distintive delle persone come fossero propriet` funzionali
a
che possono essere scoperte attraverso l’interazione. Per questo i bambini
identificano una persona non solo da caratteristiche fisiche (labbra, occhi,
1
Branca della scienza cognitiva che riguarda la comprensione delle nostre menti e di
quelle degli altri.


capelli), ma da come quell’individuo agisce e reagisce.
Da adulti possiamo attribuire ad altri degli stati mentali. Una tecnica per
indagare l’origine della Teoria Della Mente si basa sulla propensione umana
all’imitazione. Usando questa tecnica l’adulto prova a compiere certe azioni-
obiettivo, ma fallisce. I risultati mostrano che bambini di diciotto mesi i-
mitano ci` che l’adulto ”sta cercando di fare”, non ci` che l’adulto effetti-
o o
vamente fa. Questo prova che i bambini piccoli non sono concentrati solo
sul comportamento superficiale delle persone. A quell’et` i bambini hanno
a
gi` adottato un aspetto fondamentale della folk psychology 2 : le azioni delle
a
persone vengono comprese all’interno di una struttura che coinvolge anche
scopi e intenzioni.
L’imitazione chiarisce anche la natura della memoria preverbale. In alcu-
ni test gli infanti sono stati messi di fronte aduna serie di azioni su oggetti
nuovi, senza che fosse loro permesso di toccarli. Si ` poi interposto intervallo
e
di giorni o settimane. I bambini dai sei ai quindici mesi di et` hanno attua-
a
to un’imitazione ritardata dopo un intervallo temporale, dimostrando una
capacit` di ricordare preverbale, non un semplice riconoscimento di oggetti
a
(Meltzoff, 1995). Le scoperte suggeriscono che i bambini operino con quel-
la che i neuroscienziati chiamano memoria dichiarativa in opposizione alla
memoria procedurale o abituale, in maniera tale che apprendimento e ricordo
di nuovo materiale avvengono dopo una breve osservazione senza addestra-
mento motorio.
Negli umani anche aspetti dello sviluppo linguistico dipendono dall’imitazione.
L’imitazione vocale ` il mezzo principale di apprendimento dell’inventario fo-
e
netico e della struttura prosodica della lingua madre.

Una sfida attuale per l’intelligenza artificiale ` la creazione di robot che
e
possano imparare per imitazione . Creare dispositivi pi` ”simili all’uomo”
u
potrebbe dipendere dall’implementazione di una delle pietre angolari della
2
Insieme di concetti (desideri, opinioni, intenzioni, speranze) di uso quotidiano per il
pensiero su noi stessi e gli altri


mente umana, la capacit` di imitare.
a

2.3 L’apprendimento per imitazione nei sis-
temi artificiali
L’interesse nel campo dell’apprendimento robotico ` cresciuto costantemente
e
negli ultimi anni. L’aggiunta di capacit` di apprendimento nei robot presenta
a
alcuni benefici, come:

• aumento della capacit` di destreggiarsi in un ambiente dinamico dove
a
una conoscenza del mondo preprogrammata pu` divenire obsoleta o del
o
tutto inadeguata.

• riduzione del costo di programmazione dei robot per svolgere compiti
specifici.

• aumento della capacit` di affrontare cambiamenti nelle proprie speci-
a
fiche, come, ad esempio, l’alterazione dei sensori.

Inoltre ci sono dei vantaggi teorici nella spinta ad occuparsi della questione
dell’integrazione di tecnologie multi-componente, come percezione, pianifi-
cazione, azione ed apprendimento.
I robot, come gli umani e altri animali, possono apprendere una vasta conoscen-
za osservando ed imitando altri agenti (umani o robot)(Demiris e Hayes,
1996, [10]). L’apprendimento per imitazione possiede alcune caratteristiche
desiderabili. Innanzi tutto velocizza il processo di apprendimento. Un robot
in teoria potrebbe imparare qualunque compito tramite apprendimento con
rinforzo, dato tempo ed energia sufficiente, per` la presenza di un ”esperto”
o
potrebbe essere utilizzata in modo che la sua conoscenza venga passata al
robot. L”’esperto” pu` dimostrare come ottenere la soluzione di un compito
o
e l’ ”apprendista” pu` imparare osservando eo imitando. L’apprendimen-
o
to, in questo senso, non richiede che l’esperto spenda tempo ad insegnare
al robot come svolgere il compito. L’esperto pu` continuare a compiere il
o


suo lavoro come al solito e l’apprendista pu` osservare e imitare senza in-
o
terrompere l’esperto. Inoltre, non ` richiesta alcuna comunicazione esplicita
e
tra i due, perci` questo tipo di apprendimento pu` essere usato anche in
o o
situazioni dove le comunicazioni possono essere costose o impossibili.

Alla luce delle teorie psicologiche viste sopra si ` cercato di progettare ed
e
implementare un meccanismo del tipo active intermodal mapping in robot
mobili con due obiettivi:

• fornire ai robot la capacit` di far corrispondere le azioni percepite alle
a
loro azioni equivalenti. Con ci` si apre la possibilit` dell’apprendimento
o a
per imitazione con tutti i vantaggi visti sopra.

• rendere espliciti i requisiti affinch´ queste capacit` siano presenti.
e a

Si considera l’imitazione in sistemi naturali ed artificiali come un processo
che coinvolge tre diverse questioni:

• il meccanismo dell’associazione: come pu` un agente far combaciare le
o
azioni percepite con le sue azioni equivalenti?

• come viene sviluppato questo meccanismo? Qual ` il punto di inizio,
e
perch´ cambia successivamente e come cambia?
e

• come pu` l’agente usare questo meccanismo per migliorare nel tempo
o
il suo comportamento o la sua conoscenza?

Nell’ affrontare il problema della dotazione della capacit` di apprendere
a
per imitazione ai robot o ad altri sistemi artificiali Demiris e Haynes ([10])
propongono una serie di considerazioni sulla questione.

Innanzitutto, ci sono differenti livelli di imitazione, cui non sottendono
necessariamente gli stessi meccanismi. Si possono individuare almeno tre
livelli:


1. Imitazione di base, intesa come riproduzione dello stimolo percepito,
per esempio, imitazione di movimenti del corpo o di fonemi verbali. In
questo caso alcuni autori parlano di mimetismo.

2. Imitazione funzionale, ad esempio raccogliere un oggetto, muover-
si verso una porta, produrre un suono per spaventare un predatore,
ecc. Essenzialmente in questo livello non viene riprodotto lo stimo-
lo ma piuttosto l’effetto che questo ha. In questo caso si parlato di
assimilazione motoria.

3. Imitazione astratta o sintonizzazione sociale, ovvero imitazione non
dell’azione esterna ma dello stato interno presunto del partner (ad e-
sempio, fare una faccia triste quando l’altro sta piangendo, sorridere se
l’altro ride). E’ possibile in questo caso parlare di empatia.

E’ necessario un meccanismo che selezioni dinamicamente il livello a cui il ro-
bot deve imitare, secondo le condizioni sociali del momento o i propri bisogni
e scopi correnti (dipende, tra l’altro, se l’imitazione ` al momento un gio-
e
co, un metodo di circoscrivere uno spazio di ricerca o un modo di ottenere
accettazione sociale). L’imitazione potrebbe non essere sempre possibile su
tutti i livelli (a meno che non si incorporino elementi di predizione nell’ar-
chitettura), perch´ lo scopo dell’azione potrebbe non essere evidente al suo
e
inizio.

Il robot dovrebbe avere un’idea del proprio corpo e del corpo dell’agente
che sta cercando di imitare. Queste immagini del corpo del robot non de-
vono necessariamente essere predefinite, possono invece essere apprese. Le
due rappresentazioni dei corpi e il loro sviluppo sono strettamente collegate
(se non addirittura istanze dello stesso modello corporeo). Questo pu` essere
o
fatto anche in maniera distribuita, che preservi la topografia ([10]).
Dato che il robot percepisce il proprio corpo principalmente tramite pro-
priocezione (e spesso tramite visione), mentre sta percependo l’altro agente
attraverso sensori esterni, ci deve essere un meccanismo di adattamento cross-


modale che recepisca le equivalenze tra le due modalit` e possa passare da
a
una all’altra.

Ci sono due forme differenti di apprendimento associato all’imitazione:
apprendere ad imitare e apprendere tramite imitazione. Nella prima, il ro-
bot impara cosa deve fare il suo sistema motorio per fare quello che sta
facendo l’altro agente. Nella seconda, il robot impara imitando l’altro agente
e associando le esperienze percettive (ambientali eo proprie, come emozioni,
feedback biologici del proprio organismo) con quell’atto motorio.
Come sostenere il processo di imitazione? L’imitazione ` raramente un’atti-
e
vit` unidirezionale e tantomeno avviene in assenza di altri processi di ap-
a
prendimento. Neonati e bambini piccoli non solo imitano i genitori e al-
tri adulti ma spesso sono imitati da questi, coinvolti in giochi di mutua
imitazione. Inoltre c’` un forte collegamento tra imitazione,comunicazione
e
cooperazione: non solo l’imitazione pu` essere usata come un buon meto-
o
do per sviluppare la comunicazione e fornire all’imitatore una conoscenza
sufficiente sul compito in modo da poterlo infine svolgere in cooperazione
con altri agenti, ma, all’inverso, la comunicazione pu` a sua volta aiutare il
o
processo di imitazione, influenzando il modo in cui l’imitatore comprende il
compito affidatogli, cosicch´ possa essere selezionato un livello appropriato
e
di imitazione. Ad esempio, l’azione dell’imitatore pu` essere monitorata dal
o
dimostratore che pu` restituire dei feedback all’imitatore, sia sulla qualit`
o a
dell’imitazione (fornendogli cos` opportunit` di imparare come imitare), sia i
ı a
su due aspetti cruciali menzionati sopra, quando imitare e quando fare l’as-
sociazione tra cosa l’agente percepisce e cosa esso fa.
L’apprendimento per imitazione ` spesso combinato con altri processi di ap-
e
prendimento; in tal caso il processo imitativo pu` velocizzare gli altri. Inol-
o
tre, le stesse capacit` e le conoscenze dell’imitatore, ottenute parzialmente
a
da altri processi (incluso l’apprendimento trial-and-error ), influenzano (e, si
spera, facilitano) il modo in cui il processo di imitazione avr` luogo.
a
Questo suggerisce che porre architetture per l’imitazione all’interno di un pi`
u


ampio contesto di apprendimento sociale potrebbe aiutarci a risolvere alcune
difficili questioni relative all’imitazione robotica. Per permettere ai robot
di raggiungere il grado di imitazione presente nelle societ` naturali, bisogna
a
fornire loro livelli comparabili di supporto sociale.

2.4 Tecniche ed applicazioni
Diversi ricercatori hanno sviluppato robot capaci di assolvere a compiti in
domini specifici. In pratica, molte applicazioni richiedono che i robot lavorino
in squadra per risolvere un comune problema, per esempio, esplorazione di
ambienti pericolosi, gestione di emergenze, costruzione di edifici, ecc. Questi
compiti richiedono comunicazione e coordinazione sia tra i robot che tra i
robot e gli uomini. I robot dovrebbero essere in grado di destreggiarsi non
solo con oggetti, ma anche con altri robot nello stesso ambiente.
Gli approcci tradizionali a queste questioni (strategie di programmazione ed
apprendimento) si sono dimostrati molto complessi e limitati nelle conoscen-
ze. Per questo ci si ` rivolti all’apprendimento per imitazione, implementato
e
in vari modi e per varie applicazioni ([6]): vediamone alcuni esempi. Basan-
dosi sull’apprendimento con rinforzo, Schaal ([31]) ha presentato un modello
capace di ottenere l’imitazione dell’atto di tenere in equilibrio un’asta; per
questo compito ` stato usato un braccio robotico e un dimostratore umano.
e
Dautenhahn ([8]) ha presentato agenti che attraversano una zona collinosa
attaccati ad un insegnante da cui imparano le traiettorie. Dopo un certo
tempo gli agenti sono in grado di riconoscere gli insegnanti adatti. Hayes e
Demiris ([16]) hanno usato un meccanismo di imitazione che mappa i movi-
menti osservati dell’insegnante nei movimenti dell’apprendista. Il loro ap-
proccio si basa su um comportamento che consiste nell’associare gli stimoli
presenti nell’ambiente al momento con l’azione appropriata. Hanno svilup-
pato un meccanismo per l’attenzione che identifica ogni evento significativo
nella percezione. La strategia adottata prevede che l’apprendista segua il


dimostratore nella navigazione non guidata, usando simulazioni e robot rea-
li. Il loro lavoro si ` basato sul meccanismo di accoppiamento proposto da
e
Meltzoff e Moore, che, essenzialmente, mappa le azioni percepite (dell’inse-
gnante) nelle equivalenti azioni dell’apprendista. Gli esperimenti sono stati
estesi anche ad un robot che imita i movimenti umani della testa.
Gaussier e altri (1997, [15]) hanno presentato un’architettura che impara
tramite associazioni senso-motorie con una ricompensa ritardata. Il loro la-
voro ` stato ispirato dalle neuroscienze, in particolare dalle funzioni esercitate
e
dall’ippocampo e dal cervelletto. In tal senso, essi hanno implementato un
sistema con apprendimento non supervisionato on-line, in cui sia il processo
di apprendimento che l’esecuzione della sequenza appresa erano provocati
da uno stato interno (Motivazione o Emozione). Il compito era seguire un
sentiero. La precisione dei risultati ` diminuita al decrescere del tempo degli
e
intervalli. Crabbe e Dyer (2000) hanno progettato un’architettura che im-
para una sequenza di passi osservando un insegnante. Diversamente da altri
approcci, l’imitatore identifica gli scopi invece di imitare solo i movimenti.
L’obiettivo presentato era costruire un muro. Nonostante l’apprendista sia
capace di imparare una sequenza con un solo passo dell’insegnante, il sistema
non ` in grado di inventare o modificare la sequenza osservata.
e
Il gruppo di ricerca sull’imitazione della University of Southern California ha
proposto alcune idee di ricerca sostenute dalle scienze cognitive e dalle neuro-
scienze. Il loro modello di imitazione ` il risultato delle strutture di controllo
e
motorio evolutivo e di un meccanismo per la semplice mimesi. I ”mirror neu-
rons” sono il meccanismo deputato all’ottenimento della mimesi; come visto
nel par.2, questi neuroni mappano la relazione tra l’apparato senso-motore
delle azioni dell’insegnante e quello delle azioni dell’apprendista. Inoltre
forniscono un meccanismo di apprendimento della classificazione per nuove
primitive motorie. Il loro modello ` stato implementato in diversi sistemi
e
di prova (test-beds) come umanoidi basati sulla fisica, umanoidi Avantars
(Simulation), cani robot (Sony AIBO) e robot su ruote (Pioneer). I loro
esperimenti comprendono movimenti degli arti, ballo della Macarena, imi-


tazione di movimenti di braccia e dita e imitazione di una marionetta.
Oltre a queste applicazioni di sistemi di controllo per robot, tecniche di
imitazione sono state impiegate per l’accelerazione dell’apprendimento con
rinforzo generico. Altri usi meno tradizionali includono meccanismi di at-
tenzione congiunta per sviluppare capacit` sociali (Scassellati, [30]) ed imi-
a
tazione di mimica facciale ([4]).
L’imitazione ` stata inoltre oggetto di ricerca da parte di A.Billard e altri
e
(1997, [3]) per l’acquisizione e la trasmissione del linguaggio.

2.5 Un approccio innovativo: un modello prob-
abilistico dell’imitazione
Negli ultimi anni i modelli probabilistici hanno fornito eleganti spiegazioni
per una variet` di fenomeni neurobiologici e di illusioni percettive. C’` un
a e
numero crescente di prove che il cervello utilizza principi come probability
matching e la regola di Bayes per raggiungere una vasta gamma di obiet-
tivi nell’elaborazione sensoriale, nel controllo senso-motore e nella presa di
decisioni (decision-making). La regola di Bayes in particolare si ` dimostra-
e
to utile specialmente nello spiegare come il cervello combini la conoscenza
a priori riguardo un compito con le informazioni sensoriali correnti e come
le informazioni provenienti da diversi canali sensoriali vengano combinate
basandosi sulle statistiche del rumore in quei canali. Allo stesso tempo, gli
approcci probabilistici mutuano dalla ﬁsica e soprattutto dalla meccanica
statistica metodi formali particolarmente adatti per modellare l’interazione
con ambienti reali e non strutturati, dunque basati su incertezza ed errore.
Questi metodi si sono dimostrati pi` duttili dei metodi formali classici, e
u
l’odierna ricerca in Intelligenza Artiﬁciale se ne avvale ampiamente. Gli ap-
procci tradizionali all’IA non hanno avuto successo, una volta riprodotti in
ambienti realistici e rumorosi, per via della loro incapacit` di memorizzare,
a
elaborare e ragionare sulle incertezze del mondo reale. La natura stocasti-
ca della maggior parte degli ambienti del mondo reale rende la capacit` di
a


gestire gli imprevisti praticamente indispensabile per i sistemi intelligenti au-
tonomi. Questa consapevolezza ha acceso un grande interesse per i metodi
probabilistici di inferenza e apprendimento nell’intelligenza artificiale e nella
robotica negli ultimi anni. Nuovi potenti strumenti, come i modelli grafici
e le reti Bayesiane, hanno trovato larga applicabilit` in ambiti che vanno
a
dal data mining e dalla computer vision alla bioinformatica e alla robotica
mobile. Queste reti permettono di inferire le probabilit` di vari eventi e gli
a
effetti direttamente dai dati in ingresso, basandosi sulle leggi della proba-
bilit` e su una rappresentazione basata su grafi.
a
Dato il recente successo dei metodi probabilistici nell’intelligenza artificiale e
nei modelli per il cervello, una struttura probabilistica per l’imitazione pu`
o
non solo fornire nuovi metodi per l’apprendimento imitativo dei robot ma an-
che aumentare la nostra comprensione dell’imitazione umana (Rao, Schon,
Meltzoff, 2004, [28]). L’approccio probabilistico ` molto adatto all’apprendi-
e
mento per imitazione in ambienti realistici, tipicamente dinamici e rumorosi.
Il successo di recenti applicazioni nella navigazione e nel controllo robotici
possono essere attribuiti a tecniche probabilistiche per la gestione dell’in-
certezza, come il filtro di Kalman e il particle filtering. Similmente, tecniche
basate sull’apprendimento statistico costituiscono la spina dorsale di diver-
si nuovi sistemi di computer vision per il tracciamento e il riconoscimento
di persone. Un approccio probabilistico all’apprendimento per imitazione
pu` fornire molti vantaggi a questi sistemi, compresa la capacit` di gestire
o a
la mancanza di dati, la robustezza al rumore, la capacit` di fare predizioni
a
basate sui modelli appresi, ecc.
L’approccio probabilistico, inoltre, apre la possibilit` di applicare le metodolo-
a
gie Bayesiane, come la manipolazione delle probabilit` a priori di compiti
a
alternativi, per raggiungere una comprensione pi` profonda dell’imitazione
u
negli uomini. Queste manipolazioni hanno portato preziose informazioni
riguardo al tipo di prior e di modelli interni che il cervello di un adulto
usa nella percezione e nell’apprendimento motorio.


2.6 Prospettive future
L’applicazione delle metodologie viste all’imitazione pu` chiarire degli aspetti
o
nella questione di come i neonati acquisiscono modelli interiori delle persone e
delle cose che incontrano nel mondo. Viceversa, modelli ispirati alla biologia
possono aiutare a disegnare l’architettura e gli algoritmi usati per risolvere
l’apprendimento basato su imitazione nei robot. Ad esempio, i quattro sta-
di dell’imitazione di Meltzoff e Moore suggeriscono un approccio gerarchico
all’imitazione robotica, partendo dall’apprendimento di modelli interni del
proprio movimento fino a modelli pi` sofisticati dell’interazione con agenti
u
che operano attivamente.
L’imitazione ` un dominio particolarmente fruttuoso per la collaborazione in-
e
terdisciplinare tra robotica e scienza dello sviluppo). E’ un’attivit` percettiva
a
e motoria di grande valore adattativo ed ` un mezzo per l’apprendimento che
e
si presta alla modellazione computazionale. Inoltre rappresenta un’interes-
sante sfida per la robotica e offre una modalit` fortemente versatile e flessibile
a
di programmare i sistemi artificiali.

Capitolo 3

Strumenti teorici e
metodologici

3.1 Markov Chain Monte Carlo per l’apprendi-
mento automatico
I metodi Markov Chain Monte Carlo (MCMC) sono formati da un’ampia
classe di algoritmi di campionamento ed hanno avuto un ruolo significati-
vo nell’ultimo ventennio in statistica, economia, fisica ed informatica. Ci
sono diversi problemi multidimensionali per cui la simulazione dei MCMC `
e
l’unico approccio generale noto per raggiungere una soluzione in un tempo
ragionevole (polinomiale nella dimensione del problema) ([1]).
Nel 1946 Stan Ulam svilupp` l’idea di selezionare un campione statistico
o
per approssimare un problema fortemente combinatoriale con un problema
molto pi` semplice. Questo approccio ` la base della moderna simulazione
u e
Monte Carlo. Successivamente Ulam contatt` J.Von Neumann che comprese
o
il grande potenziale di quest’idea. Insieme svilupparono molti degli algoritmi
Monte Carlo. Anche N.Metropolis fu affascinato da questi metodi e pubblic`
o
vari articoli, alcuni in collaborazione con Ulam. All’inizio degli anni ’50 pro-
pose l’algoritmo di che porta il suo nome, generalizzato nel 1970 da Hastings.
Gli studi proseguirono, ma solo dagli anni ’80 in poi i MCMC ebbero un im-

43

CAPITOLO 3. STRUMENTI TEORICI E METODOLOGICI 44

patto significativo in intelligenza artificiale, statistica, computer vision e nelle
reti neurali.
Le tecniche MCMC vengono spesso applicate per risolvere problemi di
integrazione e ottimizzazione in spazi a molte dimensioni. Questi due tipi
di problemi giocano un ruolo fondamentale nell’apprendimento automatico,
in fisica ed in statistica. Altre applicazioni importanti sono state fatte nella
simulazione di sistemi fisici. I metodi MCMC forniscono una strategia per
generare campioni x(i) durante l’esplorazione di uno spazio di stato X usando
un meccanismo a catena di Markov. Questo meccanismo ` costruito in modo
e
tale che la catena passi pi` tempo nelle regioni pi` importanti. In particolare
u u
esso ` tale che i campioni x(i) simulano campioni estratti da una distribuzione
e
obiettivo p (x). E’ importante sottolineare che si usano i MCMC quando non
si possono estrarre campioni direttamente da p (x), ma si pu` valutare p (x)
o
a meno di una costante di normalizzazione.
In uno spazio di stato finito , in cui x(i) pu` assumere solo s valori discreti,
o
ovvero x(i) ∈ X = {x1 , x2 , . . . , xs }, il processo stocastico x(i) ` detto catena
e
di Markov se
p x(i) |x(i−1) , . . . , x(1) = T x(i) |x(i−1) .

La catena ` omogenea se la matrice T =T x(i) |x(i−1) rimane invariante per
e ˙
ogni i, con x(i) T x(i) |x(i−1) = 1 per ogni i. L’evoluzione della catena
nello spazio X , cio`, dipende unicamente dallo stato corrente della catena e
e
da una matrice di transizione fissata. Ad esempio, consideriamo una catena
di Markov formata da 3 stati (s=3) e un grafo di transizione come quello in
figura 3.1. La matrice di transizione per questo esempio sia
 
0 1 0
 
T = 0 0.1 0.9 

0.6 0.4 0

Se il vettore di probabilit` per lo stato iniziale ` µ x(1) = (0.5, 0.2, 0.3),
a e
ne segue che, approssimando, µ x(1) T = (0.2, 0.6, 0.2) e, dopo varie i-
terazioni (moltiplicazioni per T ), il prodotto µ x(1) T t converge a p (x) =


Figura 3.1: Grafo di transizione per una catena di Markov a tre stati


(0.2, 0.4, 0.4). Non importa quale sia la distribuzione iniziale µ x(1) usata,
la catena di stabilizzer` su p (x) = (0.2, 0.4, 0.4). Questo risultato di stabilit`
a a
gioca un ruolo fondamentale nella simulazione MCMC. Per qualunque punto
di inizio, la catena converger` alla distribuzione invariante p (x), ﬁntanto che
a
T ` una matrice stocastica che presenta le seguenti propriet`:
e a

1. irriducibilit` : per ogni stato della catena, esiste una probabilit` posi-
a a
tiva di visitare tutti gli altri stati. In altre parole, la matrice T non
pu` essere ridotta a matrici separate pi` piccole, ovvero il grafo di
o u
transizione ` connesso.
e

2. aperiodicit` : la catena non dovrebbe restare bloccata in cicli.
a

Una condizione suﬃciente, ma non necessaria, per assicurare che una
particolare p (x) sia la distribuzione invariante desiderata ` la condizione di
e
reversibilit` (detailed balance) seguente
a

p x(i) T x(i−1) |x(i) = p x(i−1) T x(i) |x(i−1) .

Sommando entrambi i membri su x(i−1) si ottiene

p x(i) = p x(i−1) T x(i) |x(i−1) .
x(i−1)

I campionatori MCMC sono catene di Markov irriducibili e aperiodiche che
hanno la distribuzione obiettivo come distribuzione invariante. Un modo
di progettare questi campionatori consiste nell’assicurare che la condizione
di reversibilit` sia rispettata. Inoltre ` importante progettarli in modo che
a e
convergano velocemente.
In uno spazio di stato continuo la matrice di transizione T diventa il
kernel di un integrale, K, e p (x) diventa l’autofunzione corrispondente

p x(i) K x(i+1) |x(i) dx(i) = p x(i+1) .

Il kernel K ` la densit` condizionata di x(i+1) dato il valore x(i) .
e a


3.1.1 Il principio di Monte Carlo
L’idea della simulazione di Monte Carlo ` quella di estrarre un insieme di cam-
e
N
pioni x(i) i=1
da una densit` obiettivo p (x) definita su uno spazio a pi` di-
a u
mensioni X (ad esempio, le possibili configurazioni di un sistema, lo spazio su
cui ` definita la probabilit` a posteriori o l’insieme combinatoriale di soluzioni
e a
praticabili). Questi N campioni possono essere usati per approssimare la
densit` obiettivo con la seguente funzione empirica punto-massa
a
N
1
pN = δx(i) (x)
N i=1

dove δx(i) denota il delta di Dirac centrato in x(i) . Di conseguenza, si pos-
sono approssimare gli integrali (o le sommatorie molto grandi) I (f ) con le
sommatorie trattabili IN (f ) che convergono come segue
N
1
IN (f ) = f x(i) −→N →∞ I (f ) = f (x) p (x) dx.
N i=1 X

Questo significa che, se la stima di IN (f ) non ` parziale e secondo la legge dei
e
grandi numeri, converger` quasi sicuramente a I (f ). Se la varianza (nel caso
a
univariato, per semplicit`) di f (x) soddisfa σf = Ep(x) (f 2 (x)) − I 2 (f ) < ∞,
a 2
2
σf
allora la varianza della stima IN (f ) ` uguale a var (IN (f )) =
e N
e il teorema
del limite centrale garantisce la convergenza in distribuzione dell’errore
√ 2
N (IN (f ) − I (f )) =⇒N →∞ N 0, σf ,

dove =⇒ indica la convergenza in distribuzione. Il vantaggio dell’integrazione
di Monte Carlo sull’integrazione deterministica nasce dal fatto che la prima
posiziona la griglia di integrazione (i campioni) in regioni ad alta probabilit`.
a
Gli N campioni possono essere usati anche per ottenere un massimo della
funzione obiettivo p (x) nel modo seguente

x = arg
ˆ max p x(i) .
x(i) ;i=1,...,N

Comunque si pu` mostrare che ` possibile costruire algoritmi di simu-
o e
lated annealing che permettono di campionare approssimativamente da una
distribuzione il cui supporto ` l’insieme di massimi globali.
e


3.2 L’algoritmo di Metropolis-Hastings
L’algoritmo di Metropolis-Hastings ` il pi` popolare dei metodi Monte Carlo
e u
(Hastings, 1970; Metropolis et al., 1953).
Un passo di questo algoritmo con la distribuzione invariante p (x) e la
distribuzione proposta q (x |x) consiste nel campionare un valore candidato
x dato il corrente valore di x secondo q (x |x). La catena di Markov a
quel punto si muove verso x con una probabilit` di accettazione A (x, x ) =
a
min 1, [p (x) q (x |x)]−1 p (x ) q (x|x ) , altrimenti rimane su x. Questo ` lo
e
pseudo-codice:

1. si inizializza x(0) .

2. for i =0 to N -1

• campionare dalla distribuzione uniforme u ∼ U[0,1] .
• campionare x ∼ q x |x(i) .
p(x )q (x(i) |x )
• if u < A x(i) , x = min 1, p x(i) q x |x(i)
( )( )

x(i+1) = x

else
x(i+1) = xi .

L’algoritmo MH ` molto semplice, ma richiede una scelta attenta della
e
distribuzione proposta q x |x(i) .
Il kernel di transizione per l’algoritmo MH `
e

KM H x(i+1) |x(i) = q x(i+1) |x(i) A x(i) , x(i+1) + δx(i) x(i+1) r x(i) ,

dove δx(i) denota un delta di Dirac centrato in x(i) e r x(i) ` il termine
e
associato al rigetto (rejection)

r x(i) = q x |x(i) 1 − A x(i) , x dx .
X

Apprendimento di movimenti della testa tramite Hidden Markov Model

Apprendimento di movimenti della testa tramite Hidden Markov Model

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (17)

Similar to Apprendimento di movimenti della testa tramite Hidden Markov Model

Similar to Apprendimento di movimenti della testa tramite Hidden Markov Model (20)

More from Fausto Intilla

More from Fausto Intilla (20)

Apprendimento di movimenti della testa tramite Hidden Markov Model