SlideShare a Scribd company logo
1 of 18
Download to read offline
CLiC
Centre de Llenguatges i Computació

Aprenentatge Automàtic 
pel 
Processament del Llenguatge Natural
Classificació 
d'Entitats amb Nom

Jordi Duran i Cals
Desembre del 2006
CLiC
Centre de Llenguatges i Computació

Aprenentatge Automàtic pel 
Processament del Llenguatge Natural
 Índex
–

Introducció

–

Aprenentatge Automàtic

–

Aplicació de l’Aprenentatge Automàtic en el 
Processament del Llenguatge Natural  
(Classificació d'Entitats amb Nom)

 

 
CLiC
Centre de Llenguatges i Computació

Introducció
Aprenentatge Automàtic
Aplicació del ML en el NPL

El per què d’aprendre
 Situacions complexes:
–
–

Capacitats humanes que no som capaços d’explicar 
(speech recognition)
Experiències humanes que no hem tingut (exploració 
d’altres planetes) és dificultós i es necessita temps

 Tenim dades en grans quantitats i barates, per altra 

banda el coneixement és car i escàs
–

Crear sistemes manualment és dificultós i es necessita 
temps
 
CLiC
Centre de Llenguatges i Computació

Introducció
Aprenentatge Automàtic
Aplicació del ML en el NPL

Aprendre a aprendre
La  didàctica és la branca de la pedagogia que s’ocupa d’estudiar com ha de 
funcionar l’aprenentatge en els éssers humans de manera òptima, és a dir, 
quina és la millor manera d’ensenyar uns determinats continguts o habilitats.
L’estratègia d’aprenentatge basada 
  Estratègies d’aprenentatge
en la imitació, és sens dubte un dels 
– Anàlisi i discussió de casos
procediments més naturals 
– Imitació de models
d’enfrontar­se a les coses... Els nens 
petits, i no tant petits..., fan servir els 
– Procediments d'interrogació
models més propers com a pauta 
d’acció ­ reflexió...

Com es veurà es vol simular el comportament humà
 
 
CLiC

Introducció

Centre de Llenguatges i Computació

Aprenentatge Automàtic
Aplicació del ML en el NPL

Aprenentatge
 Adquirir coneixement des d’exemples concrets

Dades

Observar
Adquirir

Coneixement
(model)

– El coneixement adquirit (model) és una bona aproximació de 
les dades observades?
Es pot avaluar
 
CLiC
Centre de Llenguatges i Computació

Introducció
Aprenentatge Automàtic
Aplicació del ML en el NPL

Aprenentatge Automàtic (ML)


ML s’engloba dins de la Intel∙ligència Artificial (IA)



S’aplica en molts altres camps d’investigació



Fer que els ordinadors adquireixin automàticament algun 
tipus de coneixement a partir de l’observació d’un determinat 
conjunt de dades



Els ordinadors són el mitjà (suport)



Els algoritmes (programari) donen la funcionalitat de 
l’aprenentatge automàtic
 
CLiC

Introducció

Centre de Llenguatges i Computació

Aprenentatge Automàtic
Aplicació del ML en el NPL

Aprenentatge Automàtic (ML)


Obtenir una descripció d’un concepte en algun camp del 
processament del llenguatge natural que ens permeti mostrar 
observacions i ajudi a predir noves instàncies d’aquesta distribució

Dades

Observar
Adquirir

Coneixement
(model)

Noves 
dades

Aplicar

– L’estadística ens servirà per inferir a través de les mostres
– La computació  ens permetrà crear algoritmes eficients per:
resoldre problemes d’optimització
Representar i avaluar els models

 
CLiC
Centre de Llenguatges i Computació

Introducció
Aprenentatge Automàtic
Aplicació del ML en el NPL

Aprenentatge Automàtic (ML)
 Tipus de ML
–

–

Paradigmes de ML

Aprenentatge Supervisat:
Volem aprendre una relació 
entre unes i altres dades

– Arbres de decisió

Aprenentatge no Supervisat:
Tenim només unes úniques 
dades i volem trobar­hi 
regularitats entre elles

– Inducció Lògica

– Llistes de decisió
– Clustering
– Algoritmes genètics
– Xarxes neuronals
– Maquines de Vectors 
de Suport
– etc..
 
CLiC

Introducció

Centre de Llenguatges i Computació

Aprenentatge Automàtic
Aplicació del ML en el NPL

Tasques de NLP











Speech Recognition
Spelling Correction
Part­of­speech tagging
Word­sense disambiguation
Parsing (full/shallow)
Information retrieval
Information extraction
Machine Translation
NE Classification
I un llarg etc.

Paradigmes de ML
– Arbres de decisió
– Llistes de decisió
– Clustering
– Inducció Lògica
– Algoritmes genètics
– Xarxes neuronals
– Maquines de Vectors de 
Suport
– etc..
 
CLiC

Introducció

Centre de Llenguatges i Computació

Aprenentatge Automàtic
Aplicació del ML en el NPL

Interacció entre ML i NLP
De ML a NLP
–

Trobar la solució més apropiada per cada tipus de problema

De NLP a ML
–

Problemes que plantegen reptes interessants ja que contenen 
característiques com ara: conjunts d’entrenament 
extremadament grans (o petits), alta dimensionalitat, atributs 
dependents, soroll en les dades, no només problemes de 
classificació, etc.    
 

 
CLiC

Introducció

Centre de Llenguatges i Computació

Aprenentatge Automàtic
Aplicació del ML en el NPL

ML per NLP


Formalització del problema
–

Representació
Cadenes de caràcters

Dades

Dades

R

Vectors de característiques
Tipus d’estructures

E

Etc. (camp molt obert)
–

Entrenament
Aplicar paradigma de ML

–

Objectiu

Coneixement
(model)

O

Classificar
Reconèixer
Detecció
Etc.

 
CLiC

Introducció

Centre de Llenguatges i Computació

Aprenentatge Automàtic
Aplicació del ML en el NPL

ML per NLP
 El Model
Representa la informació apresa 
en funció del paradigma utilitzat
–

Regles

–

Exemples d’una classe

–

Etc.
A?
B?
D?
 

y

C?
E?

z

x

z
 z

x
CLiC

Introducció

Centre de Llenguatges i Computació

Aprenentatge Automàtic
Aplicació del ML en el NPL

Classificació d’Entitats amb Nom (NE)


Aprenentatge automàtic supervisat (Surdeanu et al, 2005; Màrquez et al, 
2003)



Aprenentatge automàtic no supervisat (Collins, 1999)
Dades



Extracció de 
característiques

Dades

            E

Coneixement
(model)

Etiquetatge manual



R

Forma Lema Forma[n­1..n] Forma[n­2..n] Forma[n­3..n] TextWithoutAlphabetic
TextWithoutNumber isAllCap isAllCapOrDots isAllDigits isAllDigitsOrDotsComm
isInitialCap PoS BIO

 

 

O
CLiC

Introducció

Centre de Llenguatges i Computació

Aprenentatge Automàtic
Aplicació del ML en el NPL

Classificació d’Entitats amb Nom (NE)


Aprenentatge automàtic supervisat (Surdeanu et al, 2005; Màrquez et al, 
2003)



Aprenentatge automàtic no supervisat (Collins, 1999)

...
Creu
Roja
ha
...

eu
ja
ha

reu
Creu
oja
Roja
__nill__

__nill__
__nill__
__nill__

Creu N
Roja N
__nill__

N
N
ha

a

a

__nill__

__nill__

__nill__

__nill__

106,52

106,52

52

,52

6,52

euros euro

es

nes

enes

__nill__

per

er

per

__nill__

__nill__

co

esco

per

N
N
N

N
N
N

Y
Y
N

NCFS000
AQ0FS0
N
N

B­ORGANIZATION
I­ORGANIZATION
VAIP3S0
O

a

N

N

N

N

N

SPS00 O

N

Z

B­MONEY

106,52

,

N

N

Y

Y

euros N

N

N

N

N

NP00000

N

N

N

N

N

SPS00 O

UNESCO

Y

Y

N

N

per

I­MONEY

...
UNESCO

unesco

B­ORGANIZATION
...

sco

__nill__

 

 

Y

NP00000
CLiC

Introducció

Centre de Llenguatges i Computació

Aprenentatge Automàtic
Aplicació del ML en el NPL

Classificació d’Entitats amb Nom (NE)


Aprenentatge automàtic supervisat (Surdeanu et al, 2005; Màrquez et al, 
2003)



Aprenentatge automàtic no supervisat (Collins, 1999)

Dades

Representats 

Inferir Cat.

Etiquetades

Representats 

Classificar

de cada

de cada

Categoria

categoria

 

Finals

 
CLiC

Introducció

Centre de Llenguatges i Computació

Aprenentatge Automàtic
Aplicació del ML en el NPL

Classificació d’Entitats amb Nom (NE)


Aprenentatge automàtic supervisat (Surdeanu et al, 2005; Màrquez et al, 
2003)



Aprenentatge automàtic no supervisat (Collins, 1999)
Dades



R

Dades

Definició de regles llavor
Extracció de característiques

Coneixement
(model)

            E

Llista de decisió
Text (New_York)  Lloc
Text (Barcelona)  Lloc

–

Tipus de Sintagma

–

Conté

Conté (Corporació)  Organització

–

Trigger Word

TotesMajúscules (si)  Organitzaciö

–

Tipus de context (aposició, SP)
 

...

Conté (Sr.)  Persona

 

O
CLiC

Introducció

Centre de Llenguatges i Computació

Aprenentatge Automàtic
Aplicació del ML en el NPL

Classificació d’Entitats amb Nom (NE)


Aprenentatge automàtic supervisat (Surdeanu et al, 2005; Màrquez et al, 
2003)




Aprenentatge automàtic no supervisat (Collins, 1999)

Regles 

Regles 

Regles

Llavor

 aplicades

Dades

Regles 
Inferides

Inferides

Finals

Etiqueta Dades
Inferir Regles
 

 
CLiC
Centre de Llenguatges i Computació

Bibliografia


Machine Learning; Mitchell, 1997



Machine Learning in Speech and Language Technologies; Roth, Fung, 
2005



Machine Learning Approaches for Natural Language Processing; Collins, 
2003



Projects in Machine Learning; Alpaydin, 2004



Unsupervised Models for Named Entity Classification; Collins et al, 1999



Low­cost Named Entity Classification for Catalan; Màrquez et al, 2005



Mètodes Empírics pel processament del llenguatge natural; Doctorat en 
Intel∙ligència Artificial (UPC), Ll. Màrquez
 

 

More Related Content

Viewers also liked

Planeación informática preescolar ciclo 2015 - 2016
Planeación informática preescolar ciclo 2015 - 2016Planeación informática preescolar ciclo 2015 - 2016
Planeación informática preescolar ciclo 2015 - 2016Editorial MD
 
Sillabus didáctica i vi comp-c arlos laurente
Sillabus didáctica i   vi comp-c arlos laurenteSillabus didáctica i   vi comp-c arlos laurente
Sillabus didáctica i vi comp-c arlos laurenteCarlos Laurente
 
Partes del computador i.ppt
Partes del computador i.pptPartes del computador i.ppt
Partes del computador i.pptMaria Lujan
 
Programación anual de computación.
Programación anual de computación.Programación anual de computación.
Programación anual de computación.Marly Rodriguez
 
El Abc De La ComputacióN Escolar
El Abc De La ComputacióN EscolarEl Abc De La ComputacióN Escolar
El Abc De La ComputacióN Escolarjpgv84
 
COMPUTACION PARA PEQUES POR LUCIA VILLEGAS
 COMPUTACION PARA PEQUES POR LUCIA VILLEGAS COMPUTACION PARA PEQUES POR LUCIA VILLEGAS
COMPUTACION PARA PEQUES POR LUCIA VILLEGASLucía Villegas
 
computacion primaria basica 3
computacion primaria basica 3computacion primaria basica 3
computacion primaria basica 3Innovattech
 

Viewers also liked (9)

Powerpoint infantil el ordenador
Powerpoint infantil el ordenadorPowerpoint infantil el ordenador
Powerpoint infantil el ordenador
 
Planeación informática preescolar ciclo 2015 - 2016
Planeación informática preescolar ciclo 2015 - 2016Planeación informática preescolar ciclo 2015 - 2016
Planeación informática preescolar ciclo 2015 - 2016
 
Sillabus didáctica i vi comp-c arlos laurente
Sillabus didáctica i   vi comp-c arlos laurenteSillabus didáctica i   vi comp-c arlos laurente
Sillabus didáctica i vi comp-c arlos laurente
 
Partes del computador i.ppt
Partes del computador i.pptPartes del computador i.ppt
Partes del computador i.ppt
 
Programación anual de computación.
Programación anual de computación.Programación anual de computación.
Programación anual de computación.
 
El Abc De La ComputacióN Escolar
El Abc De La ComputacióN EscolarEl Abc De La ComputacióN Escolar
El Abc De La ComputacióN Escolar
 
COMPUTACION PARA PEQUES POR LUCIA VILLEGAS
 COMPUTACION PARA PEQUES POR LUCIA VILLEGAS COMPUTACION PARA PEQUES POR LUCIA VILLEGAS
COMPUTACION PARA PEQUES POR LUCIA VILLEGAS
 
3 años sesión de aprendizaje
3 años sesión de aprendizaje3 años sesión de aprendizaje
3 años sesión de aprendizaje
 
computacion primaria basica 3
computacion primaria basica 3computacion primaria basica 3
computacion primaria basica 3
 

Aprenentatge Automàtic pel Processament del Llenguatge Natural