La lematización de textos
Elena Álvarez Mellado
Seminario Filologías Digitales hoy
¿Qué es la
lematización?
¿Cómo funciona
un lematizador?
limones
dijo
corruptas
nueces
cantábamos
limón
decir
corrupto
nuez
cantar
LEMATIZADOR
corruptísimas
tuerquecita
riéndose
dándoselas
corrupta
tuerca
reír
dar
LEMATIZADOR
- Lexicón
(lemas+categorías)
- Reglas morfológicas
- Paciencia.
Ingredientes para hacer
un lematizador:
Termina en -ito/a(s)
-illo/a(s)
-ísimo/a(s)
(sílaba tónica)
Quitamos la terminación:
arbolito>árbol
Añadimos O/E/IO
guapillo, excelentísimo, sucísimo
¿Raíz irregular?
QU->C; GU->G; GÜ->G; C->Z
En el caso de Z:
arrocito>arroc->arroz
Añado O/A
poquillo->poco;
agüita->agua;
Última vocal de la raíz
O->UE (fortísimo) E->IE
(calentito)
¿Termina en -bil?
-bil->ble (amabilísimo)
¿Termina en -rc /-nc/vocal+c?
mayorcito, camioncito, sofacito
¿Termina en -ec?
florecita
Añado O/E/IO
viejecito, sobrecito,
seriecísimo
¿Termina en -cec?
piececito->piecec->pie
Añadimos Z:
pececito->pecec->pez
Sí
¿Conozco esta palabra?
¿Está en mi base de datos
(lemario)?
Miro en el lemario su
lema y su
categoría
(MEMORIA)
Aplico el programa de
reglas
morfológicas
(REGLAS)
No
"palabra": "los"
"lema": "el"
"categoria": "articulo"
"analisis": "ADMP"
"palabra": "ciudadanos"
"lema": "ciudadano"
"categoria": "sustantivo"
"analisis": "NCMP"
"palabra": "reciben"
"lema": "recibir"
"categoria": "verbo"
"analisis": "VPI3P"
"palabra": "el"
"lema": "el"
"categoria": "articulo"
"analisis": "ADMP"
"palabra": "euro"
"lema": "euro"
"categoria": "sustantivo"
"analisis": "NCMP"
"palabra": "con"
"lema": "con"
"categoria": "preposición"
"analisis": "P000"
"palabra": "euforia"
"lema": "euforia"
"categoria": "sustantivo"
"analisis": "NCFS"
Los ciudadanos reciben el euro
con euforia
Pon un lematizador
en tu vida
Lematizadores de código abierto
Freeling (UPC)
NLTK (Natural Language Toolkit)
openNLP
Stanford CoreNLP
API
AntConc
+
Corpus anotados
Corpus AnCora (UB)
GitHub del grupo CLIG: FR ES PT
Corpus BROWN y LOB
Stanford NLP corpora
Corpus lematizados consultables
Corpus del español de Mark Davis
http://corpusdelespanol.org/
CORPES (RAE)
http://web.frl.es/CORPES/view/inicioExterno.
view
La lematizacion de textos
La lematizacion de textos

La lematizacion de textos