Original title in Spanish: Desambiguación de Palabras Polisémicas mediante Aprendizaje Semi-supervisado
Date: November 19, 2012
Venue: Córdoba, Argentina. Project on Word Sense Disambiguation for the MSc Specialization Course "Artificial Intelligence" at FaMAF, UNC (Faculty of Mathematics, Astronomy, Physics and Computation, National University of Córdoba)
Video: https://www.youtube.com/watch?v=qv9qZaBw-Qw
18.
[…] En este caso, la causa
de los movimientos sísmicos
es la acción de una base
de misiles nucleares.[...]
3 La (((no) muy) larga) etapa de preprocesamiento
En en SPS00 1
este este DD0MS0 0.956743
caso caso NCMS000 0.990741
, , Fc 1
la el DA0FS0 0.972146
causa causa NCFS000 0.794872
de de SPS00 0.999919
los el DA0MP0 0.97623
movimientos movimiento NCMP000 1
sísmicos sísmico AQ0MP0 1
es ser VSIP3S0 1
la el DA0FS0 0.972146
acción acción NCFS000 1
de de SPS00 0.999919
una uno DI0FS0 0.951241
base base NCCS000 0.955882
de de SPS00 0.999919
misiles misil NCMP000 1
nucleares nuclear AQ0CP0 1
. . Fp 1
caso caso NCMS000 0.990741
causa causa NCFS000 0.794872
movimientos movimiento NCMP000 1
sísmicos sísmico AQ0MP0 1
acción acción NCFS000 1
base base NCCS000 0.955882
misiles misil NCMP000 1
nucleares nuclear AQ0CP0 1
. . Fp 1
m
ovim
iento
→ POStagging →
tener
hacer
acci
ó
n
caso
base
s
ísm
ico
causa
.... .... .... .... … …
1 0 0 ...... 1 ....... 1 ..... 1 ..... 1 .... 1 ....
←
Filtro
por
palabras
de
← contenido
→ Construir lexicon + tuplas:
20.
4 El algoritmo de listas de decisión
● Colocación: ej 'mundo'
● Evidencia E: ej “la palabra
'mundo' ocurre en la oración”
● Etiquetado inicial: ejemplos a
mano vs colocaciones semilla
● Para regla (E A)→ , confiabilidad
de que la evidencia E determine
el sentido A = C(E, A) =
=
● Aceptación de reglas:
confiabilidad > 0.95
cobertura = # evidencia > 0
nro deoraciones tq E y A
nrode oracionestq E y Ao B
21.
4 El algoritmo de listas...
0
500
1000
1500
2000
2500
3000
1 2 3 4 5 6
Cantidadesdereglas
Numero de iteracion
Proporcion de reglas aceptadas y rechazadas por iteracion
Palabra target: 'interes'
Nro_aceptadas
Nro_rechazadas_por_cobertura
Nro_rechazadas_por_probabilidad
22.
0
2000
4000
6000
8000
10000
12000
14000
0 1 2 3 4 5 6
Sizesdelossubconjuntos
Numero de iteracion
Proporcion de subconjuntos de ejemplos por iteracion
Palabra target: 'interes'
Size_set_A
Size_set_B
Size_set_No_labeled
4 El algoritmo de listas...
36.
5 Evaluación y resultados
● Evaluación bananadoor:
Enfoque simple: una palabra target en realidad proviene de reemplazar
sus diferentes sentidos o definiciones
● “...por su naturaleza humana, ...” ← “...por su índole humana, ...”
● “...comer una manzana...” ← “...comer un fruto del Malus domestica,
de forma globosa algo hundida por los extremos del eje, de
epicarpio delgado, liso y de color verde claro, amarillo pálido o
encarnado, mesocarpio con sabor acídulo o ligeramente
azucarado, y semillas pequeñas, de color de caoba, encerradas
en un endocarpio coriáceo....”
Reemplazamos en corpus toda 'vida' o 'ciudad' por target 'vidaciudad'
Hacemos preprocesamiento (info inicial, filtrado...) + algoritmo
Evaluación bananadoor