SlideShare una empresa de Scribd logo
1 de 60
Descargar para leer sin conexión
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Analizador sintáctico probabilístico con clasicación 
de argumentos de verbo para el idioma español. 
John Alexander Vargas 
Escuela de Ingeniería de Sistemas y Computación 
Facultad de Ingeniería 
Universidad del Valle 
VII Simposio de Investigación, 2014 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Agenda 
1 Analizador Sintáctico Probabilístico 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
2 Clasicación semántica con SVM 
Máquinas de vectores de soporte 
Características lingüisticas para el SVM 
Implementación del modelo SVM 
3 Análisis sintáctico con clasicación semántica 
Integración del clasicador en el analizador 
Métricas de evaluación 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Análisis sintáctico 
Tarea principal 
Describir cómo las palabras de la oración se relacionan y cuál es la 
función que cada palabra realiza en esa oración, es decir, construir 
la estructura de la oración de un lenguaje. 
Depende la correcta comprensión del mensaje escrito, que es la 
base de cualquier eventual interpretación del mismo. 
Aplicaciones como la extracción de información 
Traducción de textos 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Análisis sintáctico 
Tarea principal 
Describir cómo las palabras de la oración se relacionan y cuál es la 
función que cada palabra realiza en esa oración, es decir, construir 
la estructura de la oración de un lenguaje. 
Depende la correcta comprensión del mensaje escrito, que es la 
base de cualquier eventual interpretación del mismo. 
Aplicaciones como la extracción de información 
Traducción de textos 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Ejemplo 
Ejemplo de una gramática libre de contexto y de un árbol sintáctico 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Gramáticas probabilísticas libres de contexto 
La probabilidad de un árbol 
La probabilidad de un árbol t con reglas 
a1 !b1;a2 !b2; : : : ;an !bn 
es p(t) = Õni 
=1 q(ai !bi ) 
where q(a !b) es la probabilidad de la regla a !b 
S !NP VP 1;0 
NP !Sust 0;4 
NP !Det Sust 0;3 
VP !V NP 0;7 
La probabilidad para el árbol seria 
p(t) = 0;84 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Gramáticas probabilísticas libres de contexto 
La probabilidad de un árbol 
La probabilidad de un árbol t con reglas 
a1 !b1;a2 !b2; : : : ;an !bn 
es p(t) = Õni 
=1 q(ai !bi ) 
where q(a !b) es la probabilidad de la regla a !b 
S !NP VP 1;0 
NP !Sust 0;4 
NP !Det Sust 0;3 
VP !V NP 0;7 
La probabilidad para el árbol seria 
p(t) = 0;84 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Algoritmo de programación dinámica 
Dado una PCFG y una sentencia s, 
¾Cómo encontrar maxt2T (s) p(t)? 
Notación: 
n: número de palabras en la sentencia 
wi : i-ésima palabra de la sentencia 
N: El conjunto de no terminales de la gramática 
S: El símbolo inicial de la gramática 
Dene una tabla de programación dinámica 
p[i ; j ; X] = máxima probabilidad de un constituyente con 
no-terminal X que abarca las palabras i : : : j (inclusive) 
La meta es calcular maxt2T (s)p(t) = p[1; n; S] 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Algoritmo de programación dinámica 
Dado una PCFG y una sentencia s, 
¾Cómo encontrar maxt2T (s) p(t)? 
Notación: 
n: número de palabras en la sentencia 
wi : i-ésima palabra de la sentencia 
N: El conjunto de no terminales de la gramática 
S: El símbolo inicial de la gramática 
Dene una tabla de programación dinámica 
p[i ; j ; X] = máxima probabilidad de un constituyente con 
no-terminal X que abarca las palabras i : : : j (inclusive) 
La meta es calcular maxt2T (s)p(t) = p[1; n; S] 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Algoritmo de programación dinámica 
Dado una PCFG y una sentencia s, 
¾Cómo encontrar maxt2T (s) p(t)? 
Notación: 
n: número de palabras en la sentencia 
wi : i-ésima palabra de la sentencia 
N: El conjunto de no terminales de la gramática 
S: El símbolo inicial de la gramática 
Dene una tabla de programación dinámica 
p[i ; j ; X] = máxima probabilidad de un constituyente con 
no-terminal X que abarca las palabras i : : : j (inclusive) 
La meta es calcular maxt2T (s)p(t) = p[1; n; S] 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
El algoritmo CKY 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Outline 
1 Analizador Sintáctico Probabilístico 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
2 Clasicación semántica con SVM 
Máquinas de vectores de soporte 
Características lingüisticas para el SVM 
Implementación del modelo SVM 
3 Análisis sintáctico con clasicación semántica 
Integración del clasicador en el analizador 
Métricas de evaluación 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Modelos de análisis de Collins 
Tres modelos generativos lexicalizados propuestos por Michael 
Collins 
Modelo 1: Modelo generativo con cabezas lexicalizadas. 
Modelo 2: Modelo 1 + distinción de complementos/adjuntos y 
subcategorización. 
Modelo 3: Modelo 2 + traza del movimiento de la 
núcleo-cabeza. 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Modelo básico 
Lo primero que se nota en cada regla de una PCFG 
lexicalizada es la forma 
P(h)!Ln(ln) : : :L1(l1)H(h)R1(r1) : : :Rm(rm) 
H es el núcleo sintáctico de la frase, el cuál hereda la 
palabra-núcleo h, de su padre P. 
L1 : : :Ln y R1 : : :Rm son modicadores de izquierda y derecha 
del núcleo H. 
Tanto n como m pueden ser cero, Si n = m = 0, son reglas 
unarias. 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Generación del modelo 
La generación de RHS de cada regla, dada el LHS, ha sido 
descompuesta en tres pasos: 
1 Generación de la etiqueta del núcleo constituyente de la frase, 
con probabilidad PH(HjP;h). 
2 Generación de modicadores a la izquierda del núcleo con 
probabilidad Õi=1:::n+1PL(Li (li )jP;h;H), donde 
Ln+1(ln+1) = STOP. El símbolo STOP es adicionado al 
vocabulario de no-terminales, y el modelo para generando 
modicadores a la izquierda donde ha sido generado. 
3 Generación de modicadores a la derecha del núcleo con 
probabilidad Õi=1:::n+1PR(Ri (ri )jP;h;H), Rm+1(rm+1) es 
denida como STOP. 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Adicionando métrica de distancia 
Collins introduce una medidad de distancia entre las palabras 
l y r 
No es una distancia real. Las funciones son heurísticas basadas 
en la dirección, adyacencia, posición y puntuación. 
El modelo queda: 
Pl (Li (li ) jH; P; h; L1(l1) : : :Li1(li1)) = 
Pl (Li (li ) jH; P; h; l (i 1)) 
Pr (Ri (ri ) jH; P; h; R1(r1) : : :Ri1(ri1)) = 
Pl (Ri (ri ) jH; P; h; r (i 1)) 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Adicionando métrica de distancia 
Collins introduce una medidad de distancia entre las palabras 
l y r 
No es una distancia real. Las funciones son heurísticas basadas 
en la dirección, adyacencia, posición y puntuación. 
El modelo queda: 
Pl (Li (li ) jH; P; h; L1(l1) : : :Li1(li1)) = 
Pl (Li (li ) jH; P; h; l (i 1)) 
Pr (Ri (ri ) jH; P; h; R1(r1) : : :Ri1(ri1)) = 
Pl (Ri (ri ) jH; P; h; r (i 1)) 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Modelo 2: Clasicación de modicadores 
Añadir un sujo C a los no terminales en los datos de 
entrenamiento para los que: 
El no terminal es un NP, SBAR, o S cuyo padre es una S, una 
NP, SBAR, S, o el vicepresidente cuyo padre es un 
vicepresidente, o un S cuyo padre es un SBAR. 
La no-terminal no debe tener una de las etiquetas semánticas: 
ADV, COV, BNF, DIR, EXT, LOC, MNR, TMP, CLR, o PRP. 
También marque el primer hijo después de una cabeza PP como 
complemento 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Marcos de subcategorización 
Dene un marco de subcategorización como una bolsa de 
no-terminales. 
Genera la cabeza con probabilidad PH(HjP;h) 
Selecciona los marcos de subcategorización del lado izquierdo y 
derecho con probabilidades Plc (LCjP;H;h) y Prc (RCjP;H;h) 
Genera los modicadores del lado derecho con probabilidad 
Pr (Ri (ri )jH;P;h;r (i 1);RC) 
Genera los modicadores del lado izquierdo con probabilidad 
Pl (Li (li )jH;P;h;r (i 1);LC) 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Marcos de subcategorización 
Dene un marco de subcategorización como una bolsa de 
no-terminales. 
Genera la cabeza con probabilidad PH(HjP;h) 
Selecciona los marcos de subcategorización del lado izquierdo y 
derecho con probabilidades Plc (LCjP;H;h) y Prc (RCjP;H;h) 
Genera los modicadores del lado derecho con probabilidad 
Pr (Ri (ri )jH;P;h;r (i 1);RC) 
Genera los modicadores del lado izquierdo con probabilidad 
Pl (Li (li )jH;P;h;r (i 1);LC) 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Marcos de subcategorización 
Dene un marco de subcategorización como una bolsa de 
no-terminales. 
Genera la cabeza con probabilidad PH(HjP;h) 
Selecciona los marcos de subcategorización del lado izquierdo y 
derecho con probabilidades Plc (LCjP;H;h) y Prc (RCjP;H;h) 
Genera los modicadores del lado derecho con probabilidad 
Pr (Ri (ri )jH;P;h;r (i 1);RC) 
Genera los modicadores del lado izquierdo con probabilidad 
Pl (Li (li )jH;P;h;r (i 1);LC) 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Modelo 3: Modelando trazas y movimientos de la cabeza 
Los formalismos similares a GPSG manejan movmientos de 
núcleos sintácticos adicionando una característica de diferencia 
(brecha) para cada no-terminal en el árbol y propagando estas 
diferencias a través de los árboles hasta que nalmente 
descargado como una traza de complemento. 
hay tres formas de que el gap sea pasado hacia abajo a el RHS. 
Head El gap es pasado al núcleo de la frase, como una regla. 
Left, Right El gap es pasado recursivamente a uno de los 
modicadores de la izquierda o derecha del núcleo, o 
descargando como un agrumento de traza a la izquierda o 
derecha del núcleo. 
Se especica un parámetro PG (GjP;h;H) donde G es otro 
Head, Left o Right. 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Modelo 3: Modelando trazas y movimientos de la cabeza 
Los formalismos similares a GPSG manejan movmientos de 
núcleos sintácticos adicionando una característica de diferencia 
(brecha) para cada no-terminal en el árbol y propagando estas 
diferencias a través de los árboles hasta que nalmente 
descargado como una traza de complemento. 
hay tres formas de que el gap sea pasado hacia abajo a el RHS. 
Head El gap es pasado al núcleo de la frase, como una regla. 
Left, Right El gap es pasado recursivamente a uno de los 
modicadores de la izquierda o derecha del núcleo, o 
descargando como un agrumento de traza a la izquierda o 
derecha del núcleo. 
Se especica un parámetro PG (GjP;h;H) donde G es otro 
Head, Left o Right. 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Outline 
1 Analizador Sintáctico Probabilístico 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
2 Clasicación semántica con SVM 
Máquinas de vectores de soporte 
Características lingüisticas para el SVM 
Implementación del modelo SVM 
3 Análisis sintáctico con clasicación semántica 
Integración del clasicador en el analizador 
Métricas de evaluación 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Trabajo de Bikel 
Dan Bikel construye un motor de análisis sintáctico 
multi-lenguaje con la capacidad de instanciar una gran 
variedad de modelos analizadores probabilisticos. 
Como modelo línea base apropiado se escoje instanciar los 
parámetros del modelo 2 de Collins. 
Bikel identicó once pasos de preprocesamiento necesarios 
para preparar los árboles de entrenamiento cuando se usa el 
modelo de análisis de Collins. 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Preprocesamiento de Bikel 
1 Eliminar nodos innecesarios 
2 Adicionando nodos base NP 
3 Reparando NPs base 
4 Adicionando información (solo aplicable al modelo 3) 
5 Re-etiquetación de sentencias 
6 Removiendo elementos nulos. 
7 Levantando puntuación. 
8 Identicación de argumentos no-terminales 
9 Eliminación de terminales no usados. 
10 Reparación Oraciones sin sujeto. 
11 Encontrar núcleos sintácticos. 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Reglas para encontrar la cabeza 
(grup.verb (r innitiu) (r gerundi) (r vmp) (r vsp) (r vap) (r 
vmi)) 
(S (r grup.verb) (r S) (r sn) ) 
(sn (r grup.nom)) 
(sp (l prep)) 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Outline 
1 Analizador Sintáctico Probabilístico 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
2 Clasicación semántica con SVM 
Máquinas de vectores de soporte 
Características lingüisticas para el SVM 
Implementación del modelo SVM 
3 Análisis sintáctico con clasicación semántica 
Integración del clasicador en el analizador 
Métricas de evaluación 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Ancora 
AnCOra (ANnotated CORpora) es un corpus del catalán 
(AnCOra-CA) y español (AnCOra-ES) con diferentes niveles 
de anotación. 
Cada corpus contiene 500.000 palabras que han sido 
construidas de manera incremental a través de trabajos previos 
como el corpus 3LB: 3LB-CAT y 3LB-ESP 
Ambos corpus estan automáticamente etiquetados con 
información morfosintáctica y chequeada manualmente. 
Ampliamente usados como corpus de entrenamiento para 
sistemas de aprendizaje 
Los corpus 3LB son sintácticamente etiquetados con 
constituyentes y funciones de una manera manual. 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Ancora 
AnCOra (ANnotated CORpora) es un corpus del catalán 
(AnCOra-CA) y español (AnCOra-ES) con diferentes niveles 
de anotación. 
Cada corpus contiene 500.000 palabras que han sido 
construidas de manera incremental a través de trabajos previos 
como el corpus 3LB: 3LB-CAT y 3LB-ESP 
Ambos corpus estan automáticamente etiquetados con 
información morfosintáctica y chequeada manualmente. 
Ampliamente usados como corpus de entrenamiento para 
sistemas de aprendizaje 
Los corpus 3LB son sintácticamente etiquetados con 
constituyentes y funciones de una manera manual. 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Información del corpus usada para el entrenamiento del 
analizador 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos Árbol sintáctico completo anotado con constituyentes.
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
Funciones sintácticas 
Sujeto -SUJ 
Objeto directo -CD 
Objeto indirecto -CI 
Atributo -ATR 
Complemento predicativo -CPRED 
Complemento preposicional -CREG 
Complemento agente -CAG 
Complemento adverbial -CC 
Complemento advervial (locativo) -CCL 
Complemento adverbial (temporal) -CCT 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Máquinas de vectores de soporte 
Características lingüisticas para el SVM 
Implementación del modelo SVM 
Outline 
1 Analizador Sintáctico Probabilístico 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
2 Clasicación semántica con SVM 
Máquinas de vectores de soporte 
Características lingüisticas para el SVM 
Implementación del modelo SVM 
3 Análisis sintáctico con clasicación semántica 
Integración del clasicador en el analizador 
Métricas de evaluación 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Máquinas de vectores de soporte 
Características lingüisticas para el SVM 
Implementación del modelo SVM 
Máquinas de vectores de soporte 
Las máquinas de vectores de soporte son derivados de la teoría 
de aprendizaje estadistico postulado por Vapnik y 
Chervonenkis en 1992. 
Técnica para clasicación de datos. 
Más fácil de utilizar que las redes neuronales. 
Trabajan en un espacio de características 
Son también conocidas como clasicadores de margen amplio. 
Clasicación multiclase 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Máquinas de vectores de soporte 
Características lingüisticas para el SVM 
Implementación del modelo SVM 
Máquinas de vectores de soporte 
Hay m observaciones y cada una consiste en un par de datos: 
Un vector xi 2 Rn; i : : : ;m 
Una etiqueta yi 2 f+1;1g 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Máquinas de vectores de soporte 
Características lingüisticas para el SVM 
Implementación del modelo SVM 
Máquinas de vectores de soporte 
Hay m observaciones y cada una consiste en un par de datos: 
Un vector xi 2 Rn; i : : : ;m 
Una etiqueta yi 2 f+1;1g 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Máquinas de vectores de soporte 
Características lingüisticas para el SVM 
Implementación del modelo SVM 
Kernel de un algoritmo SVM 
Idea: Transformar los ejemplos de entrenamiento en un espacio 
vectorial de alta dimensión ( N n ) (denominado espacio de 
características) 
Kernel lineal: k(~x;~y) =~x ~y 
Kernel polinómico: k(~x;~y) = (~x ~y +r )p 
Kernel gaussiano (función de base radial [RBF]): 
k(~x;~y) = e( 
kxg~~yk2 
2s2 ) 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Máquinas de vectores de soporte 
Características lingüisticas para el SVM 
Implementación del modelo SVM 
Preprocesamiento de datos 
Cada ejemplo: vector de números reales 
Si hay atributos categóricos - convertirlos a datos numéricos 
Ejemplo: un atributo con tres categorías posibles {rojo, verde, 
azul} se puede representar como (0,0,1), (0,1,0) y (1,0,0). 
Si el número de categorías del atributo no es muy grande, esta 
codicación puede ser más estable que usando un único 
número para cada una. 
Escalado de los datos antes de aplicar SVM 
Ventajas: 
Evitar que los atributos que tengan rangos grandes dominen 
sobre los que tengan rangos más pequeños 
Evitar dicultades numéricas durante el cálculo 
Escalar linealmente cada atributo al rango [-1,+1] o [0,1] 
Usar el mismo método de escalado para los datos de 
entrenamiento y los de prueba 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Máquinas de vectores de soporte 
Características lingüisticas para el SVM 
Implementación del modelo SVM 
Preprocesamiento de datos 
Cada ejemplo: vector de números reales 
Si hay atributos categóricos - convertirlos a datos numéricos 
Ejemplo: un atributo con tres categorías posibles {rojo, verde, 
azul} se puede representar como (0,0,1), (0,1,0) y (1,0,0). 
Si el número de categorías del atributo no es muy grande, esta 
codicación puede ser más estable que usando un único 
número para cada una. 
Escalado de los datos antes de aplicar SVM 
Ventajas: 
Evitar que los atributos que tengan rangos grandes dominen 
sobre los que tengan rangos más pequeños 
Evitar dicultades numéricas durante el cálculo 
Escalar linealmente cada atributo al rango [-1,+1] o [0,1] 
Usar el mismo método de escalado para los datos de 
entrenamiento y los de prueba 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Máquinas de vectores de soporte 
Características lingüisticas para el SVM 
Implementación del modelo SVM 
Outline 
1 Analizador Sintáctico Probabilístico 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
2 Clasicación semántica con SVM 
Máquinas de vectores de soporte 
Características lingüisticas para el SVM 
Implementación del modelo SVM 
3 Análisis sintáctico con clasicación semántica 
Integración del clasicador en el analizador 
Métricas de evaluación 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Máquinas de vectores de soporte 
Características lingüisticas para el SVM 
Implementación del modelo SVM 
Argumentos verbales 
Los argumentos son expresiones lingüisticas exigidas 
semánticamente por el núcleo. 
Los verbos tienen dos tipos básicos de argumentos: 
Complementos: Necesarios para el verbo. 
Adjuntos (circunstancial): Son complementos no exigidos por 
el verbo. 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Máquinas de vectores de soporte 
Características lingüisticas para el SVM 
Implementación del modelo SVM 
Características línea base 
Predicado: El lema del predicado es usado como 
característica. 
Path: La ruta sintáctica a través del árbol de análisis del 
constituyente al predicado clasicado. 
Tipo de frase: Esta es la categoría sintáctica. 
Posición: Característica binaria identicando si la frase esta 
antes o despues del predicado. 
Palabra-cabeza: La cabeza sintáctica de la frase. 
Subcategorización: Esta es la regla de estructura de frase 
expandiendo el nodo padre del predicado en el árbol de análisis. 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Máquinas de vectores de soporte 
Características lingüisticas para el SVM 
Implementación del modelo SVM 
Características sintácticas 
Posición de la entidad: la entidad puede estar a la izquierda 
o derecha del núcleo. 
Distancia de la entidad: el número de palabras existentes 
entre la entidad y el núcleo. 
Información morfológica de la entidad: modo, tiempo, 
persona y número. 
Longitud de la entidad: la secuencia de los n elementos de 
los n-gramas. 
Información morfológica del núcleo de la entidad. 
Entidad denida: una entidad se considera denida si su 
artículo es denido. 
Longitud del núcleo: secuencia de los n-elementos de los 
n-gramas del núcleo. 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Máquinas de vectores de soporte 
Características lingüisticas para el SVM 
Implementación del modelo SVM 
Outline 
1 Analizador Sintáctico Probabilístico 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
2 Clasicación semántica con SVM 
Máquinas de vectores de soporte 
Características lingüisticas para el SVM 
Implementación del modelo SVM 
3 Análisis sintáctico con clasicación semántica 
Integración del clasicador en el analizador 
Métricas de evaluación 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Máquinas de vectores de soporte 
Características lingüisticas para el SVM 
Implementación del modelo SVM 
libSVM: una implementación de SVM 
Implementa los tipos de entrenamiento y núcleos mas 
comunes. 
Permite clasicación multiclase. 
Implementa el procedimiento para realizar validación cruzada 
Métodos para obtener máquinas que proporcionen además la 
probabilidad de la clasicación. 
Incluye técnicas para reducir el coste de la constante C. 
Implementaciones en C++ y JAVA. 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Máquinas de vectores de soporte 
Características lingüisticas para el SVM 
Implementación del modelo SVM 
Parametrización de libSVM 
Se usa un kernel gausiano (RBF) con g = 27 
Parámetro de costo C = 32 
Se usa á técnica de validación cruzada para anar el conjunto 
de características. 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Integración del clasicador en el analizador 
Métricas de evaluación 
Outline 
1 Analizador Sintáctico Probabilístico 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
2 Clasicación semántica con SVM 
Máquinas de vectores de soporte 
Características lingüisticas para el SVM 
Implementación del modelo SVM 
3 Análisis sintáctico con clasicación semántica 
Integración del clasicador en el analizador 
Métricas de evaluación 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Integración del clasicador en el analizador 
Métricas de evaluación 
Modicación del modelo 
En el agoritmos CKY, en el método de unión de items, se 
clasica el item modicador, cuando el item modicado se 
trata de un verbo. 
Si la clasicación del item se encuentra dentro de las posibles 
subcategorizaciones del verbo, entonces se aumenta la 
probabilidad de selección. 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Integración del clasicador en el analizador 
Métricas de evaluación 
Información semántica de Ancora sobre los verbos 
Ancora posee archivos en formato xml para almacenar la 
información referente a los argumentos verbales. 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Integración del clasicador en el analizador 
Métricas de evaluación 
Outline 
1 Analizador Sintáctico Probabilístico 
Modelo de Collins 
Implementación de Bikel 
El corpus Ancora 
2 Clasicación semántica con SVM 
Máquinas de vectores de soporte 
Características lingüisticas para el SVM 
Implementación del modelo SVM 
3 Análisis sintáctico con clasicación semántica 
Integración del clasicador en el analizador 
Métricas de evaluación 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Integración del clasicador en el analizador 
Métricas de evaluación 
Métricas de comparación 
Si P es el árbol analizado por el sistema y T el árbol analizado 
manualmente (gold standard) 
Recall: (# de consituyentes correctos en P) / (# de 
constituyentes correctos en T) 
Precision: (# de consituyentes correctos en P) / (# de 
constituyentes en P) 
Medida F: Media armónica entre recall y precisión 
F = 2PR=(P +R) 
Paréntesis cruzados: Constituyentes para los cuales la 
referencia tiene parentizado ((A B) C) y el de nuestro 
algoritmo (A (B C)) 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Integración del clasicador en el analizador 
Métricas de evaluación 
Métricas de comparación 
Si P es el árbol analizado por el sistema y T el árbol analizado 
manualmente (gold standard) 
Recall: (# de consituyentes correctos en P) / (# de 
constituyentes correctos en T) 
Precision: (# de consituyentes correctos en P) / (# de 
constituyentes en P) 
Medida F: Media armónica entre recall y precisión 
F = 2PR=(P +R) 
Paréntesis cruzados: Constituyentes para los cuales la 
referencia tiene parentizado ((A B) C) y el de nuestro 
algoritmo (A (B C)) 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Integración del clasicador en el analizador 
Métricas de evaluación 
Métricas de comparación 
Si P es el árbol analizado por el sistema y T el árbol analizado 
manualmente (gold standard) 
Recall: (# de consituyentes correctos en P) / (# de 
constituyentes correctos en T) 
Precision: (# de consituyentes correctos en P) / (# de 
constituyentes en P) 
Medida F: Media armónica entre recall y precisión 
F = 2PR=(P +R) 
Paréntesis cruzados: Constituyentes para los cuales la 
referencia tiene parentizado ((A B) C) y el de nuestro 
algoritmo (A (B C)) 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Integración del clasicador en el analizador 
Métricas de evaluación 
Métricas de comparación 
Si P es el árbol analizado por el sistema y T el árbol analizado 
manualmente (gold standard) 
Recall: (# de consituyentes correctos en P) / (# de 
constituyentes correctos en T) 
Precision: (# de consituyentes correctos en P) / (# de 
constituyentes en P) 
Medida F: Media armónica entre recall y precisión 
F = 2PR=(P +R) 
Paréntesis cruzados: Constituyentes para los cuales la 
referencia tiene parentizado ((A B) C) y el de nuestro 
algoritmo (A (B C)) 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Integración del clasicador en el analizador 
Métricas de evaluación 
Métricas de comparación 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Resultados 
Obtenemos un analizador sintáctico probabilístico basado en el 
modelo de Collins y el algoritmo de Bikel entrenado con el 
corpus Ancora para el idioma español. 
Obtenemos un clasicador semántico de argumentos verbales 
usando maquinas de vectores de soporte entrenado con el 
corpus Ancora para el idioma español. 
Aplicación del clasicador semántico en el analizador sintáctico 
probabilístico para el español. 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Resultados 
Obtenemos un analizador sintáctico probabilístico basado en el 
modelo de Collins y el algoritmo de Bikel entrenado con el 
corpus Ancora para el idioma español. 
Obtenemos un clasicador semántico de argumentos verbales 
usando maquinas de vectores de soporte entrenado con el 
corpus Ancora para el idioma español. 
Aplicación del clasicador semántico en el analizador sintáctico 
probabilístico para el español. 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Resultados 
Obtenemos un analizador sintáctico probabilístico basado en el 
modelo de Collins y el algoritmo de Bikel entrenado con el 
corpus Ancora para el idioma español. 
Obtenemos un clasicador semántico de argumentos verbales 
usando maquinas de vectores de soporte entrenado con el 
corpus Ancora para el idioma español. 
Aplicación del clasicador semántico en el analizador sintáctico 
probabilístico para el español. 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Referencias 
Daniel M. Bikel. On the Parameter Space of Generative 
Lexicalized Statistical Parsing Models. PhD thesis, 
Philadelphia, PA, USA, 2004. AAI3152016. 
Michael Collins. Head-driven statistical models for natural 
language parsing. Comput. Linguist., 29(4):589637, December 
2003. 
LIBSVM: A Library for Support Vector Machines. Chih-Chung 
Chang and Chih-Jen Lin. 2001 
Support Vector Learning for Semantic Argument Classication. 
SAMEER PRADHAN, KADRI HACIOGLU. 2005 
Using Machine-Learning to Assign Function Labels to Parser 
Output for Spanish. Grzegorz Chrupaªa1 and Josef van 
Genabith. 2004 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
Analizador Sintáctico Probabilístico 
Clasicación semántica con SVM 
Análisis sintáctico con clasicación semántica 
Conclusiones 
Referencias 
LAS MÁQUINAS DE SOPORTE VECTORIAL (SVMs). 
GUSTAVO A. BETANCOURT. 2005 
Miguel A. Alonso Carlos Gómez Jesús Vilares. Análisis 
Sintáctico. 2010 
Natural Language Processing:Statistical Parsing. Raymond J. 
Mooney 
Maria Antònia Martí, Mariona Taulé, Manu Bertran y Lluís 
Màrquez. AnCora: Multilingual and Multilevel Annotated 
Corpora. 2007 
Aparicio, Juan, Mariona Taulé, M.Antònia Martí (2008) 
'AnCora-Verb: A Lexical Resource for the Semantic Annotation 
of Corpora'. Proceedings of 6th International Conference on 
Language Resources and Evaluation. Marrakesh (Morocco). 
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos

Más contenido relacionado

La actualidad más candente

La actualidad más candente (7)

Clase15
Clase15Clase15
Clase15
 
Analisis semantico
Analisis semanticoAnalisis semantico
Analisis semantico
 
Clase analisis lexico
Clase analisis lexicoClase analisis lexico
Clase analisis lexico
 
Agenda de Datos Personales en LISP
Agenda de Datos Personales en LISPAgenda de Datos Personales en LISP
Agenda de Datos Personales en LISP
 
Análisis lexicográfico
Análisis lexicográficoAnálisis lexicográfico
Análisis lexicográfico
 
Examen de compiladores i parcial
Examen de compiladores i parcialExamen de compiladores i parcial
Examen de compiladores i parcial
 
Taller analisis semantico
Taller analisis semanticoTaller analisis semantico
Taller analisis semantico
 

Similar a Analizador sintáctico probabilístico español clasificación argumentos verbales

Cap6
Cap6Cap6
Cap6CJAO
 
Teoria de automatas y lenguajes formales
Teoria de automatas y lenguajes formalesTeoria de automatas y lenguajes formales
Teoria de automatas y lenguajes formalesUniversidad del Valle
 
Introducción a los compiladores - Parte 2
Introducción a los compiladores - Parte 2Introducción a los compiladores - Parte 2
Introducción a los compiladores - Parte 2Universidad
 
Unidad4 analisis-semantico
Unidad4 analisis-semanticoUnidad4 analisis-semantico
Unidad4 analisis-semanticoInfomania pro
 
Clase6 ejemplo analisis lexico dev cpp
Clase6 ejemplo analisis lexico dev cppClase6 ejemplo analisis lexico dev cpp
Clase6 ejemplo analisis lexico dev cppInfomania pro
 
Taller 21 de junio
Taller 21 de junioTaller 21 de junio
Taller 21 de junioAlex Ortiz
 
Taller flex y bison
Taller flex y bisonTaller flex y bison
Taller flex y bisondanilopuente
 
Presentación 2014 profe gabriel
Presentación 2014 profe gabrielPresentación 2014 profe gabriel
Presentación 2014 profe gabrielEnrique Morales
 
Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Intelligent Methods for Information Access in Context: The Role of Topic Desc...Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Intelligent Methods for Information Access in Context: The Role of Topic Desc...Carlos Lorenzetti
 
Analizador Sintactico
Analizador SintacticoAnalizador Sintactico
Analizador SintacticoBayo Chicaiza
 
Analizador sintactico
Analizador sintacticoAnalizador sintactico
Analizador sintacticoalexisdario
 
Análisis Sintáctico Ascendente - Descendente
Análisis Sintáctico Ascendente - DescendenteAnálisis Sintáctico Ascendente - Descendente
Análisis Sintáctico Ascendente - DescendenteGuiru Xd
 
Taller de Compiladores flx y bsn
Taller de Compiladores flx y bsnTaller de Compiladores flx y bsn
Taller de Compiladores flx y bsnDanielRosero23
 
Compiladores - Flex y Bison
Compiladores - Flex y BisonCompiladores - Flex y Bison
Compiladores - Flex y BisonSteven Tabango
 
Practica análisis léxico y semántico(compiladores)
Practica análisis léxico y semántico(compiladores)Practica análisis léxico y semántico(compiladores)
Practica análisis léxico y semántico(compiladores)Alex Toapanta
 

Similar a Analizador sintáctico probabilístico español clasificación argumentos verbales (20)

Automatas finitos
Automatas finitosAutomatas finitos
Automatas finitos
 
Cap6
Cap6Cap6
Cap6
 
Teoria de automatas y lenguajes formales
Teoria de automatas y lenguajes formalesTeoria de automatas y lenguajes formales
Teoria de automatas y lenguajes formales
 
Introducción a los compiladores - Parte 2
Introducción a los compiladores - Parte 2Introducción a los compiladores - Parte 2
Introducción a los compiladores - Parte 2
 
Unidad4 analisis-semantico
Unidad4 analisis-semanticoUnidad4 analisis-semantico
Unidad4 analisis-semantico
 
Clase6 ejemplo analisis lexico dev cpp
Clase6 ejemplo analisis lexico dev cppClase6 ejemplo analisis lexico dev cpp
Clase6 ejemplo analisis lexico dev cpp
 
Taller 21 de junio
Taller 21 de junioTaller 21 de junio
Taller 21 de junio
 
Taller flex y bison
Taller flex y bisonTaller flex y bison
Taller flex y bison
 
Presentación 2014 profe gabriel
Presentación 2014 profe gabrielPresentación 2014 profe gabriel
Presentación 2014 profe gabriel
 
Documeto compilardorcontadorletras
Documeto compilardorcontadorletrasDocumeto compilardorcontadorletras
Documeto compilardorcontadorletras
 
Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Intelligent Methods for Information Access in Context: The Role of Topic Desc...Intelligent Methods for Information Access in Context: The Role of Topic Desc...
Intelligent Methods for Information Access in Context: The Role of Topic Desc...
 
Analizador Sintactico
Analizador SintacticoAnalizador Sintactico
Analizador Sintactico
 
Capitulo 3 paul carrera,dego balcazar
Capitulo 3 paul carrera,dego balcazarCapitulo 3 paul carrera,dego balcazar
Capitulo 3 paul carrera,dego balcazar
 
Gramaticas
GramaticasGramaticas
Gramaticas
 
Analizador sintactico
Analizador sintacticoAnalizador sintactico
Analizador sintactico
 
Análisis Sintáctico Ascendente - Descendente
Análisis Sintáctico Ascendente - DescendenteAnálisis Sintáctico Ascendente - Descendente
Análisis Sintáctico Ascendente - Descendente
 
Taller de Compiladores flx y bsn
Taller de Compiladores flx y bsnTaller de Compiladores flx y bsn
Taller de Compiladores flx y bsn
 
1 eda teo
1 eda teo1 eda teo
1 eda teo
 
Compiladores - Flex y Bison
Compiladores - Flex y BisonCompiladores - Flex y Bison
Compiladores - Flex y Bison
 
Practica análisis léxico y semántico(compiladores)
Practica análisis léxico y semántico(compiladores)Practica análisis léxico y semántico(compiladores)
Practica análisis léxico y semántico(compiladores)
 

Más de John Alexander Vargas (6)

Clase2 ger sist
Clase2 ger sistClase2 ger sist
Clase2 ger sist
 
Procesos
ProcesosProcesos
Procesos
 
Presentacion ia
Presentacion iaPresentacion ia
Presentacion ia
 
Spatial logics forces-2008
Spatial logics forces-2008Spatial logics forces-2008
Spatial logics forces-2008
 
Sccp forces-2009 v3
Sccp forces-2009 v3Sccp forces-2009 v3
Sccp forces-2009 v3
 
Agentes moviles camacho-200910-v1
Agentes moviles camacho-200910-v1Agentes moviles camacho-200910-v1
Agentes moviles camacho-200910-v1
 

Analizador sintáctico probabilístico español clasificación argumentos verbales

  • 1. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Analizador sintáctico probabilístico con clasicación de argumentos de verbo para el idioma español. John Alexander Vargas Escuela de Ingeniería de Sistemas y Computación Facultad de Ingeniería Universidad del Valle VII Simposio de Investigación, 2014 John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 2. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Agenda 1 Analizador Sintáctico Probabilístico Modelo de Collins Implementación de Bikel El corpus Ancora 2 Clasicación semántica con SVM Máquinas de vectores de soporte Características lingüisticas para el SVM Implementación del modelo SVM 3 Análisis sintáctico con clasicación semántica Integración del clasicador en el analizador Métricas de evaluación John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 3. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Análisis sintáctico Tarea principal Describir cómo las palabras de la oración se relacionan y cuál es la función que cada palabra realiza en esa oración, es decir, construir la estructura de la oración de un lenguaje. Depende la correcta comprensión del mensaje escrito, que es la base de cualquier eventual interpretación del mismo. Aplicaciones como la extracción de información Traducción de textos John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 4. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Análisis sintáctico Tarea principal Describir cómo las palabras de la oración se relacionan y cuál es la función que cada palabra realiza en esa oración, es decir, construir la estructura de la oración de un lenguaje. Depende la correcta comprensión del mensaje escrito, que es la base de cualquier eventual interpretación del mismo. Aplicaciones como la extracción de información Traducción de textos John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 5. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Ejemplo Ejemplo de una gramática libre de contexto y de un árbol sintáctico John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 6. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Gramáticas probabilísticas libres de contexto La probabilidad de un árbol La probabilidad de un árbol t con reglas a1 !b1;a2 !b2; : : : ;an !bn es p(t) = Õni =1 q(ai !bi ) where q(a !b) es la probabilidad de la regla a !b S !NP VP 1;0 NP !Sust 0;4 NP !Det Sust 0;3 VP !V NP 0;7 La probabilidad para el árbol seria p(t) = 0;84 John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 7. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Gramáticas probabilísticas libres de contexto La probabilidad de un árbol La probabilidad de un árbol t con reglas a1 !b1;a2 !b2; : : : ;an !bn es p(t) = Õni =1 q(ai !bi ) where q(a !b) es la probabilidad de la regla a !b S !NP VP 1;0 NP !Sust 0;4 NP !Det Sust 0;3 VP !V NP 0;7 La probabilidad para el árbol seria p(t) = 0;84 John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 8. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Algoritmo de programación dinámica Dado una PCFG y una sentencia s, ¾Cómo encontrar maxt2T (s) p(t)? Notación: n: número de palabras en la sentencia wi : i-ésima palabra de la sentencia N: El conjunto de no terminales de la gramática S: El símbolo inicial de la gramática Dene una tabla de programación dinámica p[i ; j ; X] = máxima probabilidad de un constituyente con no-terminal X que abarca las palabras i : : : j (inclusive) La meta es calcular maxt2T (s)p(t) = p[1; n; S] John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 9. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Algoritmo de programación dinámica Dado una PCFG y una sentencia s, ¾Cómo encontrar maxt2T (s) p(t)? Notación: n: número de palabras en la sentencia wi : i-ésima palabra de la sentencia N: El conjunto de no terminales de la gramática S: El símbolo inicial de la gramática Dene una tabla de programación dinámica p[i ; j ; X] = máxima probabilidad de un constituyente con no-terminal X que abarca las palabras i : : : j (inclusive) La meta es calcular maxt2T (s)p(t) = p[1; n; S] John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 10. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Algoritmo de programación dinámica Dado una PCFG y una sentencia s, ¾Cómo encontrar maxt2T (s) p(t)? Notación: n: número de palabras en la sentencia wi : i-ésima palabra de la sentencia N: El conjunto de no terminales de la gramática S: El símbolo inicial de la gramática Dene una tabla de programación dinámica p[i ; j ; X] = máxima probabilidad de un constituyente con no-terminal X que abarca las palabras i : : : j (inclusive) La meta es calcular maxt2T (s)p(t) = p[1; n; S] John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 11. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora El algoritmo CKY John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 12. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Outline 1 Analizador Sintáctico Probabilístico Modelo de Collins Implementación de Bikel El corpus Ancora 2 Clasicación semántica con SVM Máquinas de vectores de soporte Características lingüisticas para el SVM Implementación del modelo SVM 3 Análisis sintáctico con clasicación semántica Integración del clasicador en el analizador Métricas de evaluación John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 13. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Modelos de análisis de Collins Tres modelos generativos lexicalizados propuestos por Michael Collins Modelo 1: Modelo generativo con cabezas lexicalizadas. Modelo 2: Modelo 1 + distinción de complementos/adjuntos y subcategorización. Modelo 3: Modelo 2 + traza del movimiento de la núcleo-cabeza. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 14. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Modelo básico Lo primero que se nota en cada regla de una PCFG lexicalizada es la forma P(h)!Ln(ln) : : :L1(l1)H(h)R1(r1) : : :Rm(rm) H es el núcleo sintáctico de la frase, el cuál hereda la palabra-núcleo h, de su padre P. L1 : : :Ln y R1 : : :Rm son modicadores de izquierda y derecha del núcleo H. Tanto n como m pueden ser cero, Si n = m = 0, son reglas unarias. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 15. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Generación del modelo La generación de RHS de cada regla, dada el LHS, ha sido descompuesta en tres pasos: 1 Generación de la etiqueta del núcleo constituyente de la frase, con probabilidad PH(HjP;h). 2 Generación de modicadores a la izquierda del núcleo con probabilidad Õi=1:::n+1PL(Li (li )jP;h;H), donde Ln+1(ln+1) = STOP. El símbolo STOP es adicionado al vocabulario de no-terminales, y el modelo para generando modicadores a la izquierda donde ha sido generado. 3 Generación de modicadores a la derecha del núcleo con probabilidad Õi=1:::n+1PR(Ri (ri )jP;h;H), Rm+1(rm+1) es denida como STOP. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 16. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Adicionando métrica de distancia Collins introduce una medidad de distancia entre las palabras l y r No es una distancia real. Las funciones son heurísticas basadas en la dirección, adyacencia, posición y puntuación. El modelo queda: Pl (Li (li ) jH; P; h; L1(l1) : : :Li1(li1)) = Pl (Li (li ) jH; P; h; l (i 1)) Pr (Ri (ri ) jH; P; h; R1(r1) : : :Ri1(ri1)) = Pl (Ri (ri ) jH; P; h; r (i 1)) John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 17. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Adicionando métrica de distancia Collins introduce una medidad de distancia entre las palabras l y r No es una distancia real. Las funciones son heurísticas basadas en la dirección, adyacencia, posición y puntuación. El modelo queda: Pl (Li (li ) jH; P; h; L1(l1) : : :Li1(li1)) = Pl (Li (li ) jH; P; h; l (i 1)) Pr (Ri (ri ) jH; P; h; R1(r1) : : :Ri1(ri1)) = Pl (Ri (ri ) jH; P; h; r (i 1)) John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 18. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Modelo 2: Clasicación de modicadores Añadir un sujo C a los no terminales en los datos de entrenamiento para los que: El no terminal es un NP, SBAR, o S cuyo padre es una S, una NP, SBAR, S, o el vicepresidente cuyo padre es un vicepresidente, o un S cuyo padre es un SBAR. La no-terminal no debe tener una de las etiquetas semánticas: ADV, COV, BNF, DIR, EXT, LOC, MNR, TMP, CLR, o PRP. También marque el primer hijo después de una cabeza PP como complemento John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 19. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Marcos de subcategorización Dene un marco de subcategorización como una bolsa de no-terminales. Genera la cabeza con probabilidad PH(HjP;h) Selecciona los marcos de subcategorización del lado izquierdo y derecho con probabilidades Plc (LCjP;H;h) y Prc (RCjP;H;h) Genera los modicadores del lado derecho con probabilidad Pr (Ri (ri )jH;P;h;r (i 1);RC) Genera los modicadores del lado izquierdo con probabilidad Pl (Li (li )jH;P;h;r (i 1);LC) John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 20. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Marcos de subcategorización Dene un marco de subcategorización como una bolsa de no-terminales. Genera la cabeza con probabilidad PH(HjP;h) Selecciona los marcos de subcategorización del lado izquierdo y derecho con probabilidades Plc (LCjP;H;h) y Prc (RCjP;H;h) Genera los modicadores del lado derecho con probabilidad Pr (Ri (ri )jH;P;h;r (i 1);RC) Genera los modicadores del lado izquierdo con probabilidad Pl (Li (li )jH;P;h;r (i 1);LC) John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 21. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Marcos de subcategorización Dene un marco de subcategorización como una bolsa de no-terminales. Genera la cabeza con probabilidad PH(HjP;h) Selecciona los marcos de subcategorización del lado izquierdo y derecho con probabilidades Plc (LCjP;H;h) y Prc (RCjP;H;h) Genera los modicadores del lado derecho con probabilidad Pr (Ri (ri )jH;P;h;r (i 1);RC) Genera los modicadores del lado izquierdo con probabilidad Pl (Li (li )jH;P;h;r (i 1);LC) John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 22. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Modelo 3: Modelando trazas y movimientos de la cabeza Los formalismos similares a GPSG manejan movmientos de núcleos sintácticos adicionando una característica de diferencia (brecha) para cada no-terminal en el árbol y propagando estas diferencias a través de los árboles hasta que nalmente descargado como una traza de complemento. hay tres formas de que el gap sea pasado hacia abajo a el RHS. Head El gap es pasado al núcleo de la frase, como una regla. Left, Right El gap es pasado recursivamente a uno de los modicadores de la izquierda o derecha del núcleo, o descargando como un agrumento de traza a la izquierda o derecha del núcleo. Se especica un parámetro PG (GjP;h;H) donde G es otro Head, Left o Right. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 23. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Modelo 3: Modelando trazas y movimientos de la cabeza Los formalismos similares a GPSG manejan movmientos de núcleos sintácticos adicionando una característica de diferencia (brecha) para cada no-terminal en el árbol y propagando estas diferencias a través de los árboles hasta que nalmente descargado como una traza de complemento. hay tres formas de que el gap sea pasado hacia abajo a el RHS. Head El gap es pasado al núcleo de la frase, como una regla. Left, Right El gap es pasado recursivamente a uno de los modicadores de la izquierda o derecha del núcleo, o descargando como un agrumento de traza a la izquierda o derecha del núcleo. Se especica un parámetro PG (GjP;h;H) donde G es otro Head, Left o Right. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 24. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Outline 1 Analizador Sintáctico Probabilístico Modelo de Collins Implementación de Bikel El corpus Ancora 2 Clasicación semántica con SVM Máquinas de vectores de soporte Características lingüisticas para el SVM Implementación del modelo SVM 3 Análisis sintáctico con clasicación semántica Integración del clasicador en el analizador Métricas de evaluación John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 25. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Trabajo de Bikel Dan Bikel construye un motor de análisis sintáctico multi-lenguaje con la capacidad de instanciar una gran variedad de modelos analizadores probabilisticos. Como modelo línea base apropiado se escoje instanciar los parámetros del modelo 2 de Collins. Bikel identicó once pasos de preprocesamiento necesarios para preparar los árboles de entrenamiento cuando se usa el modelo de análisis de Collins. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 26. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Preprocesamiento de Bikel 1 Eliminar nodos innecesarios 2 Adicionando nodos base NP 3 Reparando NPs base 4 Adicionando información (solo aplicable al modelo 3) 5 Re-etiquetación de sentencias 6 Removiendo elementos nulos. 7 Levantando puntuación. 8 Identicación de argumentos no-terminales 9 Eliminación de terminales no usados. 10 Reparación Oraciones sin sujeto. 11 Encontrar núcleos sintácticos. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 27. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Reglas para encontrar la cabeza (grup.verb (r innitiu) (r gerundi) (r vmp) (r vsp) (r vap) (r vmi)) (S (r grup.verb) (r S) (r sn) ) (sn (r grup.nom)) (sp (l prep)) John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 28. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Outline 1 Analizador Sintáctico Probabilístico Modelo de Collins Implementación de Bikel El corpus Ancora 2 Clasicación semántica con SVM Máquinas de vectores de soporte Características lingüisticas para el SVM Implementación del modelo SVM 3 Análisis sintáctico con clasicación semántica Integración del clasicador en el analizador Métricas de evaluación John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 29. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Ancora AnCOra (ANnotated CORpora) es un corpus del catalán (AnCOra-CA) y español (AnCOra-ES) con diferentes niveles de anotación. Cada corpus contiene 500.000 palabras que han sido construidas de manera incremental a través de trabajos previos como el corpus 3LB: 3LB-CAT y 3LB-ESP Ambos corpus estan automáticamente etiquetados con información morfosintáctica y chequeada manualmente. Ampliamente usados como corpus de entrenamiento para sistemas de aprendizaje Los corpus 3LB son sintácticamente etiquetados con constituyentes y funciones de una manera manual. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 30. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Ancora AnCOra (ANnotated CORpora) es un corpus del catalán (AnCOra-CA) y español (AnCOra-ES) con diferentes niveles de anotación. Cada corpus contiene 500.000 palabras que han sido construidas de manera incremental a través de trabajos previos como el corpus 3LB: 3LB-CAT y 3LB-ESP Ambos corpus estan automáticamente etiquetados con información morfosintáctica y chequeada manualmente. Ampliamente usados como corpus de entrenamiento para sistemas de aprendizaje Los corpus 3LB son sintácticamente etiquetados con constituyentes y funciones de una manera manual. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 31. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Información del corpus usada para el entrenamiento del analizador John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos Árbol sintáctico completo anotado con constituyentes.
  • 32. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Modelo de Collins Implementación de Bikel El corpus Ancora Funciones sintácticas Sujeto -SUJ Objeto directo -CD Objeto indirecto -CI Atributo -ATR Complemento predicativo -CPRED Complemento preposicional -CREG Complemento agente -CAG Complemento adverbial -CC Complemento advervial (locativo) -CCL Complemento adverbial (temporal) -CCT John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 33. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Máquinas de vectores de soporte Características lingüisticas para el SVM Implementación del modelo SVM Outline 1 Analizador Sintáctico Probabilístico Modelo de Collins Implementación de Bikel El corpus Ancora 2 Clasicación semántica con SVM Máquinas de vectores de soporte Características lingüisticas para el SVM Implementación del modelo SVM 3 Análisis sintáctico con clasicación semántica Integración del clasicador en el analizador Métricas de evaluación John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 34. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Máquinas de vectores de soporte Características lingüisticas para el SVM Implementación del modelo SVM Máquinas de vectores de soporte Las máquinas de vectores de soporte son derivados de la teoría de aprendizaje estadistico postulado por Vapnik y Chervonenkis en 1992. Técnica para clasicación de datos. Más fácil de utilizar que las redes neuronales. Trabajan en un espacio de características Son también conocidas como clasicadores de margen amplio. Clasicación multiclase John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 35. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Máquinas de vectores de soporte Características lingüisticas para el SVM Implementación del modelo SVM Máquinas de vectores de soporte Hay m observaciones y cada una consiste en un par de datos: Un vector xi 2 Rn; i : : : ;m Una etiqueta yi 2 f+1;1g John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 36. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Máquinas de vectores de soporte Características lingüisticas para el SVM Implementación del modelo SVM Máquinas de vectores de soporte Hay m observaciones y cada una consiste en un par de datos: Un vector xi 2 Rn; i : : : ;m Una etiqueta yi 2 f+1;1g John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 37. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Máquinas de vectores de soporte Características lingüisticas para el SVM Implementación del modelo SVM Kernel de un algoritmo SVM Idea: Transformar los ejemplos de entrenamiento en un espacio vectorial de alta dimensión ( N n ) (denominado espacio de características) Kernel lineal: k(~x;~y) =~x ~y Kernel polinómico: k(~x;~y) = (~x ~y +r )p Kernel gaussiano (función de base radial [RBF]): k(~x;~y) = e( kxg~~yk2 2s2 ) John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 38. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Máquinas de vectores de soporte Características lingüisticas para el SVM Implementación del modelo SVM Preprocesamiento de datos Cada ejemplo: vector de números reales Si hay atributos categóricos - convertirlos a datos numéricos Ejemplo: un atributo con tres categorías posibles {rojo, verde, azul} se puede representar como (0,0,1), (0,1,0) y (1,0,0). Si el número de categorías del atributo no es muy grande, esta codicación puede ser más estable que usando un único número para cada una. Escalado de los datos antes de aplicar SVM Ventajas: Evitar que los atributos que tengan rangos grandes dominen sobre los que tengan rangos más pequeños Evitar dicultades numéricas durante el cálculo Escalar linealmente cada atributo al rango [-1,+1] o [0,1] Usar el mismo método de escalado para los datos de entrenamiento y los de prueba John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 39. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Máquinas de vectores de soporte Características lingüisticas para el SVM Implementación del modelo SVM Preprocesamiento de datos Cada ejemplo: vector de números reales Si hay atributos categóricos - convertirlos a datos numéricos Ejemplo: un atributo con tres categorías posibles {rojo, verde, azul} se puede representar como (0,0,1), (0,1,0) y (1,0,0). Si el número de categorías del atributo no es muy grande, esta codicación puede ser más estable que usando un único número para cada una. Escalado de los datos antes de aplicar SVM Ventajas: Evitar que los atributos que tengan rangos grandes dominen sobre los que tengan rangos más pequeños Evitar dicultades numéricas durante el cálculo Escalar linealmente cada atributo al rango [-1,+1] o [0,1] Usar el mismo método de escalado para los datos de entrenamiento y los de prueba John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 40. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Máquinas de vectores de soporte Características lingüisticas para el SVM Implementación del modelo SVM Outline 1 Analizador Sintáctico Probabilístico Modelo de Collins Implementación de Bikel El corpus Ancora 2 Clasicación semántica con SVM Máquinas de vectores de soporte Características lingüisticas para el SVM Implementación del modelo SVM 3 Análisis sintáctico con clasicación semántica Integración del clasicador en el analizador Métricas de evaluación John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 41. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Máquinas de vectores de soporte Características lingüisticas para el SVM Implementación del modelo SVM Argumentos verbales Los argumentos son expresiones lingüisticas exigidas semánticamente por el núcleo. Los verbos tienen dos tipos básicos de argumentos: Complementos: Necesarios para el verbo. Adjuntos (circunstancial): Son complementos no exigidos por el verbo. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 42. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Máquinas de vectores de soporte Características lingüisticas para el SVM Implementación del modelo SVM Características línea base Predicado: El lema del predicado es usado como característica. Path: La ruta sintáctica a través del árbol de análisis del constituyente al predicado clasicado. Tipo de frase: Esta es la categoría sintáctica. Posición: Característica binaria identicando si la frase esta antes o despues del predicado. Palabra-cabeza: La cabeza sintáctica de la frase. Subcategorización: Esta es la regla de estructura de frase expandiendo el nodo padre del predicado en el árbol de análisis. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 43. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Máquinas de vectores de soporte Características lingüisticas para el SVM Implementación del modelo SVM Características sintácticas Posición de la entidad: la entidad puede estar a la izquierda o derecha del núcleo. Distancia de la entidad: el número de palabras existentes entre la entidad y el núcleo. Información morfológica de la entidad: modo, tiempo, persona y número. Longitud de la entidad: la secuencia de los n elementos de los n-gramas. Información morfológica del núcleo de la entidad. Entidad denida: una entidad se considera denida si su artículo es denido. Longitud del núcleo: secuencia de los n-elementos de los n-gramas del núcleo. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 44. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Máquinas de vectores de soporte Características lingüisticas para el SVM Implementación del modelo SVM Outline 1 Analizador Sintáctico Probabilístico Modelo de Collins Implementación de Bikel El corpus Ancora 2 Clasicación semántica con SVM Máquinas de vectores de soporte Características lingüisticas para el SVM Implementación del modelo SVM 3 Análisis sintáctico con clasicación semántica Integración del clasicador en el analizador Métricas de evaluación John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 45. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Máquinas de vectores de soporte Características lingüisticas para el SVM Implementación del modelo SVM libSVM: una implementación de SVM Implementa los tipos de entrenamiento y núcleos mas comunes. Permite clasicación multiclase. Implementa el procedimiento para realizar validación cruzada Métodos para obtener máquinas que proporcionen además la probabilidad de la clasicación. Incluye técnicas para reducir el coste de la constante C. Implementaciones en C++ y JAVA. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 46. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Máquinas de vectores de soporte Características lingüisticas para el SVM Implementación del modelo SVM Parametrización de libSVM Se usa un kernel gausiano (RBF) con g = 27 Parámetro de costo C = 32 Se usa á técnica de validación cruzada para anar el conjunto de características. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 47. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Integración del clasicador en el analizador Métricas de evaluación Outline 1 Analizador Sintáctico Probabilístico Modelo de Collins Implementación de Bikel El corpus Ancora 2 Clasicación semántica con SVM Máquinas de vectores de soporte Características lingüisticas para el SVM Implementación del modelo SVM 3 Análisis sintáctico con clasicación semántica Integración del clasicador en el analizador Métricas de evaluación John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 48. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Integración del clasicador en el analizador Métricas de evaluación Modicación del modelo En el agoritmos CKY, en el método de unión de items, se clasica el item modicador, cuando el item modicado se trata de un verbo. Si la clasicación del item se encuentra dentro de las posibles subcategorizaciones del verbo, entonces se aumenta la probabilidad de selección. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 49. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Integración del clasicador en el analizador Métricas de evaluación Información semántica de Ancora sobre los verbos Ancora posee archivos en formato xml para almacenar la información referente a los argumentos verbales. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 50. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Integración del clasicador en el analizador Métricas de evaluación Outline 1 Analizador Sintáctico Probabilístico Modelo de Collins Implementación de Bikel El corpus Ancora 2 Clasicación semántica con SVM Máquinas de vectores de soporte Características lingüisticas para el SVM Implementación del modelo SVM 3 Análisis sintáctico con clasicación semántica Integración del clasicador en el analizador Métricas de evaluación John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 51. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Integración del clasicador en el analizador Métricas de evaluación Métricas de comparación Si P es el árbol analizado por el sistema y T el árbol analizado manualmente (gold standard) Recall: (# de consituyentes correctos en P) / (# de constituyentes correctos en T) Precision: (# de consituyentes correctos en P) / (# de constituyentes en P) Medida F: Media armónica entre recall y precisión F = 2PR=(P +R) Paréntesis cruzados: Constituyentes para los cuales la referencia tiene parentizado ((A B) C) y el de nuestro algoritmo (A (B C)) John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 52. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Integración del clasicador en el analizador Métricas de evaluación Métricas de comparación Si P es el árbol analizado por el sistema y T el árbol analizado manualmente (gold standard) Recall: (# de consituyentes correctos en P) / (# de constituyentes correctos en T) Precision: (# de consituyentes correctos en P) / (# de constituyentes en P) Medida F: Media armónica entre recall y precisión F = 2PR=(P +R) Paréntesis cruzados: Constituyentes para los cuales la referencia tiene parentizado ((A B) C) y el de nuestro algoritmo (A (B C)) John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 53. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Integración del clasicador en el analizador Métricas de evaluación Métricas de comparación Si P es el árbol analizado por el sistema y T el árbol analizado manualmente (gold standard) Recall: (# de consituyentes correctos en P) / (# de constituyentes correctos en T) Precision: (# de consituyentes correctos en P) / (# de constituyentes en P) Medida F: Media armónica entre recall y precisión F = 2PR=(P +R) Paréntesis cruzados: Constituyentes para los cuales la referencia tiene parentizado ((A B) C) y el de nuestro algoritmo (A (B C)) John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 54. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Integración del clasicador en el analizador Métricas de evaluación Métricas de comparación Si P es el árbol analizado por el sistema y T el árbol analizado manualmente (gold standard) Recall: (# de consituyentes correctos en P) / (# de constituyentes correctos en T) Precision: (# de consituyentes correctos en P) / (# de constituyentes en P) Medida F: Media armónica entre recall y precisión F = 2PR=(P +R) Paréntesis cruzados: Constituyentes para los cuales la referencia tiene parentizado ((A B) C) y el de nuestro algoritmo (A (B C)) John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 55. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Integración del clasicador en el analizador Métricas de evaluación Métricas de comparación John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 56. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Resultados Obtenemos un analizador sintáctico probabilístico basado en el modelo de Collins y el algoritmo de Bikel entrenado con el corpus Ancora para el idioma español. Obtenemos un clasicador semántico de argumentos verbales usando maquinas de vectores de soporte entrenado con el corpus Ancora para el idioma español. Aplicación del clasicador semántico en el analizador sintáctico probabilístico para el español. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 57. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Resultados Obtenemos un analizador sintáctico probabilístico basado en el modelo de Collins y el algoritmo de Bikel entrenado con el corpus Ancora para el idioma español. Obtenemos un clasicador semántico de argumentos verbales usando maquinas de vectores de soporte entrenado con el corpus Ancora para el idioma español. Aplicación del clasicador semántico en el analizador sintáctico probabilístico para el español. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 58. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Resultados Obtenemos un analizador sintáctico probabilístico basado en el modelo de Collins y el algoritmo de Bikel entrenado con el corpus Ancora para el idioma español. Obtenemos un clasicador semántico de argumentos verbales usando maquinas de vectores de soporte entrenado con el corpus Ancora para el idioma español. Aplicación del clasicador semántico en el analizador sintáctico probabilístico para el español. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 59. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Referencias Daniel M. Bikel. On the Parameter Space of Generative Lexicalized Statistical Parsing Models. PhD thesis, Philadelphia, PA, USA, 2004. AAI3152016. Michael Collins. Head-driven statistical models for natural language parsing. Comput. Linguist., 29(4):589637, December 2003. LIBSVM: A Library for Support Vector Machines. Chih-Chung Chang and Chih-Jen Lin. 2001 Support Vector Learning for Semantic Argument Classication. SAMEER PRADHAN, KADRI HACIOGLU. 2005 Using Machine-Learning to Assign Function Labels to Parser Output for Spanish. Grzegorz Chrupaªa1 and Josef van Genabith. 2004 John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos
  • 60. Analizador Sintáctico Probabilístico Clasicación semántica con SVM Análisis sintáctico con clasicación semántica Conclusiones Referencias LAS MÁQUINAS DE SOPORTE VECTORIAL (SVMs). GUSTAVO A. BETANCOURT. 2005 Miguel A. Alonso Carlos Gómez Jesús Vilares. Análisis Sintáctico. 2010 Natural Language Processing:Statistical Parsing. Raymond J. Mooney Maria Antònia Martí, Mariona Taulé, Manu Bertran y Lluís Màrquez. AnCora: Multilingual and Multilevel Annotated Corpora. 2007 Aparicio, Juan, Mariona Taulé, M.Antònia Martí (2008) 'AnCora-Verb: A Lexical Resource for the Semantic Annotation of Corpora'. Proceedings of 6th International Conference on Language Resources and Evaluation. Marrakesh (Morocco). John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argumentos