Presentación de un trabajo de investigación sobre integración de un analizador sintáctico probabilístico con un clasificador semántico de argumentos de verbo para el idioma español usando máquinas de vectores de soporte.
Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español.
1. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Analizador sintáctico probabilístico con clasicación
de argumentos de verbo para el idioma español.
John Alexander Vargas
Escuela de Ingeniería de Sistemas y Computación
Facultad de Ingeniería
Universidad del Valle
Trabajo de Investigación, 2015
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
2. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Agenda
1 Introducción
2 Marco Teórico
Análisis Sintáctico Probabilístico
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Clasicador de Argumentos de verbo
3 Análisis sintáctico con clasicación de argumentos
Integración clasicador - analizador
4 Resultados
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
3. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Planteamiento del problema
Problema General
¾Cómo mejorar el nivel de precisión en el análisis sintáctico
probabilístico para el idioma español?
Problema Especíco
¾Cómo puedo integrar un clasicador semántico de argumentos de
verbo en un analizador sintáctico probabilístico para mejorar su
puntaje de precisión?
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
4. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Planteamiento del problema
Problema General
¾Cómo mejorar el nivel de precisión en el análisis sintáctico
probabilístico para el idioma español?
Problema Especíco
¾Cómo puedo integrar un clasicador semántico de argumentos de
verbo en un analizador sintáctico probabilístico para mejorar su
puntaje de precisión?
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
5. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Outline
1 Introducción
2 Marco Teórico
Análisis Sintáctico Probabilístico
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Clasicador de Argumentos de verbo
3 Análisis sintáctico con clasicación de argumentos
Integración clasicador - analizador
4 Resultados
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
6. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Análisis Sintáctico
Tarea principal
Encontrar un algoritmo que reciba como entrada una frase escrita
en lenguaje natural y retorne como salida la estructura sintáctica
que esta basada en una gramática previamente establecida. Esta
estructura sintáctica se encuentra representada en un árbol de
estructura de frase.
Depende la correcta comprensión del mensaje escrito, que es la
base de cualquier eventual interpretación del mismo.
Aplicaciones como la extracción de información
Traducción de textos
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
7. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Análisis Sintáctico
Tarea principal
Encontrar un algoritmo que reciba como entrada una frase escrita
en lenguaje natural y retorne como salida la estructura sintáctica
que esta basada en una gramática previamente establecida. Esta
estructura sintáctica se encuentra representada en un árbol de
estructura de frase.
Depende la correcta comprensión del mensaje escrito, que es la
base de cualquier eventual interpretación del mismo.
Aplicaciones como la extracción de información
Traducción de textos
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
8. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Ejemplo
Ejemplo de una gramática libre de contexto y de un árbol sintáctico
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
9. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Gramáticas probabilísticas libres de contexto
La probabilidad de un árbol
La probabilidad de un árbol t con reglas
α1 → β1,α2 → β2,...,αn → βn
es p(t) = ∏n
i=1 q(αi → βi )
where q(α → β) es la probabilidad de la regla α → β
S → NP VP 1,0
NP → Sust 0,4
NP → Det Sust 0,3
VP → V NP 0,7
La probabilidad para el árbol seria
p(t) = 0,84
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
10. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Gramáticas probabilísticas libres de contexto
La probabilidad de un árbol
La probabilidad de un árbol t con reglas
α1 → β1,α2 → β2,...,αn → βn
es p(t) = ∏n
i=1 q(αi → βi )
where q(α → β) es la probabilidad de la regla α → β
S → NP VP 1,0
NP → Sust 0,4
NP → Det Sust 0,3
VP → V NP 0,7
La probabilidad para el árbol seria
p(t) = 0,84
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
11. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Algoritmo de programación dinámica
Dado una PCFG y una sentencia s,
¾Cómo encontrar maxt∈T (s) p(t)?
Notación:
n: número de palabras en la sentencia
wi : i-ésima palabra de la sentencia
N: El conjunto de no terminales de la gramática
S: El símbolo inicial de la gramática
Dene una tabla de programación dinámica
π[i, j, X] = máxima probabilidad de un constituyente con
no-terminal X que abarca las palabras i ...j (inclusive)
La meta es calcular maxt∈T (s)p(t) = π[1, n, S]
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
12. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Algoritmo de programación dinámica
Dado una PCFG y una sentencia s,
¾Cómo encontrar maxt∈T (s) p(t)?
Notación:
n: número de palabras en la sentencia
wi : i-ésima palabra de la sentencia
N: El conjunto de no terminales de la gramática
S: El símbolo inicial de la gramática
Dene una tabla de programación dinámica
π[i, j, X] = máxima probabilidad de un constituyente con
no-terminal X que abarca las palabras i ...j (inclusive)
La meta es calcular maxt∈T (s)p(t) = π[1, n, S]
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
13. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Algoritmo de programación dinámica
Dado una PCFG y una sentencia s,
¾Cómo encontrar maxt∈T (s) p(t)?
Notación:
n: número de palabras en la sentencia
wi : i-ésima palabra de la sentencia
N: El conjunto de no terminales de la gramática
S: El símbolo inicial de la gramática
Dene una tabla de programación dinámica
π[i, j, X] = máxima probabilidad de un constituyente con
no-terminal X que abarca las palabras i ...j (inclusive)
La meta es calcular maxt∈T (s)p(t) = π[1, n, S]
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
14. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
El algoritmo CKY
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
15. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Modelos de análisis de Collins
Tres modelos generativos lexicalizados propuestos por Michael
Collins
Modelo 1: Modelo generativo con cabezas lexicalizadas.
Modelo 2: Modelo 1 + distinción de complementos/adjuntos y
subcategorización.
Modelo 3: Modelo 2 + traza del movimiento de la
núcleo-cabeza.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
16. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Modelo básico
Lo primero que se nota en cada regla de una PCFG
lexicalizada es la forma
P(h) → Ln(ln)...L1(l1)H(h)R1(r1)...Rm(rm)
H es el núcleo sintáctico de la frase, el cuál hereda la
palabra-núcleo h, de su padre P.
L1 ...Ln y R1 ...Rm son modicadores de izquierda y derecha
del núcleo H.
Tanto n como m pueden ser cero, Si n = m = 0, son reglas
unarias.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
17. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Generación del modelo
La generación de RHS de cada regla, dada el LHS, ha sido
descompuesta en tres pasos:
1 Generación de la etiqueta del núcleo constituyente de la frase,
con probabilidad PH(H|P,h).
2 Generación de modicadores a la izquierda del núcleo con
probabilidad ∏i=1...n+1 PL(Li (li )|P,h,H), donde
Ln+1(ln+1) = STOP. El símbolo STOP es adicionado al
vocabulario de no-terminales, y el modelo para generando
modicadores a la izquierda donde ha sido generado.
3 Generación de modicadores a la derecha del núcleo con
probabilidad ∏i=1...n+1 PR(Ri (ri )|P,h,H), Rm+1(rm+1) es
denida como STOP.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
18. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Adicionando métrica de distancia
Collins introduce una medidad de distancia entre las palabras
∆l y ∆r
No es una distancia real. Las funciones son heurísticas basadas
en la dirección, adyacencia, posición y puntuación.
El modelo queda:
Pl (Li (li )|H, P, h, L1(l1)...Li−1(li−1)) =
Pl (Li (li )|H, P, h, ∆l (i −1))
Pr (Ri (ri )|H, P, h, R1(r1)...Ri−1(ri−1)) =
Pl (Ri (ri )|H, P, h, ∆r (i −1))
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
19. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Adicionando métrica de distancia
Collins introduce una medidad de distancia entre las palabras
∆l y ∆r
No es una distancia real. Las funciones son heurísticas basadas
en la dirección, adyacencia, posición y puntuación.
El modelo queda:
Pl (Li (li )|H, P, h, L1(l1)...Li−1(li−1)) =
Pl (Li (li )|H, P, h, ∆l (i −1))
Pr (Ri (ri )|H, P, h, R1(r1)...Ri−1(ri−1)) =
Pl (Ri (ri )|H, P, h, ∆r (i −1))
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
20. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Modelo 2: Clasicación de modicadores
Añadir un sujo C a los no terminales en los datos de
entrenamiento para los que:
El no terminal es un NP, SBAR, o S cuyo padre es una S, una
NP, SBAR, S, o el vicepresidente cuyo padre es un
vicepresidente, o un S cuyo padre es un SBAR.
La no-terminal no debe tener una de las etiquetas semánticas:
ADV, COV, BNF, DIR, EXT, LOC, MNR, TMP, CLR, o PRP.
También marque el primer hijo después de una cabeza PP como
complemento
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
21. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Marcos de subcategorización
Dene un marco de subcategorización como una bolsa de
no-terminales.
Genera la cabeza con probabilidad PH(H|P,h)
Selecciona los marcos de subcategorización del lado izquierdo y
derecho con probabilidades Plc(LC|P,H,h) y Prc(RC|P,H,h)
Genera los modicadores del lado derecho con probabilidad
Pr (Ri (ri )|H,P,h,∆r (i −1),RC)
Genera los modicadores del lado izquierdo con probabilidad
Pl (Li (li )|H,P,h,∆r (i −1),LC)
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
22. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Marcos de subcategorización
Dene un marco de subcategorización como una bolsa de
no-terminales.
Genera la cabeza con probabilidad PH(H|P,h)
Selecciona los marcos de subcategorización del lado izquierdo y
derecho con probabilidades Plc(LC|P,H,h) y Prc(RC|P,H,h)
Genera los modicadores del lado derecho con probabilidad
Pr (Ri (ri )|H,P,h,∆r (i −1),RC)
Genera los modicadores del lado izquierdo con probabilidad
Pl (Li (li )|H,P,h,∆r (i −1),LC)
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
23. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Marcos de subcategorización
Dene un marco de subcategorización como una bolsa de
no-terminales.
Genera la cabeza con probabilidad PH(H|P,h)
Selecciona los marcos de subcategorización del lado izquierdo y
derecho con probabilidades Plc(LC|P,H,h) y Prc(RC|P,H,h)
Genera los modicadores del lado derecho con probabilidad
Pr (Ri (ri )|H,P,h,∆r (i −1),RC)
Genera los modicadores del lado izquierdo con probabilidad
Pl (Li (li )|H,P,h,∆r (i −1),LC)
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
24. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Modelo 3: Modelando trazas y movimientos de la cabeza
Los formalismos similares a GPSG manejan movmientos de
núcleos sintácticos adicionando una característica de diferencia
(brecha) para cada no-terminal en el árbol y propagando estas
diferencias a través de los árboles hasta que nalmente
descargado como una traza de complemento.
hay tres formas de que el gap sea pasado hacia abajo a el RHS.
Head El gap es pasado al núcleo de la frase, como una regla.
Left, Right El gap es pasado recursivamente a uno de los
modicadores de la izquierda o derecha del núcleo, o
descargando como un agrumento de traza a la izquierda o
derecha del núcleo.
Se especica un parámetro PG (G|P,h,H) donde G es otro
Head, Left o Right.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
25. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Modelo 3: Modelando trazas y movimientos de la cabeza
Los formalismos similares a GPSG manejan movmientos de
núcleos sintácticos adicionando una característica de diferencia
(brecha) para cada no-terminal en el árbol y propagando estas
diferencias a través de los árboles hasta que nalmente
descargado como una traza de complemento.
hay tres formas de que el gap sea pasado hacia abajo a el RHS.
Head El gap es pasado al núcleo de la frase, como una regla.
Left, Right El gap es pasado recursivamente a uno de los
modicadores de la izquierda o derecha del núcleo, o
descargando como un agrumento de traza a la izquierda o
derecha del núcleo.
Se especica un parámetro PG (G|P,h,H) donde G es otro
Head, Left o Right.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
26. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Trabajo de Bikel
Dan Bikel construye un motor de análisis sintáctico
multi-lenguaje con la capacidad de instanciar una gran
variedad de modelos analizadores probabilisticos.
Como modelo línea base apropiado se escoje instanciar los
parámetros del modelo 2 de Collins.
Bikel identicó once pasos de preprocesamiento necesarios
para preparar los árboles de entrenamiento cuando se usa el
modelo de análisis de Collins.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
27. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Ancora
AnCOra (ANnotated CORpora) es un corpus del catalán
(AnCOra-CA) y español (AnCOra-ES) con diferentes niveles
de anotación.
Cada corpus contiene 500.000 palabras que han sido
construidas de manera incremental a través de trabajos previos
como el corpus 3LB: 3LB-CAT y 3LB-ESP
Ambos corpus estan automáticamente etiquetados con
información morfosintáctica y chequeada manualmente.
Ampliamente usados como corpus de entrenamiento para
sistemas de aprendizaje
Los corpus 3LB son sintácticamente etiquetados con
constituyentes y funciones de una manera manual.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
28. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Ancora
AnCOra (ANnotated CORpora) es un corpus del catalán
(AnCOra-CA) y español (AnCOra-ES) con diferentes niveles
de anotación.
Cada corpus contiene 500.000 palabras que han sido
construidas de manera incremental a través de trabajos previos
como el corpus 3LB: 3LB-CAT y 3LB-ESP
Ambos corpus estan automáticamente etiquetados con
información morfosintáctica y chequeada manualmente.
Ampliamente usados como corpus de entrenamiento para
sistemas de aprendizaje
Los corpus 3LB son sintácticamente etiquetados con
constituyentes y funciones de una manera manual.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
29. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Información del corpus usada para el entrenamiento del
analizador
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
30. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Funciones sintácticas
Sujeto -SUJ
Objeto directo -CD
Objeto indirecto -CI
Atributo -ATR
Complemento predicativo -CPRED
Complemento preposicional -CREG
Complemento agente -CAG
Complemento adverbial -CC
Complemento advervial (locativo) -CCL
Complemento adverbial (temporal) -CCT
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
31. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Outline
1 Introducción
2 Marco Teórico
Análisis Sintáctico Probabilístico
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Clasicador de Argumentos de verbo
3 Análisis sintáctico con clasicación de argumentos
Integración clasicador - analizador
4 Resultados
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
32. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Argumentos verbales
Los argumentos son expresiones lingüísticas exigidas
semánticamente por el núcleo.
Los verbos tienen dos tipos básicos de argumentos:
Complementos: Necesarios para el verbo.
Adjuntos (circunstancial): Son complementos no exigidos por
el verbo.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
33. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Características para la implementación del SVM
Estas características son extraídas de los árboles de entrenamiento
para poder generar los archivos de entrenamiento del SVM. Y se
extraen de los subarboles que van a ser unidos mediante el
algoritmo CKY.
Posición del núcleo: Posición del núcleo sintáctico contando
desde 1, de izquierda a derecha.
Codicación de etiqueta: Asignación de codicación binaria
para las etiquetas del nodo raíz.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
34. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Características para la implementación del SVM
Estas características son extraídas de los árboles de entrenamiento
para poder generar los archivos de entrenamiento del SVM. Y se
extraen de los subarboles que van a ser unidos mediante el
algoritmo CKY.
Posición del núcleo: Posición del núcleo sintáctico contando
desde 1, de izquierda a derecha.
Codicación de etiqueta: Asignación de codicación binaria
para las etiquetas del nodo raíz.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
35. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Características para la implementación del SVM
Aridad: Número de hijos del nodo padre. Se reere a la
anchura del segundo nivel del árbol.
Anchura: Número de nodos hojas. Se reere al número de
palabras que conforman el constituyente sintáctico.
Longitud: Cantidad de nodos desde la raíz hasta la hoja más
lejana.
Distancia: Número de palabras entre el nodo constituyente
modicador y el verbo.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
36. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
libSVM: una implementación de SVM
Implementa los tipos de entrenamiento y núcleos mas
comunes.
Permite clasicación multiclase.
Implementa el procedimiento para realizar validación cruzada
Métodos para obtener máquinas que proporcionen además la
probabilidad de la clasicación.
Incluye técnicas para reducir el coste de la constante C.
Implementaciones en C++ y JAVA.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
37. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Parametrización de libSVM
Se usa un kernel gausiano (RBF) con γ = 2−7
Parámetro de costo C = 32
Se usa la técnica de validación cruzada para anar el conjunto
de características.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
38. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Integración clasicador - analizador
Outline
1 Introducción
2 Marco Teórico
Análisis Sintáctico Probabilístico
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Clasicador de Argumentos de verbo
3 Análisis sintáctico con clasicación de argumentos
Integración clasicador - analizador
4 Resultados
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
39. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Integración clasicador - analizador
Integración clasicador - analizador
Para usar el clasicador de argumentos como parte del proceso de
análisis se realizaron dos modicaciones:
Se usa la información suministrada por el corpus Ancora para
los verbos, y crear las subcategorizaciones de los verbos.
Se modica el algoritmo de unión de items que hace parte del
CKY en la implementación de Bikel para vericar los
argumentos de verbo.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
40. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Integración clasicador - analizador
Información semántica de Ancora sobre los verbos
Ancora presenta dos lexicones verbales a gran escala para el
español y el catalán que sirven de base para la anotación
semántica con argumentos y roles temáticos del corpus.
Contiene un total de 1965 verbos diferentes correspondientes a
500.000 palabras contenidas en el corpus.
Se aplica el mismo principio del modelo 2 de Collins,
obteniendo la bolsa de subcategorización a partir de la
información proporcionada por los lexicones verbales del
corpus.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
41. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Integración clasicador - analizador
Modicación
En el agoritmo CKY, más precisamente en el método de unión
de items, se clasica el item modicador, cuando el item
modicado se trata de un verbo.
Si la clasicación del item se encuentra dentro de las posibles
subcategorizaciones del verbo, entonces se aumenta la
probabilidad de selección.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
42. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Integración clasicador - analizador
Modicación joinItems
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
43. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Integración clasicador - analizador
Procesos Fase de Entrenamiento
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
44. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Integración clasicador - analizador
Procesos Fase de Decodicación
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
45. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Resultados
Obtenemos un analizador sintáctico probabilístico basado en el
modelo de Collins y el algoritmo de Bikel entrenado con el
corpus Ancora para el idioma español.
Obtenemos un clasicador semántico de argumentos verbales
usando máquinas de vectores de soporte entrenado con el
corpus Ancora para el idioma español.
Aplicación del clasicador semántico en el analizador sintáctico
probabilístico para el español.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
46. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Resultados
Obtenemos un analizador sintáctico probabilístico basado en el
modelo de Collins y el algoritmo de Bikel entrenado con el
corpus Ancora para el idioma español.
Obtenemos un clasicador semántico de argumentos verbales
usando máquinas de vectores de soporte entrenado con el
corpus Ancora para el idioma español.
Aplicación del clasicador semántico en el analizador sintáctico
probabilístico para el español.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
47. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Resultados
Obtenemos un analizador sintáctico probabilístico basado en el
modelo de Collins y el algoritmo de Bikel entrenado con el
corpus Ancora para el idioma español.
Obtenemos un clasicador semántico de argumentos verbales
usando máquinas de vectores de soporte entrenado con el
corpus Ancora para el idioma español.
Aplicación del clasicador semántico en el analizador sintáctico
probabilístico para el español.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
48. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Resultados
Obtenemos un analizador sintáctico probabilístico basado en el
modelo de Collins y el algoritmo de Bikel entrenado con el
corpus Ancora para el idioma español.
Obtenemos un clasicador semántico de argumentos verbales
usando máquinas de vectores de soporte entrenado con el
corpus Ancora para el idioma español.
Aplicación del clasicador semántico en el analizador sintáctico
probabilístico para el español.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
49. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Conclusiones
Encontramos que adicionando un clasicador de argumentos
de verbo, para ayudar en el razonamiento probabilístico de
subcategorización, no aporta una mejora en la precisión del
árbol sintáctico obtenido.
Se obtiene un analizador sintáctico probabilístico que clasica
complementos y ajduntos entre los argumentos verbales. Y
esto permite obtener una estructura básica sin
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
50. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Conclusiones
Encontramos que adicionando un clasicador de argumentos
de verbo, para ayudar en el razonamiento probabilístico de
subcategorización, no aporta una mejora en la precisión del
árbol sintáctico obtenido.
Se obtiene un analizador sintáctico probabilístico que clasica
complementos y ajduntos entre los argumentos verbales. Y
esto permite obtener una estructura básica sin
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
51. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Referencias
Daniel M. Bikel. On the Parameter Space of Generative
Lexicalized Statistical Parsing Models. PhD thesis,
Philadelphia, PA, USA, 2004. AAI3152016.
Michael Collins. Head-driven statistical models for natural
language parsing. Comput. Linguist., 29(4):589637, December
2003.
LIBSVM: A Library for Support Vector Machines. Chih-Chung
Chang and Chih-Jen Lin. 2001
Support Vector Learning for Semantic Argument Classication.
SAMEER PRADHAN, KADRI HACIOGLU. 2005
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
52. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Referencias
Using Machine-Learning to Assign Function Labels to Parser
Output for Spanish. Grzegorz Chrupaªa1 and Josef van
Genabith. 2004
LAS MÁQUINAS DE SOPORTE VECTORIAL (SVMs).
GUSTAVO A. BETANCOURT. 2005
Miguel A. Alonso Carlos Gómez Jesús Vilares. Análisis
Sintáctico. 2010
Natural Language Processing:Statistical Parsing. Raymond J.
Mooney
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
53. Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Referencias
Maria Antònia Martí, Mariona Taulé, Manu Bertran y Lluís
Màrquez. AnCora: Multilingual and Multilevel Annotated
Corpora. 2007
Aparicio, Juan, Mariona Taulé, M.Antònia Martí (2008)
'AnCora-Verb: A Lexical Resource for the Semantic Annotation
of Corpora'. Proceedings of 6th International Conference on
Language Resources and Evaluation. Marrakesh (Morocco).
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu