SlideShare una empresa de Scribd logo
1 de 53
Descargar para leer sin conexión
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Analizador sintáctico probabilístico con clasicación
de argumentos de verbo para el idioma español.
John Alexander Vargas
Escuela de Ingeniería de Sistemas y Computación
Facultad de Ingeniería
Universidad del Valle
Trabajo de Investigación, 2015
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Agenda
1 Introducción
2 Marco Teórico
Análisis Sintáctico Probabilístico
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Clasicador de Argumentos de verbo
3 Análisis sintáctico con clasicación de argumentos
Integración clasicador - analizador
4 Resultados
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Planteamiento del problema
Problema General
¾Cómo mejorar el nivel de precisión en el análisis sintáctico
probabilístico para el idioma español?
Problema Especíco
¾Cómo puedo integrar un clasicador semántico de argumentos de
verbo en un analizador sintáctico probabilístico para mejorar su
puntaje de precisión?
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Planteamiento del problema
Problema General
¾Cómo mejorar el nivel de precisión en el análisis sintáctico
probabilístico para el idioma español?
Problema Especíco
¾Cómo puedo integrar un clasicador semántico de argumentos de
verbo en un analizador sintáctico probabilístico para mejorar su
puntaje de precisión?
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Outline
1 Introducción
2 Marco Teórico
Análisis Sintáctico Probabilístico
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Clasicador de Argumentos de verbo
3 Análisis sintáctico con clasicación de argumentos
Integración clasicador - analizador
4 Resultados
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Análisis Sintáctico
Tarea principal
Encontrar un algoritmo que reciba como entrada una frase escrita
en lenguaje natural y retorne como salida la estructura sintáctica
que esta basada en una gramática previamente establecida. Esta
estructura sintáctica se encuentra representada en un árbol de
estructura de frase.
Depende la correcta comprensión del mensaje escrito, que es la
base de cualquier eventual interpretación del mismo.
Aplicaciones como la extracción de información
Traducción de textos
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Análisis Sintáctico
Tarea principal
Encontrar un algoritmo que reciba como entrada una frase escrita
en lenguaje natural y retorne como salida la estructura sintáctica
que esta basada en una gramática previamente establecida. Esta
estructura sintáctica se encuentra representada en un árbol de
estructura de frase.
Depende la correcta comprensión del mensaje escrito, que es la
base de cualquier eventual interpretación del mismo.
Aplicaciones como la extracción de información
Traducción de textos
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Ejemplo
Ejemplo de una gramática libre de contexto y de un árbol sintáctico
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Gramáticas probabilísticas libres de contexto
La probabilidad de un árbol
La probabilidad de un árbol t con reglas
α1 → β1,α2 → β2,...,αn → βn
es p(t) = ∏n
i=1 q(αi → βi )
where q(α → β) es la probabilidad de la regla α → β
S → NP VP 1,0
NP → Sust 0,4
NP → Det Sust 0,3
VP → V NP 0,7
La probabilidad para el árbol seria
p(t) = 0,84
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Gramáticas probabilísticas libres de contexto
La probabilidad de un árbol
La probabilidad de un árbol t con reglas
α1 → β1,α2 → β2,...,αn → βn
es p(t) = ∏n
i=1 q(αi → βi )
where q(α → β) es la probabilidad de la regla α → β
S → NP VP 1,0
NP → Sust 0,4
NP → Det Sust 0,3
VP → V NP 0,7
La probabilidad para el árbol seria
p(t) = 0,84
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Algoritmo de programación dinámica
Dado una PCFG y una sentencia s,
¾Cómo encontrar maxt∈T (s) p(t)?
Notación:
n: número de palabras en la sentencia
wi : i-ésima palabra de la sentencia
N: El conjunto de no terminales de la gramática
S: El símbolo inicial de la gramática
Dene una tabla de programación dinámica
π[i, j, X] = máxima probabilidad de un constituyente con
no-terminal X que abarca las palabras i ...j (inclusive)
La meta es calcular maxt∈T (s)p(t) = π[1, n, S]
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Algoritmo de programación dinámica
Dado una PCFG y una sentencia s,
¾Cómo encontrar maxt∈T (s) p(t)?
Notación:
n: número de palabras en la sentencia
wi : i-ésima palabra de la sentencia
N: El conjunto de no terminales de la gramática
S: El símbolo inicial de la gramática
Dene una tabla de programación dinámica
π[i, j, X] = máxima probabilidad de un constituyente con
no-terminal X que abarca las palabras i ...j (inclusive)
La meta es calcular maxt∈T (s)p(t) = π[1, n, S]
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Algoritmo de programación dinámica
Dado una PCFG y una sentencia s,
¾Cómo encontrar maxt∈T (s) p(t)?
Notación:
n: número de palabras en la sentencia
wi : i-ésima palabra de la sentencia
N: El conjunto de no terminales de la gramática
S: El símbolo inicial de la gramática
Dene una tabla de programación dinámica
π[i, j, X] = máxima probabilidad de un constituyente con
no-terminal X que abarca las palabras i ...j (inclusive)
La meta es calcular maxt∈T (s)p(t) = π[1, n, S]
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
El algoritmo CKY
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Modelos de análisis de Collins
Tres modelos generativos lexicalizados propuestos por Michael
Collins
Modelo 1: Modelo generativo con cabezas lexicalizadas.
Modelo 2: Modelo 1 + distinción de complementos/adjuntos y
subcategorización.
Modelo 3: Modelo 2 + traza del movimiento de la
núcleo-cabeza.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Modelo básico
Lo primero que se nota en cada regla de una PCFG
lexicalizada es la forma
P(h) → Ln(ln)...L1(l1)H(h)R1(r1)...Rm(rm)
H es el núcleo sintáctico de la frase, el cuál hereda la
palabra-núcleo h, de su padre P.
L1 ...Ln y R1 ...Rm son modicadores de izquierda y derecha
del núcleo H.
Tanto n como m pueden ser cero, Si n = m = 0, son reglas
unarias.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Generación del modelo
La generación de RHS de cada regla, dada el LHS, ha sido
descompuesta en tres pasos:
1 Generación de la etiqueta del núcleo constituyente de la frase,
con probabilidad PH(H|P,h).
2 Generación de modicadores a la izquierda del núcleo con
probabilidad ∏i=1...n+1 PL(Li (li )|P,h,H), donde
Ln+1(ln+1) = STOP. El símbolo STOP es adicionado al
vocabulario de no-terminales, y el modelo para generando
modicadores a la izquierda donde ha sido generado.
3 Generación de modicadores a la derecha del núcleo con
probabilidad ∏i=1...n+1 PR(Ri (ri )|P,h,H), Rm+1(rm+1) es
denida como STOP.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Adicionando métrica de distancia
Collins introduce una medidad de distancia entre las palabras
∆l y ∆r
No es una distancia real. Las funciones son heurísticas basadas
en la dirección, adyacencia, posición y puntuación.
El modelo queda:
Pl (Li (li )|H, P, h, L1(l1)...Li−1(li−1)) =
Pl (Li (li )|H, P, h, ∆l (i −1))
Pr (Ri (ri )|H, P, h, R1(r1)...Ri−1(ri−1)) =
Pl (Ri (ri )|H, P, h, ∆r (i −1))
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Adicionando métrica de distancia
Collins introduce una medidad de distancia entre las palabras
∆l y ∆r
No es una distancia real. Las funciones son heurísticas basadas
en la dirección, adyacencia, posición y puntuación.
El modelo queda:
Pl (Li (li )|H, P, h, L1(l1)...Li−1(li−1)) =
Pl (Li (li )|H, P, h, ∆l (i −1))
Pr (Ri (ri )|H, P, h, R1(r1)...Ri−1(ri−1)) =
Pl (Ri (ri )|H, P, h, ∆r (i −1))
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Modelo 2: Clasicación de modicadores
Añadir un sujo C a los no terminales en los datos de
entrenamiento para los que:
El no terminal es un NP, SBAR, o S cuyo padre es una S, una
NP, SBAR, S, o el vicepresidente cuyo padre es un
vicepresidente, o un S cuyo padre es un SBAR.
La no-terminal no debe tener una de las etiquetas semánticas:
ADV, COV, BNF, DIR, EXT, LOC, MNR, TMP, CLR, o PRP.
También marque el primer hijo después de una cabeza PP como
complemento
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Marcos de subcategorización
Dene un marco de subcategorización como una bolsa de
no-terminales.
Genera la cabeza con probabilidad PH(H|P,h)
Selecciona los marcos de subcategorización del lado izquierdo y
derecho con probabilidades Plc(LC|P,H,h) y Prc(RC|P,H,h)
Genera los modicadores del lado derecho con probabilidad
Pr (Ri (ri )|H,P,h,∆r (i −1),RC)
Genera los modicadores del lado izquierdo con probabilidad
Pl (Li (li )|H,P,h,∆r (i −1),LC)
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Marcos de subcategorización
Dene un marco de subcategorización como una bolsa de
no-terminales.
Genera la cabeza con probabilidad PH(H|P,h)
Selecciona los marcos de subcategorización del lado izquierdo y
derecho con probabilidades Plc(LC|P,H,h) y Prc(RC|P,H,h)
Genera los modicadores del lado derecho con probabilidad
Pr (Ri (ri )|H,P,h,∆r (i −1),RC)
Genera los modicadores del lado izquierdo con probabilidad
Pl (Li (li )|H,P,h,∆r (i −1),LC)
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Marcos de subcategorización
Dene un marco de subcategorización como una bolsa de
no-terminales.
Genera la cabeza con probabilidad PH(H|P,h)
Selecciona los marcos de subcategorización del lado izquierdo y
derecho con probabilidades Plc(LC|P,H,h) y Prc(RC|P,H,h)
Genera los modicadores del lado derecho con probabilidad
Pr (Ri (ri )|H,P,h,∆r (i −1),RC)
Genera los modicadores del lado izquierdo con probabilidad
Pl (Li (li )|H,P,h,∆r (i −1),LC)
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Modelo 3: Modelando trazas y movimientos de la cabeza
Los formalismos similares a GPSG manejan movmientos de
núcleos sintácticos adicionando una característica de diferencia
(brecha) para cada no-terminal en el árbol y propagando estas
diferencias a través de los árboles hasta que nalmente
descargado como una traza de complemento.
hay tres formas de que el gap sea pasado hacia abajo a el RHS.
Head El gap es pasado al núcleo de la frase, como una regla.
Left, Right El gap es pasado recursivamente a uno de los
modicadores de la izquierda o derecha del núcleo, o
descargando como un agrumento de traza a la izquierda o
derecha del núcleo.
Se especica un parámetro PG (G|P,h,H) donde G es otro
Head, Left o Right.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Modelo 3: Modelando trazas y movimientos de la cabeza
Los formalismos similares a GPSG manejan movmientos de
núcleos sintácticos adicionando una característica de diferencia
(brecha) para cada no-terminal en el árbol y propagando estas
diferencias a través de los árboles hasta que nalmente
descargado como una traza de complemento.
hay tres formas de que el gap sea pasado hacia abajo a el RHS.
Head El gap es pasado al núcleo de la frase, como una regla.
Left, Right El gap es pasado recursivamente a uno de los
modicadores de la izquierda o derecha del núcleo, o
descargando como un agrumento de traza a la izquierda o
derecha del núcleo.
Se especica un parámetro PG (G|P,h,H) donde G es otro
Head, Left o Right.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Trabajo de Bikel
Dan Bikel construye un motor de análisis sintáctico
multi-lenguaje con la capacidad de instanciar una gran
variedad de modelos analizadores probabilisticos.
Como modelo línea base apropiado se escoje instanciar los
parámetros del modelo 2 de Collins.
Bikel identicó once pasos de preprocesamiento necesarios
para preparar los árboles de entrenamiento cuando se usa el
modelo de análisis de Collins.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Ancora
AnCOra (ANnotated CORpora) es un corpus del catalán
(AnCOra-CA) y español (AnCOra-ES) con diferentes niveles
de anotación.
Cada corpus contiene 500.000 palabras que han sido
construidas de manera incremental a través de trabajos previos
como el corpus 3LB: 3LB-CAT y 3LB-ESP
Ambos corpus estan automáticamente etiquetados con
información morfosintáctica y chequeada manualmente.
Ampliamente usados como corpus de entrenamiento para
sistemas de aprendizaje
Los corpus 3LB son sintácticamente etiquetados con
constituyentes y funciones de una manera manual.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Ancora
AnCOra (ANnotated CORpora) es un corpus del catalán
(AnCOra-CA) y español (AnCOra-ES) con diferentes niveles
de anotación.
Cada corpus contiene 500.000 palabras que han sido
construidas de manera incremental a través de trabajos previos
como el corpus 3LB: 3LB-CAT y 3LB-ESP
Ambos corpus estan automáticamente etiquetados con
información morfosintáctica y chequeada manualmente.
Ampliamente usados como corpus de entrenamiento para
sistemas de aprendizaje
Los corpus 3LB son sintácticamente etiquetados con
constituyentes y funciones de una manera manual.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Información del corpus usada para el entrenamiento del
analizador
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Funciones sintácticas
Sujeto -SUJ
Objeto directo -CD
Objeto indirecto -CI
Atributo -ATR
Complemento predicativo -CPRED
Complemento preposicional -CREG
Complemento agente -CAG
Complemento adverbial -CC
Complemento advervial (locativo) -CCL
Complemento adverbial (temporal) -CCT
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Outline
1 Introducción
2 Marco Teórico
Análisis Sintáctico Probabilístico
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Clasicador de Argumentos de verbo
3 Análisis sintáctico con clasicación de argumentos
Integración clasicador - analizador
4 Resultados
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Argumentos verbales
Los argumentos son expresiones lingüísticas exigidas
semánticamente por el núcleo.
Los verbos tienen dos tipos básicos de argumentos:
Complementos: Necesarios para el verbo.
Adjuntos (circunstancial): Son complementos no exigidos por
el verbo.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Características para la implementación del SVM
Estas características son extraídas de los árboles de entrenamiento
para poder generar los archivos de entrenamiento del SVM. Y se
extraen de los subarboles que van a ser unidos mediante el
algoritmo CKY.
Posición del núcleo: Posición del núcleo sintáctico contando
desde 1, de izquierda a derecha.
Codicación de etiqueta: Asignación de codicación binaria
para las etiquetas del nodo raíz.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Características para la implementación del SVM
Estas características son extraídas de los árboles de entrenamiento
para poder generar los archivos de entrenamiento del SVM. Y se
extraen de los subarboles que van a ser unidos mediante el
algoritmo CKY.
Posición del núcleo: Posición del núcleo sintáctico contando
desde 1, de izquierda a derecha.
Codicación de etiqueta: Asignación de codicación binaria
para las etiquetas del nodo raíz.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Características para la implementación del SVM
Aridad: Número de hijos del nodo padre. Se reere a la
anchura del segundo nivel del árbol.
Anchura: Número de nodos hojas. Se reere al número de
palabras que conforman el constituyente sintáctico.
Longitud: Cantidad de nodos desde la raíz hasta la hoja más
lejana.
Distancia: Número de palabras entre el nodo constituyente
modicador y el verbo.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
libSVM: una implementación de SVM
Implementa los tipos de entrenamiento y núcleos mas
comunes.
Permite clasicación multiclase.
Implementa el procedimiento para realizar validación cruzada
Métodos para obtener máquinas que proporcionen además la
probabilidad de la clasicación.
Incluye técnicas para reducir el coste de la constante C.
Implementaciones en C++ y JAVA.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Análisis Sintáctico Probabilístico
Clasicador de Argumentos de verbo
Parametrización de libSVM
Se usa un kernel gausiano (RBF) con γ = 2−7
Parámetro de costo C = 32
Se usa la técnica de validación cruzada para anar el conjunto
de características.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Integración clasicador - analizador
Outline
1 Introducción
2 Marco Teórico
Análisis Sintáctico Probabilístico
Modelo de Collins
Implementación de Bikel
El corpus Ancora
Clasicador de Argumentos de verbo
3 Análisis sintáctico con clasicación de argumentos
Integración clasicador - analizador
4 Resultados
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Integración clasicador - analizador
Integración clasicador - analizador
Para usar el clasicador de argumentos como parte del proceso de
análisis se realizaron dos modicaciones:
Se usa la información suministrada por el corpus Ancora para
los verbos, y crear las subcategorizaciones de los verbos.
Se modica el algoritmo de unión de items que hace parte del
CKY en la implementación de Bikel para vericar los
argumentos de verbo.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Integración clasicador - analizador
Información semántica de Ancora sobre los verbos
Ancora presenta dos lexicones verbales a gran escala para el
español y el catalán que sirven de base para la anotación
semántica con argumentos y roles temáticos del corpus.
Contiene un total de 1965 verbos diferentes correspondientes a
500.000 palabras contenidas en el corpus.
Se aplica el mismo principio del modelo 2 de Collins,
obteniendo la bolsa de subcategorización a partir de la
información proporcionada por los lexicones verbales del
corpus.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Integración clasicador - analizador
Modicación
En el agoritmo CKY, más precisamente en el método de unión
de items, se clasica el item modicador, cuando el item
modicado se trata de un verbo.
Si la clasicación del item se encuentra dentro de las posibles
subcategorizaciones del verbo, entonces se aumenta la
probabilidad de selección.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Integración clasicador - analizador
Modicación joinItems
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Integración clasicador - analizador
Procesos Fase de Entrenamiento
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Integración clasicador - analizador
Procesos Fase de Decodicación
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Resultados
Obtenemos un analizador sintáctico probabilístico basado en el
modelo de Collins y el algoritmo de Bikel entrenado con el
corpus Ancora para el idioma español.
Obtenemos un clasicador semántico de argumentos verbales
usando máquinas de vectores de soporte entrenado con el
corpus Ancora para el idioma español.
Aplicación del clasicador semántico en el analizador sintáctico
probabilístico para el español.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Resultados
Obtenemos un analizador sintáctico probabilístico basado en el
modelo de Collins y el algoritmo de Bikel entrenado con el
corpus Ancora para el idioma español.
Obtenemos un clasicador semántico de argumentos verbales
usando máquinas de vectores de soporte entrenado con el
corpus Ancora para el idioma español.
Aplicación del clasicador semántico en el analizador sintáctico
probabilístico para el español.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Resultados
Obtenemos un analizador sintáctico probabilístico basado en el
modelo de Collins y el algoritmo de Bikel entrenado con el
corpus Ancora para el idioma español.
Obtenemos un clasicador semántico de argumentos verbales
usando máquinas de vectores de soporte entrenado con el
corpus Ancora para el idioma español.
Aplicación del clasicador semántico en el analizador sintáctico
probabilístico para el español.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Resultados
Obtenemos un analizador sintáctico probabilístico basado en el
modelo de Collins y el algoritmo de Bikel entrenado con el
corpus Ancora para el idioma español.
Obtenemos un clasicador semántico de argumentos verbales
usando máquinas de vectores de soporte entrenado con el
corpus Ancora para el idioma español.
Aplicación del clasicador semántico en el analizador sintáctico
probabilístico para el español.
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Conclusiones
Encontramos que adicionando un clasicador de argumentos
de verbo, para ayudar en el razonamiento probabilístico de
subcategorización, no aporta una mejora en la precisión del
árbol sintáctico obtenido.
Se obtiene un analizador sintáctico probabilístico que clasica
complementos y ajduntos entre los argumentos verbales. Y
esto permite obtener una estructura básica sin
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Conclusiones
Encontramos que adicionando un clasicador de argumentos
de verbo, para ayudar en el razonamiento probabilístico de
subcategorización, no aporta una mejora en la precisión del
árbol sintáctico obtenido.
Se obtiene un analizador sintáctico probabilístico que clasica
complementos y ajduntos entre los argumentos verbales. Y
esto permite obtener una estructura básica sin
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Referencias
Daniel M. Bikel. On the Parameter Space of Generative
Lexicalized Statistical Parsing Models. PhD thesis,
Philadelphia, PA, USA, 2004. AAI3152016.
Michael Collins. Head-driven statistical models for natural
language parsing. Comput. Linguist., 29(4):589637, December
2003.
LIBSVM: A Library for Support Vector Machines. Chih-Chung
Chang and Chih-Jen Lin. 2001
Support Vector Learning for Semantic Argument Classication.
SAMEER PRADHAN, KADRI HACIOGLU. 2005
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Referencias
Using Machine-Learning to Assign Function Labels to Parser
Output for Spanish. Grzegorz Chrupaªa1 and Josef van
Genabith. 2004
LAS MÁQUINAS DE SOPORTE VECTORIAL (SVMs).
GUSTAVO A. BETANCOURT. 2005
Miguel A. Alonso Carlos Gómez Jesús Vilares. Análisis
Sintáctico. 2010
Natural Language Processing:Statistical Parsing. Raymond J.
Mooney
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
Introducción
Marco Teórico
Análisis sintáctico con clasicación de argumentos
Resultados
Referencias
Maria Antònia Martí, Mariona Taulé, Manu Bertran y Lluís
Màrquez. AnCora: Multilingual and Multilevel Annotated
Corpora. 2007
Aparicio, Juan, Mariona Taulé, M.Antònia Martí (2008)
'AnCora-Verb: A Lexical Resource for the Semantic Annotation
of Corpora'. Proceedings of 6th International Conference on
Language Resources and Evaluation. Marrakesh (Morocco).
John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu

Más contenido relacionado

Destacado

LMF-T6: Sintaxis y semántica de la lógica de primer orden
LMF-T6: Sintaxis y semántica de la lógica de primer ordenLMF-T6: Sintaxis y semántica de la lógica de primer orden
LMF-T6: Sintaxis y semántica de la lógica de primer ordenJosé A. Alonso
 
Metodos De Busquedas
Metodos De BusquedasMetodos De Busquedas
Metodos De Busquedasdploorz
 
Presentacion II jornadas de Lógica, Computación e Inteligencia Artificial
Presentacion II jornadas de Lógica, Computación e Inteligencia ArtificialPresentacion II jornadas de Lógica, Computación e Inteligencia Artificial
Presentacion II jornadas de Lógica, Computación e Inteligencia ArtificialJoaquín Borrego-Díaz
 
Ejercicios IA - PSR & Poda alfa-beta
Ejercicios IA - PSR & Poda alfa-betaEjercicios IA - PSR & Poda alfa-beta
Ejercicios IA - PSR & Poda alfa-betaLiliana Pacheco
 
Lenguajes de programación lógica
Lenguajes de programación lógicaLenguajes de programación lógica
Lenguajes de programación lógicaDarwin_Cusme
 
Diapositivas "Inteligencia artificial" - Grupo Colaborativo 90169-33 UNAD
Diapositivas "Inteligencia artificial" - Grupo Colaborativo 90169-33 UNADDiapositivas "Inteligencia artificial" - Grupo Colaborativo 90169-33 UNAD
Diapositivas "Inteligencia artificial" - Grupo Colaborativo 90169-33 UNADCACG1974
 
LI-T6: Sintaxis y semántica de la lógica de primer orden
LI-T6: Sintaxis y semántica de la lógica de primer ordenLI-T6: Sintaxis y semántica de la lógica de primer orden
LI-T6: Sintaxis y semántica de la lógica de primer ordenJosé A. Alonso
 
Curso Programacion de Juego Introducion IA
Curso Programacion de Juego Introducion IACurso Programacion de Juego Introducion IA
Curso Programacion de Juego Introducion IARicardo Daniel Quiroga
 
Solución de problemas mediante busqueda
Solución de problemas mediante busquedaSolución de problemas mediante busqueda
Solución de problemas mediante busquedasacrilegetx
 
Tipos de búsqueda en inteligencia artificial
Tipos de búsqueda  en inteligencia artificialTipos de búsqueda  en inteligencia artificial
Tipos de búsqueda en inteligencia artificialHenry Cambal
 
Tipos de busquedas ia
Tipos de busquedas iaTipos de busquedas ia
Tipos de busquedas iaPAko DiAz
 
Introduccion a los lenguajes de programacion para Inteligencia Artificial
Introduccion a los lenguajes de programacion para Inteligencia ArtificialIntroduccion a los lenguajes de programacion para Inteligencia Artificial
Introduccion a los lenguajes de programacion para Inteligencia ArtificialBrian Pando
 
Tipos de búsqueda en Inteligencia Artificial
Tipos de búsqueda en Inteligencia ArtificialTipos de búsqueda en Inteligencia Artificial
Tipos de búsqueda en Inteligencia ArtificialJuank Grifin
 

Destacado (20)

LMF-T6: Sintaxis y semántica de la lógica de primer orden
LMF-T6: Sintaxis y semántica de la lógica de primer ordenLMF-T6: Sintaxis y semántica de la lógica de primer orden
LMF-T6: Sintaxis y semántica de la lógica de primer orden
 
Spatial logics forces-2008
Spatial logics forces-2008Spatial logics forces-2008
Spatial logics forces-2008
 
Ia
IaIa
Ia
 
Metodos De Busquedas
Metodos De BusquedasMetodos De Busquedas
Metodos De Busquedas
 
Inteligencia Artificial
Inteligencia ArtificialInteligencia Artificial
Inteligencia Artificial
 
Introduccion Ia
Introduccion IaIntroduccion Ia
Introduccion Ia
 
Presentacion II jornadas de Lógica, Computación e Inteligencia Artificial
Presentacion II jornadas de Lógica, Computación e Inteligencia ArtificialPresentacion II jornadas de Lógica, Computación e Inteligencia Artificial
Presentacion II jornadas de Lógica, Computación e Inteligencia Artificial
 
Inteligencia Artificial
Inteligencia ArtificialInteligencia Artificial
Inteligencia Artificial
 
Ejercicios IA - PSR & Poda alfa-beta
Ejercicios IA - PSR & Poda alfa-betaEjercicios IA - PSR & Poda alfa-beta
Ejercicios IA - PSR & Poda alfa-beta
 
Lenguajes de programación lógica
Lenguajes de programación lógicaLenguajes de programación lógica
Lenguajes de programación lógica
 
Inteligencia Artificial
Inteligencia ArtificialInteligencia Artificial
Inteligencia Artificial
 
Diapositivas "Inteligencia artificial" - Grupo Colaborativo 90169-33 UNAD
Diapositivas "Inteligencia artificial" - Grupo Colaborativo 90169-33 UNADDiapositivas "Inteligencia artificial" - Grupo Colaborativo 90169-33 UNAD
Diapositivas "Inteligencia artificial" - Grupo Colaborativo 90169-33 UNAD
 
LI-T6: Sintaxis y semántica de la lógica de primer orden
LI-T6: Sintaxis y semántica de la lógica de primer ordenLI-T6: Sintaxis y semántica de la lógica de primer orden
LI-T6: Sintaxis y semántica de la lógica de primer orden
 
Presentacion ia
Presentacion iaPresentacion ia
Presentacion ia
 
Curso Programacion de Juego Introducion IA
Curso Programacion de Juego Introducion IACurso Programacion de Juego Introducion IA
Curso Programacion de Juego Introducion IA
 
Solución de problemas mediante busqueda
Solución de problemas mediante busquedaSolución de problemas mediante busqueda
Solución de problemas mediante busqueda
 
Tipos de búsqueda en inteligencia artificial
Tipos de búsqueda  en inteligencia artificialTipos de búsqueda  en inteligencia artificial
Tipos de búsqueda en inteligencia artificial
 
Tipos de busquedas ia
Tipos de busquedas iaTipos de busquedas ia
Tipos de busquedas ia
 
Introduccion a los lenguajes de programacion para Inteligencia Artificial
Introduccion a los lenguajes de programacion para Inteligencia ArtificialIntroduccion a los lenguajes de programacion para Inteligencia Artificial
Introduccion a los lenguajes de programacion para Inteligencia Artificial
 
Tipos de búsqueda en Inteligencia Artificial
Tipos de búsqueda en Inteligencia ArtificialTipos de búsqueda en Inteligencia Artificial
Tipos de búsqueda en Inteligencia Artificial
 

Similar a Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español.

Cap6
Cap6Cap6
Cap6CJAO
 
Informe analizador gramatical
Informe analizador gramaticalInforme analizador gramatical
Informe analizador gramaticalUNT VJ
 
ANALIZADOR SINTACTICO: INTRODUCION, CONCEPTOS, CARACTERISTICAS
ANALIZADOR SINTACTICO: INTRODUCION, CONCEPTOS, CARACTERISTICAS ANALIZADOR SINTACTICO: INTRODUCION, CONCEPTOS, CARACTERISTICAS
ANALIZADOR SINTACTICO: INTRODUCION, CONCEPTOS, CARACTERISTICAS Infomania pro
 
Taller analisis semantico
Taller analisis semanticoTaller analisis semantico
Taller analisis semanticoAlvaro Cedeño
 
Unidad4 analisis-semantico
Unidad4 analisis-semanticoUnidad4 analisis-semantico
Unidad4 analisis-semanticoInfomania pro
 
Calculo de predicados e inferencias logicas
Calculo de predicados e inferencias logicasCalculo de predicados e inferencias logicas
Calculo de predicados e inferencias logicasRicardo Santaella
 
Logica para informatica
Logica para informaticaLogica para informatica
Logica para informaticaAndreu Garcia
 
Analisis lexico 2
Analisis lexico 2Analisis lexico 2
Analisis lexico 2perlallamas
 
Logica de primer orden
Logica de primer ordenLogica de primer orden
Logica de primer ordensamuel viñas
 
Clase8 3 ejemplo analisis lexico-sintactico miniugb
Clase8 3 ejemplo analisis lexico-sintactico miniugbClase8 3 ejemplo analisis lexico-sintactico miniugb
Clase8 3 ejemplo analisis lexico-sintactico miniugbInfomania pro
 
Cuaderno de sintaxis
Cuaderno de sintaxisCuaderno de sintaxis
Cuaderno de sintaxisPablo Dark Na
 

Similar a Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español. (20)

Cap6
Cap6Cap6
Cap6
 
Programacion logica
Programacion logicaProgramacion logica
Programacion logica
 
Informe analizador gramatical
Informe analizador gramaticalInforme analizador gramatical
Informe analizador gramatical
 
Análisis Sintáctico
Análisis SintácticoAnálisis Sintáctico
Análisis Sintáctico
 
ANALIZADOR SINTACTICO: INTRODUCION, CONCEPTOS, CARACTERISTICAS
ANALIZADOR SINTACTICO: INTRODUCION, CONCEPTOS, CARACTERISTICAS ANALIZADOR SINTACTICO: INTRODUCION, CONCEPTOS, CARACTERISTICAS
ANALIZADOR SINTACTICO: INTRODUCION, CONCEPTOS, CARACTERISTICAS
 
Lógica de programación
Lógica de programaciónLógica de programación
Lógica de programación
 
Taller analisis semantico
Taller analisis semanticoTaller analisis semantico
Taller analisis semantico
 
Gramáticas formales
Gramáticas formales Gramáticas formales
Gramáticas formales
 
Unidad4 analisis-semantico
Unidad4 analisis-semanticoUnidad4 analisis-semantico
Unidad4 analisis-semantico
 
Compilador2
Compilador2Compilador2
Compilador2
 
Calculo de predicados e inferencias logicas
Calculo de predicados e inferencias logicasCalculo de predicados e inferencias logicas
Calculo de predicados e inferencias logicas
 
Logica para informatica
Logica para informaticaLogica para informatica
Logica para informatica
 
Analisis lexico 2
Analisis lexico 2Analisis lexico 2
Analisis lexico 2
 
Logica de primer orden
Logica de primer ordenLogica de primer orden
Logica de primer orden
 
La logica proposicional
La logica proposicionalLa logica proposicional
La logica proposicional
 
Calculo de predicados
Calculo de predicadosCalculo de predicados
Calculo de predicados
 
combinatoria.pdf
combinatoria.pdfcombinatoria.pdf
combinatoria.pdf
 
Clase8 3 ejemplo analisis lexico-sintactico miniugb
Clase8 3 ejemplo analisis lexico-sintactico miniugbClase8 3 ejemplo analisis lexico-sintactico miniugb
Clase8 3 ejemplo analisis lexico-sintactico miniugb
 
Unidad 2
Unidad 2Unidad 2
Unidad 2
 
Cuaderno de sintaxis
Cuaderno de sintaxisCuaderno de sintaxis
Cuaderno de sintaxis
 

Último

Manual de Usuario Estacion total Sokkia SERIE SET10K.pdf
Manual de Usuario Estacion total Sokkia SERIE SET10K.pdfManual de Usuario Estacion total Sokkia SERIE SET10K.pdf
Manual de Usuario Estacion total Sokkia SERIE SET10K.pdfSandXmovex
 
Cadenas de Markov investigación de operaciones
Cadenas de Markov investigación de operacionesCadenas de Markov investigación de operaciones
Cadenas de Markov investigación de operacionesal21510263
 
VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)
VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)
VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)ssuser6958b11
 
CAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdf
CAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdfCAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdf
CAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdfReneBellido1
 
Edificio residencial Tarsia de AEDAS Homes Granada
Edificio residencial Tarsia de AEDAS Homes GranadaEdificio residencial Tarsia de AEDAS Homes Granada
Edificio residencial Tarsia de AEDAS Homes GranadaANDECE
 
Flujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptxFlujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptxEduardoSnchezHernnde5
 
183045401-Terminal-Terrestre-de-Trujillo.pdf
183045401-Terminal-Terrestre-de-Trujillo.pdf183045401-Terminal-Terrestre-de-Trujillo.pdf
183045401-Terminal-Terrestre-de-Trujillo.pdfEdwinAlexanderSnchez2
 
SOUDAL: Soluciones de sellado, pegado y hermeticidad
SOUDAL: Soluciones de sellado, pegado y hermeticidadSOUDAL: Soluciones de sellado, pegado y hermeticidad
SOUDAL: Soluciones de sellado, pegado y hermeticidadANDECE
 
Fe_C_Tratamientos termicos_uap _3_.ppt
Fe_C_Tratamientos termicos_uap   _3_.pptFe_C_Tratamientos termicos_uap   _3_.ppt
Fe_C_Tratamientos termicos_uap _3_.pptVitobailon
 
Proyecto de iluminación "guia" para proyectos de ingeniería eléctrica
Proyecto de iluminación "guia" para proyectos de ingeniería eléctricaProyecto de iluminación "guia" para proyectos de ingeniería eléctrica
Proyecto de iluminación "guia" para proyectos de ingeniería eléctricaXjoseantonio01jossed
 
Linealización de sistemas no lineales.pdf
Linealización de sistemas no lineales.pdfLinealización de sistemas no lineales.pdf
Linealización de sistemas no lineales.pdfrolandolazartep
 
PPT ASISTENCIA TECNICA PRESENTACIÓN FT- ET.pdf
PPT ASISTENCIA TECNICA PRESENTACIÓN FT- ET.pdfPPT ASISTENCIA TECNICA PRESENTACIÓN FT- ET.pdf
PPT ASISTENCIA TECNICA PRESENTACIÓN FT- ET.pdfZamiertCruzSuyo
 
Fisiología del Potasio en Plantas p .pdf
Fisiología del Potasio en Plantas p .pdfFisiología del Potasio en Plantas p .pdf
Fisiología del Potasio en Plantas p .pdfJessLeonelVargasJimn
 
3039_ftg_01Entregable 003_Matematica.pptx
3039_ftg_01Entregable 003_Matematica.pptx3039_ftg_01Entregable 003_Matematica.pptx
3039_ftg_01Entregable 003_Matematica.pptxJhordanGonzalo
 
Una estrategia de seguridad en la nube alineada al NIST
Una estrategia de seguridad en la nube alineada al NISTUna estrategia de seguridad en la nube alineada al NIST
Una estrategia de seguridad en la nube alineada al NISTFundación YOD YOD
 
Uso y Manejo de Extintores Lucha contra incendios
Uso y Manejo de Extintores Lucha contra incendiosUso y Manejo de Extintores Lucha contra incendios
Uso y Manejo de Extintores Lucha contra incendioseduardochavezg1
 
Edificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRCEdificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRCANDECE
 
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdfAnthonyTiclia
 
Conservatorio de danza Kina Jiménez de Almería
Conservatorio de danza Kina Jiménez de AlmeríaConservatorio de danza Kina Jiménez de Almería
Conservatorio de danza Kina Jiménez de AlmeríaANDECE
 
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdfTAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdfAntonioGonzalezIzqui
 

Último (20)

Manual de Usuario Estacion total Sokkia SERIE SET10K.pdf
Manual de Usuario Estacion total Sokkia SERIE SET10K.pdfManual de Usuario Estacion total Sokkia SERIE SET10K.pdf
Manual de Usuario Estacion total Sokkia SERIE SET10K.pdf
 
Cadenas de Markov investigación de operaciones
Cadenas de Markov investigación de operacionesCadenas de Markov investigación de operaciones
Cadenas de Markov investigación de operaciones
 
VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)
VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)
VIRUS FITOPATÓGENOS (GENERALIDADES EN PLANTAS)
 
CAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdf
CAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdfCAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdf
CAP4-TEORIA EVALUACION DE CAUDALES - HIDROGRAMAS.pdf
 
Edificio residencial Tarsia de AEDAS Homes Granada
Edificio residencial Tarsia de AEDAS Homes GranadaEdificio residencial Tarsia de AEDAS Homes Granada
Edificio residencial Tarsia de AEDAS Homes Granada
 
Flujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptxFlujo multifásico en tuberias de ex.pptx
Flujo multifásico en tuberias de ex.pptx
 
183045401-Terminal-Terrestre-de-Trujillo.pdf
183045401-Terminal-Terrestre-de-Trujillo.pdf183045401-Terminal-Terrestre-de-Trujillo.pdf
183045401-Terminal-Terrestre-de-Trujillo.pdf
 
SOUDAL: Soluciones de sellado, pegado y hermeticidad
SOUDAL: Soluciones de sellado, pegado y hermeticidadSOUDAL: Soluciones de sellado, pegado y hermeticidad
SOUDAL: Soluciones de sellado, pegado y hermeticidad
 
Fe_C_Tratamientos termicos_uap _3_.ppt
Fe_C_Tratamientos termicos_uap   _3_.pptFe_C_Tratamientos termicos_uap   _3_.ppt
Fe_C_Tratamientos termicos_uap _3_.ppt
 
Proyecto de iluminación "guia" para proyectos de ingeniería eléctrica
Proyecto de iluminación "guia" para proyectos de ingeniería eléctricaProyecto de iluminación "guia" para proyectos de ingeniería eléctrica
Proyecto de iluminación "guia" para proyectos de ingeniería eléctrica
 
Linealización de sistemas no lineales.pdf
Linealización de sistemas no lineales.pdfLinealización de sistemas no lineales.pdf
Linealización de sistemas no lineales.pdf
 
PPT ASISTENCIA TECNICA PRESENTACIÓN FT- ET.pdf
PPT ASISTENCIA TECNICA PRESENTACIÓN FT- ET.pdfPPT ASISTENCIA TECNICA PRESENTACIÓN FT- ET.pdf
PPT ASISTENCIA TECNICA PRESENTACIÓN FT- ET.pdf
 
Fisiología del Potasio en Plantas p .pdf
Fisiología del Potasio en Plantas p .pdfFisiología del Potasio en Plantas p .pdf
Fisiología del Potasio en Plantas p .pdf
 
3039_ftg_01Entregable 003_Matematica.pptx
3039_ftg_01Entregable 003_Matematica.pptx3039_ftg_01Entregable 003_Matematica.pptx
3039_ftg_01Entregable 003_Matematica.pptx
 
Una estrategia de seguridad en la nube alineada al NIST
Una estrategia de seguridad en la nube alineada al NISTUna estrategia de seguridad en la nube alineada al NIST
Una estrategia de seguridad en la nube alineada al NIST
 
Uso y Manejo de Extintores Lucha contra incendios
Uso y Manejo de Extintores Lucha contra incendiosUso y Manejo de Extintores Lucha contra incendios
Uso y Manejo de Extintores Lucha contra incendios
 
Edificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRCEdificio residencial Becrux en Madrid. Fachada de GRC
Edificio residencial Becrux en Madrid. Fachada de GRC
 
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
2. UPN PPT - SEMANA 02 GESTION DE PROYECTOS MG CHERYL QUEZADA(1).pdf
 
Conservatorio de danza Kina Jiménez de Almería
Conservatorio de danza Kina Jiménez de AlmeríaConservatorio de danza Kina Jiménez de Almería
Conservatorio de danza Kina Jiménez de Almería
 
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdfTAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
TAREA 8 CORREDOR INTEROCEÁNICO DEL PAÍS.pdf
 

Integración de un analizador sintáctico probabilístico con un clasificador de argumentos de verbo para el idioma español.

  • 1. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Analizador sintáctico probabilístico con clasicación de argumentos de verbo para el idioma español. John Alexander Vargas Escuela de Ingeniería de Sistemas y Computación Facultad de Ingeniería Universidad del Valle Trabajo de Investigación, 2015 John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 2. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Agenda 1 Introducción 2 Marco Teórico Análisis Sintáctico Probabilístico Modelo de Collins Implementación de Bikel El corpus Ancora Clasicador de Argumentos de verbo 3 Análisis sintáctico con clasicación de argumentos Integración clasicador - analizador 4 Resultados John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 3. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Planteamiento del problema Problema General ¾Cómo mejorar el nivel de precisión en el análisis sintáctico probabilístico para el idioma español? Problema Especíco ¾Cómo puedo integrar un clasicador semántico de argumentos de verbo en un analizador sintáctico probabilístico para mejorar su puntaje de precisión? John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 4. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Planteamiento del problema Problema General ¾Cómo mejorar el nivel de precisión en el análisis sintáctico probabilístico para el idioma español? Problema Especíco ¾Cómo puedo integrar un clasicador semántico de argumentos de verbo en un analizador sintáctico probabilístico para mejorar su puntaje de precisión? John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 5. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Outline 1 Introducción 2 Marco Teórico Análisis Sintáctico Probabilístico Modelo de Collins Implementación de Bikel El corpus Ancora Clasicador de Argumentos de verbo 3 Análisis sintáctico con clasicación de argumentos Integración clasicador - analizador 4 Resultados John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 6. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Análisis Sintáctico Tarea principal Encontrar un algoritmo que reciba como entrada una frase escrita en lenguaje natural y retorne como salida la estructura sintáctica que esta basada en una gramática previamente establecida. Esta estructura sintáctica se encuentra representada en un árbol de estructura de frase. Depende la correcta comprensión del mensaje escrito, que es la base de cualquier eventual interpretación del mismo. Aplicaciones como la extracción de información Traducción de textos John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 7. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Análisis Sintáctico Tarea principal Encontrar un algoritmo que reciba como entrada una frase escrita en lenguaje natural y retorne como salida la estructura sintáctica que esta basada en una gramática previamente establecida. Esta estructura sintáctica se encuentra representada en un árbol de estructura de frase. Depende la correcta comprensión del mensaje escrito, que es la base de cualquier eventual interpretación del mismo. Aplicaciones como la extracción de información Traducción de textos John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 8. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Ejemplo Ejemplo de una gramática libre de contexto y de un árbol sintáctico John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 9. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Gramáticas probabilísticas libres de contexto La probabilidad de un árbol La probabilidad de un árbol t con reglas α1 → β1,α2 → β2,...,αn → βn es p(t) = ∏n i=1 q(αi → βi ) where q(α → β) es la probabilidad de la regla α → β S → NP VP 1,0 NP → Sust 0,4 NP → Det Sust 0,3 VP → V NP 0,7 La probabilidad para el árbol seria p(t) = 0,84 John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 10. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Gramáticas probabilísticas libres de contexto La probabilidad de un árbol La probabilidad de un árbol t con reglas α1 → β1,α2 → β2,...,αn → βn es p(t) = ∏n i=1 q(αi → βi ) where q(α → β) es la probabilidad de la regla α → β S → NP VP 1,0 NP → Sust 0,4 NP → Det Sust 0,3 VP → V NP 0,7 La probabilidad para el árbol seria p(t) = 0,84 John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 11. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Algoritmo de programación dinámica Dado una PCFG y una sentencia s, ¾Cómo encontrar maxt∈T (s) p(t)? Notación: n: número de palabras en la sentencia wi : i-ésima palabra de la sentencia N: El conjunto de no terminales de la gramática S: El símbolo inicial de la gramática Dene una tabla de programación dinámica π[i, j, X] = máxima probabilidad de un constituyente con no-terminal X que abarca las palabras i ...j (inclusive) La meta es calcular maxt∈T (s)p(t) = π[1, n, S] John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 12. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Algoritmo de programación dinámica Dado una PCFG y una sentencia s, ¾Cómo encontrar maxt∈T (s) p(t)? Notación: n: número de palabras en la sentencia wi : i-ésima palabra de la sentencia N: El conjunto de no terminales de la gramática S: El símbolo inicial de la gramática Dene una tabla de programación dinámica π[i, j, X] = máxima probabilidad de un constituyente con no-terminal X que abarca las palabras i ...j (inclusive) La meta es calcular maxt∈T (s)p(t) = π[1, n, S] John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 13. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Algoritmo de programación dinámica Dado una PCFG y una sentencia s, ¾Cómo encontrar maxt∈T (s) p(t)? Notación: n: número de palabras en la sentencia wi : i-ésima palabra de la sentencia N: El conjunto de no terminales de la gramática S: El símbolo inicial de la gramática Dene una tabla de programación dinámica π[i, j, X] = máxima probabilidad de un constituyente con no-terminal X que abarca las palabras i ...j (inclusive) La meta es calcular maxt∈T (s)p(t) = π[1, n, S] John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 14. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo El algoritmo CKY John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 15. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Modelos de análisis de Collins Tres modelos generativos lexicalizados propuestos por Michael Collins Modelo 1: Modelo generativo con cabezas lexicalizadas. Modelo 2: Modelo 1 + distinción de complementos/adjuntos y subcategorización. Modelo 3: Modelo 2 + traza del movimiento de la núcleo-cabeza. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 16. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Modelo básico Lo primero que se nota en cada regla de una PCFG lexicalizada es la forma P(h) → Ln(ln)...L1(l1)H(h)R1(r1)...Rm(rm) H es el núcleo sintáctico de la frase, el cuál hereda la palabra-núcleo h, de su padre P. L1 ...Ln y R1 ...Rm son modicadores de izquierda y derecha del núcleo H. Tanto n como m pueden ser cero, Si n = m = 0, son reglas unarias. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 17. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Generación del modelo La generación de RHS de cada regla, dada el LHS, ha sido descompuesta en tres pasos: 1 Generación de la etiqueta del núcleo constituyente de la frase, con probabilidad PH(H|P,h). 2 Generación de modicadores a la izquierda del núcleo con probabilidad ∏i=1...n+1 PL(Li (li )|P,h,H), donde Ln+1(ln+1) = STOP. El símbolo STOP es adicionado al vocabulario de no-terminales, y el modelo para generando modicadores a la izquierda donde ha sido generado. 3 Generación de modicadores a la derecha del núcleo con probabilidad ∏i=1...n+1 PR(Ri (ri )|P,h,H), Rm+1(rm+1) es denida como STOP. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 18. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Adicionando métrica de distancia Collins introduce una medidad de distancia entre las palabras ∆l y ∆r No es una distancia real. Las funciones son heurísticas basadas en la dirección, adyacencia, posición y puntuación. El modelo queda: Pl (Li (li )|H, P, h, L1(l1)...Li−1(li−1)) = Pl (Li (li )|H, P, h, ∆l (i −1)) Pr (Ri (ri )|H, P, h, R1(r1)...Ri−1(ri−1)) = Pl (Ri (ri )|H, P, h, ∆r (i −1)) John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 19. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Adicionando métrica de distancia Collins introduce una medidad de distancia entre las palabras ∆l y ∆r No es una distancia real. Las funciones son heurísticas basadas en la dirección, adyacencia, posición y puntuación. El modelo queda: Pl (Li (li )|H, P, h, L1(l1)...Li−1(li−1)) = Pl (Li (li )|H, P, h, ∆l (i −1)) Pr (Ri (ri )|H, P, h, R1(r1)...Ri−1(ri−1)) = Pl (Ri (ri )|H, P, h, ∆r (i −1)) John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 20. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Modelo 2: Clasicación de modicadores Añadir un sujo C a los no terminales en los datos de entrenamiento para los que: El no terminal es un NP, SBAR, o S cuyo padre es una S, una NP, SBAR, S, o el vicepresidente cuyo padre es un vicepresidente, o un S cuyo padre es un SBAR. La no-terminal no debe tener una de las etiquetas semánticas: ADV, COV, BNF, DIR, EXT, LOC, MNR, TMP, CLR, o PRP. También marque el primer hijo después de una cabeza PP como complemento John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 21. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Marcos de subcategorización Dene un marco de subcategorización como una bolsa de no-terminales. Genera la cabeza con probabilidad PH(H|P,h) Selecciona los marcos de subcategorización del lado izquierdo y derecho con probabilidades Plc(LC|P,H,h) y Prc(RC|P,H,h) Genera los modicadores del lado derecho con probabilidad Pr (Ri (ri )|H,P,h,∆r (i −1),RC) Genera los modicadores del lado izquierdo con probabilidad Pl (Li (li )|H,P,h,∆r (i −1),LC) John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 22. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Marcos de subcategorización Dene un marco de subcategorización como una bolsa de no-terminales. Genera la cabeza con probabilidad PH(H|P,h) Selecciona los marcos de subcategorización del lado izquierdo y derecho con probabilidades Plc(LC|P,H,h) y Prc(RC|P,H,h) Genera los modicadores del lado derecho con probabilidad Pr (Ri (ri )|H,P,h,∆r (i −1),RC) Genera los modicadores del lado izquierdo con probabilidad Pl (Li (li )|H,P,h,∆r (i −1),LC) John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 23. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Marcos de subcategorización Dene un marco de subcategorización como una bolsa de no-terminales. Genera la cabeza con probabilidad PH(H|P,h) Selecciona los marcos de subcategorización del lado izquierdo y derecho con probabilidades Plc(LC|P,H,h) y Prc(RC|P,H,h) Genera los modicadores del lado derecho con probabilidad Pr (Ri (ri )|H,P,h,∆r (i −1),RC) Genera los modicadores del lado izquierdo con probabilidad Pl (Li (li )|H,P,h,∆r (i −1),LC) John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 24. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Modelo 3: Modelando trazas y movimientos de la cabeza Los formalismos similares a GPSG manejan movmientos de núcleos sintácticos adicionando una característica de diferencia (brecha) para cada no-terminal en el árbol y propagando estas diferencias a través de los árboles hasta que nalmente descargado como una traza de complemento. hay tres formas de que el gap sea pasado hacia abajo a el RHS. Head El gap es pasado al núcleo de la frase, como una regla. Left, Right El gap es pasado recursivamente a uno de los modicadores de la izquierda o derecha del núcleo, o descargando como un agrumento de traza a la izquierda o derecha del núcleo. Se especica un parámetro PG (G|P,h,H) donde G es otro Head, Left o Right. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 25. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Modelo 3: Modelando trazas y movimientos de la cabeza Los formalismos similares a GPSG manejan movmientos de núcleos sintácticos adicionando una característica de diferencia (brecha) para cada no-terminal en el árbol y propagando estas diferencias a través de los árboles hasta que nalmente descargado como una traza de complemento. hay tres formas de que el gap sea pasado hacia abajo a el RHS. Head El gap es pasado al núcleo de la frase, como una regla. Left, Right El gap es pasado recursivamente a uno de los modicadores de la izquierda o derecha del núcleo, o descargando como un agrumento de traza a la izquierda o derecha del núcleo. Se especica un parámetro PG (G|P,h,H) donde G es otro Head, Left o Right. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 26. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Trabajo de Bikel Dan Bikel construye un motor de análisis sintáctico multi-lenguaje con la capacidad de instanciar una gran variedad de modelos analizadores probabilisticos. Como modelo línea base apropiado se escoje instanciar los parámetros del modelo 2 de Collins. Bikel identicó once pasos de preprocesamiento necesarios para preparar los árboles de entrenamiento cuando se usa el modelo de análisis de Collins. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 27. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Ancora AnCOra (ANnotated CORpora) es un corpus del catalán (AnCOra-CA) y español (AnCOra-ES) con diferentes niveles de anotación. Cada corpus contiene 500.000 palabras que han sido construidas de manera incremental a través de trabajos previos como el corpus 3LB: 3LB-CAT y 3LB-ESP Ambos corpus estan automáticamente etiquetados con información morfosintáctica y chequeada manualmente. Ampliamente usados como corpus de entrenamiento para sistemas de aprendizaje Los corpus 3LB son sintácticamente etiquetados con constituyentes y funciones de una manera manual. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 28. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Ancora AnCOra (ANnotated CORpora) es un corpus del catalán (AnCOra-CA) y español (AnCOra-ES) con diferentes niveles de anotación. Cada corpus contiene 500.000 palabras que han sido construidas de manera incremental a través de trabajos previos como el corpus 3LB: 3LB-CAT y 3LB-ESP Ambos corpus estan automáticamente etiquetados con información morfosintáctica y chequeada manualmente. Ampliamente usados como corpus de entrenamiento para sistemas de aprendizaje Los corpus 3LB son sintácticamente etiquetados con constituyentes y funciones de una manera manual. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 29. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Información del corpus usada para el entrenamiento del analizador John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 30. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Funciones sintácticas Sujeto -SUJ Objeto directo -CD Objeto indirecto -CI Atributo -ATR Complemento predicativo -CPRED Complemento preposicional -CREG Complemento agente -CAG Complemento adverbial -CC Complemento advervial (locativo) -CCL Complemento adverbial (temporal) -CCT John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 31. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Outline 1 Introducción 2 Marco Teórico Análisis Sintáctico Probabilístico Modelo de Collins Implementación de Bikel El corpus Ancora Clasicador de Argumentos de verbo 3 Análisis sintáctico con clasicación de argumentos Integración clasicador - analizador 4 Resultados John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 32. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Argumentos verbales Los argumentos son expresiones lingüísticas exigidas semánticamente por el núcleo. Los verbos tienen dos tipos básicos de argumentos: Complementos: Necesarios para el verbo. Adjuntos (circunstancial): Son complementos no exigidos por el verbo. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 33. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Características para la implementación del SVM Estas características son extraídas de los árboles de entrenamiento para poder generar los archivos de entrenamiento del SVM. Y se extraen de los subarboles que van a ser unidos mediante el algoritmo CKY. Posición del núcleo: Posición del núcleo sintáctico contando desde 1, de izquierda a derecha. Codicación de etiqueta: Asignación de codicación binaria para las etiquetas del nodo raíz. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 34. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Características para la implementación del SVM Estas características son extraídas de los árboles de entrenamiento para poder generar los archivos de entrenamiento del SVM. Y se extraen de los subarboles que van a ser unidos mediante el algoritmo CKY. Posición del núcleo: Posición del núcleo sintáctico contando desde 1, de izquierda a derecha. Codicación de etiqueta: Asignación de codicación binaria para las etiquetas del nodo raíz. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 35. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Características para la implementación del SVM Aridad: Número de hijos del nodo padre. Se reere a la anchura del segundo nivel del árbol. Anchura: Número de nodos hojas. Se reere al número de palabras que conforman el constituyente sintáctico. Longitud: Cantidad de nodos desde la raíz hasta la hoja más lejana. Distancia: Número de palabras entre el nodo constituyente modicador y el verbo. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 36. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo libSVM: una implementación de SVM Implementa los tipos de entrenamiento y núcleos mas comunes. Permite clasicación multiclase. Implementa el procedimiento para realizar validación cruzada Métodos para obtener máquinas que proporcionen además la probabilidad de la clasicación. Incluye técnicas para reducir el coste de la constante C. Implementaciones en C++ y JAVA. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 37. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Análisis Sintáctico Probabilístico Clasicador de Argumentos de verbo Parametrización de libSVM Se usa un kernel gausiano (RBF) con γ = 2−7 Parámetro de costo C = 32 Se usa la técnica de validación cruzada para anar el conjunto de características. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 38. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Integración clasicador - analizador Outline 1 Introducción 2 Marco Teórico Análisis Sintáctico Probabilístico Modelo de Collins Implementación de Bikel El corpus Ancora Clasicador de Argumentos de verbo 3 Análisis sintáctico con clasicación de argumentos Integración clasicador - analizador 4 Resultados John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 39. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Integración clasicador - analizador Integración clasicador - analizador Para usar el clasicador de argumentos como parte del proceso de análisis se realizaron dos modicaciones: Se usa la información suministrada por el corpus Ancora para los verbos, y crear las subcategorizaciones de los verbos. Se modica el algoritmo de unión de items que hace parte del CKY en la implementación de Bikel para vericar los argumentos de verbo. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 40. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Integración clasicador - analizador Información semántica de Ancora sobre los verbos Ancora presenta dos lexicones verbales a gran escala para el español y el catalán que sirven de base para la anotación semántica con argumentos y roles temáticos del corpus. Contiene un total de 1965 verbos diferentes correspondientes a 500.000 palabras contenidas en el corpus. Se aplica el mismo principio del modelo 2 de Collins, obteniendo la bolsa de subcategorización a partir de la información proporcionada por los lexicones verbales del corpus. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 41. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Integración clasicador - analizador Modicación En el agoritmo CKY, más precisamente en el método de unión de items, se clasica el item modicador, cuando el item modicado se trata de un verbo. Si la clasicación del item se encuentra dentro de las posibles subcategorizaciones del verbo, entonces se aumenta la probabilidad de selección. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 42. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Integración clasicador - analizador Modicación joinItems John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 43. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Integración clasicador - analizador Procesos Fase de Entrenamiento John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 44. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Integración clasicador - analizador Procesos Fase de Decodicación John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 45. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Resultados Obtenemos un analizador sintáctico probabilístico basado en el modelo de Collins y el algoritmo de Bikel entrenado con el corpus Ancora para el idioma español. Obtenemos un clasicador semántico de argumentos verbales usando máquinas de vectores de soporte entrenado con el corpus Ancora para el idioma español. Aplicación del clasicador semántico en el analizador sintáctico probabilístico para el español. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 46. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Resultados Obtenemos un analizador sintáctico probabilístico basado en el modelo de Collins y el algoritmo de Bikel entrenado con el corpus Ancora para el idioma español. Obtenemos un clasicador semántico de argumentos verbales usando máquinas de vectores de soporte entrenado con el corpus Ancora para el idioma español. Aplicación del clasicador semántico en el analizador sintáctico probabilístico para el español. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 47. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Resultados Obtenemos un analizador sintáctico probabilístico basado en el modelo de Collins y el algoritmo de Bikel entrenado con el corpus Ancora para el idioma español. Obtenemos un clasicador semántico de argumentos verbales usando máquinas de vectores de soporte entrenado con el corpus Ancora para el idioma español. Aplicación del clasicador semántico en el analizador sintáctico probabilístico para el español. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 48. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Resultados Obtenemos un analizador sintáctico probabilístico basado en el modelo de Collins y el algoritmo de Bikel entrenado con el corpus Ancora para el idioma español. Obtenemos un clasicador semántico de argumentos verbales usando máquinas de vectores de soporte entrenado con el corpus Ancora para el idioma español. Aplicación del clasicador semántico en el analizador sintáctico probabilístico para el español. John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 49. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Conclusiones Encontramos que adicionando un clasicador de argumentos de verbo, para ayudar en el razonamiento probabilístico de subcategorización, no aporta una mejora en la precisión del árbol sintáctico obtenido. Se obtiene un analizador sintáctico probabilístico que clasica complementos y ajduntos entre los argumentos verbales. Y esto permite obtener una estructura básica sin John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 50. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Conclusiones Encontramos que adicionando un clasicador de argumentos de verbo, para ayudar en el razonamiento probabilístico de subcategorización, no aporta una mejora en la precisión del árbol sintáctico obtenido. Se obtiene un analizador sintáctico probabilístico que clasica complementos y ajduntos entre los argumentos verbales. Y esto permite obtener una estructura básica sin John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 51. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Referencias Daniel M. Bikel. On the Parameter Space of Generative Lexicalized Statistical Parsing Models. PhD thesis, Philadelphia, PA, USA, 2004. AAI3152016. Michael Collins. Head-driven statistical models for natural language parsing. Comput. Linguist., 29(4):589637, December 2003. LIBSVM: A Library for Support Vector Machines. Chih-Chung Chang and Chih-Jen Lin. 2001 Support Vector Learning for Semantic Argument Classication. SAMEER PRADHAN, KADRI HACIOGLU. 2005 John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 52. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Referencias Using Machine-Learning to Assign Function Labels to Parser Output for Spanish. Grzegorz Chrupaªa1 and Josef van Genabith. 2004 LAS MÁQUINAS DE SOPORTE VECTORIAL (SVMs). GUSTAVO A. BETANCOURT. 2005 Miguel A. Alonso Carlos Gómez Jesús Vilares. Análisis Sintáctico. 2010 Natural Language Processing:Statistical Parsing. Raymond J. Mooney John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu
  • 53. Introducción Marco Teórico Análisis sintáctico con clasicación de argumentos Resultados Referencias Maria Antònia Martí, Mariona Taulé, Manu Bertran y Lluís Màrquez. AnCora: Multilingual and Multilevel Annotated Corpora. 2007 Aparicio, Juan, Mariona Taulé, M.Antònia Martí (2008) 'AnCora-Verb: A Lexical Resource for the Semantic Annotation of Corpora'. Proceedings of 6th International Conference on Language Resources and Evaluation. Marrakesh (Morocco). John Alexander Vargas Analizador sintáctico probabilístico con clasicación de argu