Si ésta es la
respuesta,
¿cuál era la
pregunta?
Darío
Garigliotti
Motivación y
Objetivos
Aplicaciones
Preguntas y
respuestas
Arquitectura
Heurística
Experimentos y
recursos
Resultados
Trabajo futuro
Si ésta es la respuesta, ¿cuál era la pregunta?
Darío Garigliotti
Procesamiento del Lenguaje Natural
FAMAF
Universidad Nacional de Córdoba
20 de noviembre de 2013
Si ésta es la
respuesta,
¿cuál era la
pregunta?
Darío
Garigliotti
Motivación y
Objetivos
Aplicaciones
Preguntas y
respuestas
Arquitectura
Heurística
Experimentos y
recursos
Resultados
Trabajo futuro
Motivación y Objetivos del trabajo
¿Qué queremos hacer?
Generar preguntas en lenguaje natural para una respuesta en
grafo
• ¿Para qué?
• ¿Cómo?
Si ésta es la
respuesta,
¿cuál era la
pregunta?
Darío
Garigliotti
Motivación y
Objetivos
Aplicaciones
Preguntas y
respuestas
Arquitectura
Heurística
Experimentos y
recursos
Resultados
Trabajo futuro
Motivación y Objetivo del trabajo
Un poco de historia
Artículo de Wikipedia
Si ésta es la
respuesta,
¿cuál era la
pregunta?
Darío
Garigliotti
Motivación y
Objetivos
Aplicaciones
Preguntas y
respuestas
Arquitectura
Heurística
Experimentos y
recursos
Resultados
Trabajo futuro
Motivación y Objetivo del trabajo
Un poco de historia
Artículo de Wikipedia Infobox
Si ésta es la
respuesta,
¿cuál era la
pregunta?
Darío
Garigliotti
Motivación y
Objetivos
Aplicaciones
Preguntas y
respuestas
Arquitectura
Heurística
Experimentos y
recursos
Resultados
Trabajo futuro
Motivación y Objetivo del trabajo
Un poco de historia
Artículo de Wikipedia Infobox Subgrafo de una base de
conocimiento
Si ésta es la
respuesta,
¿cuál era la
pregunta?
Darío
Garigliotti
Motivación y
Objetivos
Aplicaciones
Preguntas y
respuestas
Arquitectura
Heurística
Experimentos y
recursos
Resultados
Trabajo futuro
Motivación y Objetivo del trabajo
Desafíos sobre las bases colaborativas
Calidad de los links
Si ésta es la
respuesta,
¿cuál era la
pregunta?
Darío
Garigliotti
Motivación y
Objetivos
Aplicaciones
Preguntas y
respuestas
Arquitectura
Heurística
Experimentos y
recursos
Resultados
Trabajo futuro
Motivación y Objetivo del trabajo
Desafíos sobre las bases colaborativas
Calidad de los links Sinonimia de atributos
Si ésta es la
respuesta,
¿cuál era la
pregunta?
Darío
Garigliotti
Motivación y
Objetivos
Aplicaciones
Preguntas y
respuestas
Arquitectura
Heurística
Experimentos y
recursos
Resultados
Trabajo futuro
Motivación y Objetivo del trabajo
Justamente: preguntas y respuestas
¿Para qué nos sirve tener texto asociado a grafos?
• Extracción de hechos, enriquecimiento, lexicalización
Si ésta es la
respuesta,
¿cuál era la
pregunta?
Darío
Garigliotti
Motivación y
Objetivos
Aplicaciones
Preguntas y
respuestas
Arquitectura
Heurística
Experimentos y
recursos
Resultados
Trabajo futuro
Motivación y Objetivo del trabajo
Justamente: preguntas y respuestas
¿Para qué nos sirve tener texto asociado a grafos?
• Extracción de hechos, enriquecimiento, lexicalización
¿Para qué nos sirve tener preguntas asociado a grafos y
artículos?
• Disponer de un repositorio de preguntas
• Ejercicios de comprensión lectora
Si ésta es la
respuesta,
¿cuál era la
pregunta?
Darío
Garigliotti
Motivación y
Objetivos
Aplicaciones
Preguntas y
respuestas
Arquitectura
Heurística
Experimentos y
recursos
Resultados
Trabajo futuro
Preguntas y respuestas
¿Qué más hay en juego?
• Biografías: regularidades
• Parámetros, parámetros por todas partes!
Si ésta es la
respuesta,
¿cuál era la
pregunta?
Darío
Garigliotti
Motivación y
Objetivos
Aplicaciones
Preguntas y
respuestas
Arquitectura
Heurística
Experimentos y
recursos
Resultados
Trabajo futuro
Metodología
Arquitectura del proyecto
Wiki
Extraction

_^]XYZ[Volcado
XML
oo Exportaroo gfed`abcWIKIPEDIAoo
_^]XYZ[Extraction
XML
//

Get es_id // _^]XYZ[Query
MQL
// gfed`abcFREEBASE
xxqqqqqqqqqq
XML
Parsing

JSON Parsing
+ Hacer Triplas
''NNNNNNNN
_^]XYZ[Respuesta
JSON
oo
_^]XYZ[Artículo
XML
// Buscar + Gralizar
snippets
oo //
wwooooooooo
WVUTPQRSTriplasoo // Enriquecer
triplas
gfed`abcSnippet
generalizado
// Algoritmo
de patrones
// _^]XYZ[Patrones //
88ppppppppp
Crear
preguntas
Si ésta es la
respuesta,
¿cuál era la
pregunta?
Darío
Garigliotti
Motivación y
Objetivos
Aplicaciones
Preguntas y
respuestas
Arquitectura
Heurística
Experimentos y
recursos
Resultados
Trabajo futuro
Metodología
Ejemplo de aplicación de la heurística
• Respuestas JSON:
• Triplas: (Napoleón Bonaparte, date_of _birth, 1769 − 08 − 15)
Si ésta es la
respuesta,
¿cuál era la
pregunta?
Darío
Garigliotti
Motivación y
Objetivos
Aplicaciones
Preguntas y
respuestas
Arquitectura
Heurística
Experimentos y
recursos
Resultados
Trabajo futuro
Metodología
Ejemplo de aplicación de la heurística
• Respuestas JSON:
• Triplas: (Napoleón Bonaparte, date_of _birth, 1769 − 08 − 15)
Si ésta es la
respuesta,
¿cuál era la
pregunta?
Darío
Garigliotti
Motivación y
Objetivos
Aplicaciones
Preguntas y
respuestas
Arquitectura
Heurística
Experimentos y
recursos
Resultados
Trabajo futuro
Metodología
Ejemplo de aplicación de la heurística
• Triplas: (23811, D, 1769), (53, D, 1879), (6717, D, 1921)
• Snippets extraidos de artículos:
• Napoleón I Bonaparte (Ajaccio, 15 de agosto de 1769 -
• Albert Einstein (Ulm, Imperio alemán, 14 de marzo de
1879 -
• Astor Pantaleón Piazzolla (Mar del Plata, 11 de marzo de
1921 -
• Snippets generalizados:
• Napoleón I Bonaparte (LUGAR, DIA de MES de AÑO -
• Albert Einstein (LUGAR, DIA de MES de AÑO -
• Astor Pantaleón Piazzolla (LUGAR, DIA de MES de AÑO
-
Si ésta es la
respuesta,
¿cuál era la
pregunta?
Darío
Garigliotti
Motivación y
Objetivos
Aplicaciones
Preguntas y
respuestas
Arquitectura
Heurística
Experimentos y
recursos
Resultados
Trabajo futuro
Metodología
Ejemplo de aplicación de la heurística
• Triplas: (23811, D, 1769), (53, D, 1879), (6717, D, 1921)
• Snippets extraidos de artículos:
• Napoleón I Bonaparte (Ajaccio, 15 de agosto de 1769 -
• Albert Einstein (Ulm, Imperio alemán, 14 de marzo de
1879 -
• Astor Pantaleón Piazzolla (Mar del Plata, 11 de marzo de
1921 -
• Snippets generalizados:
• Napoleón I Bonaparte (LUGAR, DIA de MES de AÑO -
• Albert Einstein (LUGAR, DIA de MES de AÑO -
• Astor Pantaleón Piazzolla (LUGAR, DIA de MES de AÑO
-
Si ésta es la
respuesta,
¿cuál era la
pregunta?
Darío
Garigliotti
Motivación y
Objetivos
Aplicaciones
Preguntas y
respuestas
Arquitectura
Heurística
Experimentos y
recursos
Resultados
Trabajo futuro
Metodología
Ejemplo de aplicación de la heurística
• Triplas: (23811, D, 1769), (53, D, 1879), (6717, D, 1921)
• Snippets extraidos de artículos:
• Napoleón I Bonaparte (Ajaccio, 15 de agosto de 1769 -
• Albert Einstein (Ulm, Imperio alemán, 14 de marzo de
1879 -
• Astor Pantaleón Piazzolla (Mar del Plata, 11 de marzo de
1921 -
• Snippets generalizados:
• Napoleón I Bonaparte (LUGAR, DIA de MES de AÑO -
• Albert Einstein (LUGAR, DIA de MES de AÑO -
• Astor Pantaleón Piazzolla (LUGAR, DIA de MES de AÑO
-
Si ésta es la
respuesta,
¿cuál era la
pregunta?
Darío
Garigliotti
Motivación y
Objetivos
Aplicaciones
Preguntas y
respuestas
Arquitectura
Heurística
Experimentos y
recursos
Resultados
Trabajo futuro
Metodología
Ejemplo de aplicación de la heurística
• Patrones a encontrar:
• (LUGAR, DIA de MES de AÑO -
• nació en AÑO
• (nacido el DIA de MES de AÑO
• Enriquecemos triplas, generamos preguntas
• (23811, D, 1769)
• → Napoleón Bonaparte nació en 1769
• → → ¿En qué año nació Napoleón Bonaparte?
Si ésta es la
respuesta,
¿cuál era la
pregunta?
Darío
Garigliotti
Motivación y
Objetivos
Aplicaciones
Preguntas y
respuestas
Arquitectura
Heurística
Experimentos y
recursos
Resultados
Trabajo futuro
Metodología
- Heurística basada en un paper de Ravichandran and Hovy,
2002
- Entorno experimental: Corpus
• 127K+ extracciones de artículos
• 14604 respuestas JSON
• 5768 son vacías
• 335 sólo guardan id
• 8501 tienen info
- Recursos
• WikiExtractor.py (Attardi, Fuschetto)
• Suffix Tree 2.1 (Thomas Mailund)
Si ésta es la
respuesta,
¿cuál era la
pregunta?
Darío
Garigliotti
Motivación y
Objetivos
Aplicaciones
Preguntas y
respuestas
Arquitectura
Heurística
Experimentos y
recursos
Resultados
Trabajo futuro
Metodología
Un momento... ¿Suffix tree?
• Es una estructura de
datos que guarda
todos los sufijos de
un string.
• Permite
implementar
eficientemente
muchas operaciones
sobre strings.
Si ésta es la
respuesta,
¿cuál era la
pregunta?
Darío
Garigliotti
Motivación y
Objetivos
Aplicaciones
Preguntas y
respuestas
Arquitectura
Heurística
Experimentos y
recursos
Resultados
Trabajo futuro
Metodología
Suffix tree generalizado
s0 = ABAB, s1 = BABA, s2 = ABBA
Si ésta es la
respuesta,
¿cuál era la
pregunta?
Darío
Garigliotti
Motivación y
Objetivos
Aplicaciones
Preguntas y
respuestas
Arquitectura
Heurística
Experimentos y
recursos
Resultados
Trabajo futuro
Resultados
Algunos patrones
Para relación padres:
• (1)’Su padre, TAL’: 2: 385
• ’Hijo de TAL’: 2: 122
• ’Su madre, TAL’: 2: 22
• (2)’hija de TAL’: 2: 19
• ’Hijo del TAL’: 2: 18
• ’Es hijo de TAL’: 2: 11
• (3)’Sus padres eran TAL’: 2:
10
• ...
• ’Sus padres, TAL’: 2: 5
• ’Su padre era TAL’: 2: 3
• ...
• ’del matrimonio formado por’: 2:
1
• (1) → ¿Quién era el padre de
TAL?
• (2) → ¿De quién es hija TAL?
• (3) → ¿Quiénes eran los padres de
TAL?
Si ésta es la
respuesta,
¿cuál era la
pregunta?
Darío
Garigliotti
Motivación y
Objetivos
Aplicaciones
Preguntas y
respuestas
Arquitectura
Heurística
Experimentos y
recursos
Resultados
Trabajo futuro
Trabajo futuro
• Más datos, más propiedades, más resultados
• Mejora de patrones, p ej usando entidades por links
• Bootstrapping para capturar más entidades relacionadas
• Otras heurísticas de extracción

If this is the answer, what was the question?

  • 1.
    Si ésta esla respuesta, ¿cuál era la pregunta? Darío Garigliotti Motivación y Objetivos Aplicaciones Preguntas y respuestas Arquitectura Heurística Experimentos y recursos Resultados Trabajo futuro Si ésta es la respuesta, ¿cuál era la pregunta? Darío Garigliotti Procesamiento del Lenguaje Natural FAMAF Universidad Nacional de Córdoba 20 de noviembre de 2013
  • 2.
    Si ésta esla respuesta, ¿cuál era la pregunta? Darío Garigliotti Motivación y Objetivos Aplicaciones Preguntas y respuestas Arquitectura Heurística Experimentos y recursos Resultados Trabajo futuro Motivación y Objetivos del trabajo ¿Qué queremos hacer? Generar preguntas en lenguaje natural para una respuesta en grafo • ¿Para qué? • ¿Cómo?
  • 3.
    Si ésta esla respuesta, ¿cuál era la pregunta? Darío Garigliotti Motivación y Objetivos Aplicaciones Preguntas y respuestas Arquitectura Heurística Experimentos y recursos Resultados Trabajo futuro Motivación y Objetivo del trabajo Un poco de historia Artículo de Wikipedia
  • 4.
    Si ésta esla respuesta, ¿cuál era la pregunta? Darío Garigliotti Motivación y Objetivos Aplicaciones Preguntas y respuestas Arquitectura Heurística Experimentos y recursos Resultados Trabajo futuro Motivación y Objetivo del trabajo Un poco de historia Artículo de Wikipedia Infobox
  • 5.
    Si ésta esla respuesta, ¿cuál era la pregunta? Darío Garigliotti Motivación y Objetivos Aplicaciones Preguntas y respuestas Arquitectura Heurística Experimentos y recursos Resultados Trabajo futuro Motivación y Objetivo del trabajo Un poco de historia Artículo de Wikipedia Infobox Subgrafo de una base de conocimiento
  • 6.
    Si ésta esla respuesta, ¿cuál era la pregunta? Darío Garigliotti Motivación y Objetivos Aplicaciones Preguntas y respuestas Arquitectura Heurística Experimentos y recursos Resultados Trabajo futuro Motivación y Objetivo del trabajo Desafíos sobre las bases colaborativas Calidad de los links
  • 7.
    Si ésta esla respuesta, ¿cuál era la pregunta? Darío Garigliotti Motivación y Objetivos Aplicaciones Preguntas y respuestas Arquitectura Heurística Experimentos y recursos Resultados Trabajo futuro Motivación y Objetivo del trabajo Desafíos sobre las bases colaborativas Calidad de los links Sinonimia de atributos
  • 8.
    Si ésta esla respuesta, ¿cuál era la pregunta? Darío Garigliotti Motivación y Objetivos Aplicaciones Preguntas y respuestas Arquitectura Heurística Experimentos y recursos Resultados Trabajo futuro Motivación y Objetivo del trabajo Justamente: preguntas y respuestas ¿Para qué nos sirve tener texto asociado a grafos? • Extracción de hechos, enriquecimiento, lexicalización
  • 9.
    Si ésta esla respuesta, ¿cuál era la pregunta? Darío Garigliotti Motivación y Objetivos Aplicaciones Preguntas y respuestas Arquitectura Heurística Experimentos y recursos Resultados Trabajo futuro Motivación y Objetivo del trabajo Justamente: preguntas y respuestas ¿Para qué nos sirve tener texto asociado a grafos? • Extracción de hechos, enriquecimiento, lexicalización ¿Para qué nos sirve tener preguntas asociado a grafos y artículos? • Disponer de un repositorio de preguntas • Ejercicios de comprensión lectora
  • 10.
    Si ésta esla respuesta, ¿cuál era la pregunta? Darío Garigliotti Motivación y Objetivos Aplicaciones Preguntas y respuestas Arquitectura Heurística Experimentos y recursos Resultados Trabajo futuro Preguntas y respuestas ¿Qué más hay en juego? • Biografías: regularidades • Parámetros, parámetros por todas partes!
  • 11.
    Si ésta esla respuesta, ¿cuál era la pregunta? Darío Garigliotti Motivación y Objetivos Aplicaciones Preguntas y respuestas Arquitectura Heurística Experimentos y recursos Resultados Trabajo futuro Metodología Arquitectura del proyecto Wiki Extraction _^]XYZ[Volcado XML oo Exportaroo gfed`abcWIKIPEDIAoo _^]XYZ[Extraction XML // Get es_id // _^]XYZ[Query MQL // gfed`abcFREEBASE xxqqqqqqqqqq XML Parsing JSON Parsing + Hacer Triplas ''NNNNNNNN _^]XYZ[Respuesta JSON oo _^]XYZ[Artículo XML // Buscar + Gralizar snippets oo // wwooooooooo WVUTPQRSTriplasoo // Enriquecer triplas gfed`abcSnippet generalizado // Algoritmo de patrones // _^]XYZ[Patrones // 88ppppppppp Crear preguntas
  • 12.
    Si ésta esla respuesta, ¿cuál era la pregunta? Darío Garigliotti Motivación y Objetivos Aplicaciones Preguntas y respuestas Arquitectura Heurística Experimentos y recursos Resultados Trabajo futuro Metodología Ejemplo de aplicación de la heurística • Respuestas JSON: • Triplas: (Napoleón Bonaparte, date_of _birth, 1769 − 08 − 15)
  • 13.
    Si ésta esla respuesta, ¿cuál era la pregunta? Darío Garigliotti Motivación y Objetivos Aplicaciones Preguntas y respuestas Arquitectura Heurística Experimentos y recursos Resultados Trabajo futuro Metodología Ejemplo de aplicación de la heurística • Respuestas JSON: • Triplas: (Napoleón Bonaparte, date_of _birth, 1769 − 08 − 15)
  • 14.
    Si ésta esla respuesta, ¿cuál era la pregunta? Darío Garigliotti Motivación y Objetivos Aplicaciones Preguntas y respuestas Arquitectura Heurística Experimentos y recursos Resultados Trabajo futuro Metodología Ejemplo de aplicación de la heurística • Triplas: (23811, D, 1769), (53, D, 1879), (6717, D, 1921) • Snippets extraidos de artículos: • Napoleón I Bonaparte (Ajaccio, 15 de agosto de 1769 - • Albert Einstein (Ulm, Imperio alemán, 14 de marzo de 1879 - • Astor Pantaleón Piazzolla (Mar del Plata, 11 de marzo de 1921 - • Snippets generalizados: • Napoleón I Bonaparte (LUGAR, DIA de MES de AÑO - • Albert Einstein (LUGAR, DIA de MES de AÑO - • Astor Pantaleón Piazzolla (LUGAR, DIA de MES de AÑO -
  • 15.
    Si ésta esla respuesta, ¿cuál era la pregunta? Darío Garigliotti Motivación y Objetivos Aplicaciones Preguntas y respuestas Arquitectura Heurística Experimentos y recursos Resultados Trabajo futuro Metodología Ejemplo de aplicación de la heurística • Triplas: (23811, D, 1769), (53, D, 1879), (6717, D, 1921) • Snippets extraidos de artículos: • Napoleón I Bonaparte (Ajaccio, 15 de agosto de 1769 - • Albert Einstein (Ulm, Imperio alemán, 14 de marzo de 1879 - • Astor Pantaleón Piazzolla (Mar del Plata, 11 de marzo de 1921 - • Snippets generalizados: • Napoleón I Bonaparte (LUGAR, DIA de MES de AÑO - • Albert Einstein (LUGAR, DIA de MES de AÑO - • Astor Pantaleón Piazzolla (LUGAR, DIA de MES de AÑO -
  • 16.
    Si ésta esla respuesta, ¿cuál era la pregunta? Darío Garigliotti Motivación y Objetivos Aplicaciones Preguntas y respuestas Arquitectura Heurística Experimentos y recursos Resultados Trabajo futuro Metodología Ejemplo de aplicación de la heurística • Triplas: (23811, D, 1769), (53, D, 1879), (6717, D, 1921) • Snippets extraidos de artículos: • Napoleón I Bonaparte (Ajaccio, 15 de agosto de 1769 - • Albert Einstein (Ulm, Imperio alemán, 14 de marzo de 1879 - • Astor Pantaleón Piazzolla (Mar del Plata, 11 de marzo de 1921 - • Snippets generalizados: • Napoleón I Bonaparte (LUGAR, DIA de MES de AÑO - • Albert Einstein (LUGAR, DIA de MES de AÑO - • Astor Pantaleón Piazzolla (LUGAR, DIA de MES de AÑO -
  • 17.
    Si ésta esla respuesta, ¿cuál era la pregunta? Darío Garigliotti Motivación y Objetivos Aplicaciones Preguntas y respuestas Arquitectura Heurística Experimentos y recursos Resultados Trabajo futuro Metodología Ejemplo de aplicación de la heurística • Patrones a encontrar: • (LUGAR, DIA de MES de AÑO - • nació en AÑO • (nacido el DIA de MES de AÑO • Enriquecemos triplas, generamos preguntas • (23811, D, 1769) • → Napoleón Bonaparte nació en 1769 • → → ¿En qué año nació Napoleón Bonaparte?
  • 18.
    Si ésta esla respuesta, ¿cuál era la pregunta? Darío Garigliotti Motivación y Objetivos Aplicaciones Preguntas y respuestas Arquitectura Heurística Experimentos y recursos Resultados Trabajo futuro Metodología - Heurística basada en un paper de Ravichandran and Hovy, 2002 - Entorno experimental: Corpus • 127K+ extracciones de artículos • 14604 respuestas JSON • 5768 son vacías • 335 sólo guardan id • 8501 tienen info - Recursos • WikiExtractor.py (Attardi, Fuschetto) • Suffix Tree 2.1 (Thomas Mailund)
  • 19.
    Si ésta esla respuesta, ¿cuál era la pregunta? Darío Garigliotti Motivación y Objetivos Aplicaciones Preguntas y respuestas Arquitectura Heurística Experimentos y recursos Resultados Trabajo futuro Metodología Un momento... ¿Suffix tree? • Es una estructura de datos que guarda todos los sufijos de un string. • Permite implementar eficientemente muchas operaciones sobre strings.
  • 20.
    Si ésta esla respuesta, ¿cuál era la pregunta? Darío Garigliotti Motivación y Objetivos Aplicaciones Preguntas y respuestas Arquitectura Heurística Experimentos y recursos Resultados Trabajo futuro Metodología Suffix tree generalizado s0 = ABAB, s1 = BABA, s2 = ABBA
  • 21.
    Si ésta esla respuesta, ¿cuál era la pregunta? Darío Garigliotti Motivación y Objetivos Aplicaciones Preguntas y respuestas Arquitectura Heurística Experimentos y recursos Resultados Trabajo futuro Resultados Algunos patrones Para relación padres: • (1)’Su padre, TAL’: 2: 385 • ’Hijo de TAL’: 2: 122 • ’Su madre, TAL’: 2: 22 • (2)’hija de TAL’: 2: 19 • ’Hijo del TAL’: 2: 18 • ’Es hijo de TAL’: 2: 11 • (3)’Sus padres eran TAL’: 2: 10 • ... • ’Sus padres, TAL’: 2: 5 • ’Su padre era TAL’: 2: 3 • ... • ’del matrimonio formado por’: 2: 1 • (1) → ¿Quién era el padre de TAL? • (2) → ¿De quién es hija TAL? • (3) → ¿Quiénes eran los padres de TAL?
  • 22.
    Si ésta esla respuesta, ¿cuál era la pregunta? Darío Garigliotti Motivación y Objetivos Aplicaciones Preguntas y respuestas Arquitectura Heurística Experimentos y recursos Resultados Trabajo futuro Trabajo futuro • Más datos, más propiedades, más resultados • Mejora de patrones, p ej usando entidades por links • Bootstrapping para capturar más entidades relacionadas • Otras heurísticas de extracción