This is the final degree project of Eduardo Cibrián that has developed a semantic system to generate news headlines for several sports based on a set of patterns
Revista estudiantil, trabajo final Materia ingeniería de Proyectos
News headline generation with sentiment and patterns: A case study of sports in Spanish
1. Sistema de generación de titulares
de noticias con sentimiento
basada en patrones.
Eduardo Cibrián Sánchez
ecibrians@gmail.com
Tutor: Jose María Álvarez Rodríguez
Universidad Carlos III de Madrid, Marzo 2018.
2. 2
Periodismo
Digital
1 European Commission. Ares (2017).
Internet Cambio en el consumo de noticias
68% del acceso a las noticias se realiza a través de redes sociales 1
Presencia de Prensa en redes sociales
-Canal de información
-Personalización de contenidos
Introducción
3. Publicaciones en redes sociales
64%
25%
11%
Fútbol
Baloncesto
Otros deportes
1Datos obtenidos de los diarios deportivos Marca, As y Mundo Deportivo en el periodo 23/02/2018-26-02-2018
Poca diversidad de contenido. Mayor parte de los titulares sobre Barcelona y Real Madrid.
Publicaciones del día 23/02/2018 Publicaciones sobre deportes1
4. 4
“El Madrid molesto con los horarios”
“El Barcelona marcó un gol muy esperado”
“El Unicaja se ve seguro para ganar el próximo partido”
¿Podrían Automatizarse?
Generación automática de titulares
con sentimiento
Titulares deportivos en Internet
5. 5
Generación y análisis de texto
Algorítmos probabilísticos – Modelo Oculto de Markov1
Técnicas de Procesamiento del
Lenguaje Natural
2 Análisis del sentimiento
+
-
3 Bases de datos léxicas
Estado del Arte - Tecnología
6. 6
Generación de requisitos.1
Casos de prueba.2
3 Texto.
Estado del Arte – Tecnología II
Generación basada en patrones
Generación de noticias
-Los Angeles Times. Bot para crear titulares sobre terremotos.
Extrae datos del Servicio Geológico de EE. UU.
8. 8
Usuario de la Interfaz Gestor de Conocimiento
• Configurar el titular
• Generar el titular
• Publicar el titular
• Gestionar la ontología
Análisis – Casos de Uso
9. 9
Generar titulares deportivos en base a patrones.
Permitir la configuración del titular a generar.
Ejecutar reglas sintácticas.
Mostar titulares en la interfaz.
Usar vocabulario de una ontología.
Permitir publicar titulares en Twitter.
Análisis – Funcionalidad
10. 10
Agrupación del vocabulario del dominio en categorías
Fútbol / Baloncesto /
Gimnasia Rítmica
Deportista Equipo Torneo Acción Objeto
- Sandra Aguilar
- Carolina Rodríguez
- Laura Zeng
- …
1
Diseño – Base de Conocimiento
…
- Flexión dorsal
- Equilibrio
- Lanzamiento
- …
- China
- España
- Brasil
- …
- Copa Europa
- JJOO
- Competición
- …
- Aro
- Cinta
- Mazas
- ...
- …
Ejemplo
Gimnasia
Rítmica
11. 11
Diseño – Base de Conocimiento II
Agrupación del vocabulario de los sentimientos2
Alegría
- Diversión
- Felicidad
- Satisfacción
- …
Agrado
- Gusto
- Delicia
- Cautivador
- …
Duda
- Incertidumbre
- Desconfianza
- Quizá
- …
12. 12
Diseño de patrones
<Deportista> <Verbo> <Número> <Acción> <Entusiasmo>
Sandra Aguilar hizo dos saltos emocionantes.
Juanito metió tres goles impresionantes.
Daniel Díez encestó cuatro triples alucinantes.
3
Diseño – Base de Conocimiento III
Ver más patrones en la documentación.
14. 14
Diseño – Proceso de generación
El usuario selecciona las características
que desea que cumpla el titular.
Configuración del Titular en la interfaz.
01
Enviar al sistema con un servicio REST
la configuración que desea el usuario.
Atender solicitud de usuario.
02
En base a la configuración del
usuario, se buscará en la ontología el
patrón del titular y los términos para
completarlo.
Selección de términos y patrón.
03
Concordar los términos del
patrón en genero, número y
tiempo verbal.
Ejecutar reglas gramaticales.
04
Enseñar al usuario por medio de la
interfaz el titular generado.
Mostrar el Titular.
05
15. 15
Inserción de términos, patrones y categorías de forma manual con SKM.1
Volcado a la ontología de datos de ficheros.2
Implementación – Ontología
16. 16
Generador de titulares.1
Servicio REST.2
Atender a las peticiones del usuario
Mostrar titulares en la interfaz.
HTTP - GET.
Estrategia de selección del patrón.
Estrategia de selección de los términos.
Reglas gramaticales.
Requiere los datos de la ontología.
Implementación – Sistema
18. 18
Comprobar el correcto funcionamiento del sistema.
Resultado esperado.
Comprobar el cumplimiento de los requisitos.
Resultado obtenido.
Pruebas
-Aceptación
19. 19
Pruebas II
-Experimentación
3 de cada 5 titulares puntuación entre [5, 6].
Sentimientos como ira, aversión y odio no adecuados.
A un 25% de conseguir la puntuación total.
1. Configurar ontología.
2. Generar 100 titulares.
3. Establecer una escala de evaluación. Intervalo [1, 6]
4. Evaluar titulares.
5. Analizar resultados.
20. 20
Ficheros de datos con licencia Creative Commons
Ley de Propiedad IntelectualAPI de terceros
Leyes de control en la difusión de contenidos falsos en redes sociales
Marco Legislativo
21. 21
Agenda Digital - Plan de Impulso de las Tecnologías del Lenguaje
-Apoyo al desarrollo industrial basado en PLN.
Comisión Europea - Digitalización Industrial
-Aprovechamiento de tecnologías avanzadas.
Consumo de noticias en redes sociales
-Impacto de las noticias falsas.
Entorno Socioeconómico
Google – Inversión de 170 Millones $
-Automatizar redacción de noticias.
22. 22
Duración del proyecto: 2ª Semana septiembre – 2ª semana febrero
Horas: 370h
Planificación y Presupuesto
23. 23
Objetivos cumplidos
Ampliable a otros deportes
Apuesta por la igualdad de recursos
Bot en redes sociales
Cambio de estrategias
Conclusiones y Líneas Futuras
Personalización de contenido
24. 24
“El Madrid molesto con los horarios”
“El Barcelona marcó un gol muy esperado”
“El Unicaja se ve seguro para ganar el próximo
partido”
Conclusiones y Líneas Futuras II