Ayllu es una plataforma de crowdsourcing basada en Pybossa. Permite que distintos usuarios clasifiquen mensajes de Twitter manualmente, con el fin de generar nuevos clasificadores en tiempo real. Los clasificadores pueden detectar necesidades emergentes al momento de un desastre.
1. Plataforma de Apoyo a la Gestión de Emergencias y Aplicaciones
Proyecto Fondef Idea ID15I-10560
2. Contexto y Necesidad
● En los últimos años las redes sociales se han utilizado como poderosas
herramientas para la comunicación durante desastres naturales.
● Sistemas de Microblogging como Twitter son útiles en este contexto ya que
provee APIs públicas de Streaming y del tipo REST.
● Problemática: ¿Cómo organizar y categorizar la información proveniente de
redes sociales i.e Twitter?
○ Clasificar información en distintas categorías (por ejemplo: asertiva, informativa y/o
contingente) es inmanejable por humanos debido a su volumen y velocidad de generación.
○ Por lo tanto el uso de herramientas de crowdsourcing para construir conjuntos de
entrenamiento es indispensable para construir clasificadores de forma oportuna.
4. Aprendizaje supervisado con Ayllu
● Ayllu es un herramienta de Crowdsourcing basada en Pybossa
que permite recolectar, analizar y enriquecer datos. Para este
caso particular se utiliza para proporcionar diferentes etiquetas a
tweets generados durante un desastre.
● Es importante notar que el proceso de etiquetado puede ser en
base a múltiples taxonomías.
9. Clasificación de un tweet según tipo de información durante un desastre
Una vez etiquetado el
tweet/imagen/texto, el
sistema espera que existan
al menos 3 etiquetas por
cada elemento y la tarea de
etiquetado se da por
completada.
10. Exportación de tareas
Cuando todas las tareas del proyecto se encuentran
completadas se pueden exportar en formato json/csv
para ser procesadas y construir un conjunto de
entrenamiento que es el insumo para diseñar e
implementar clasificadores de texto.
11. Inteligencia y desafíos I+D
● El tiempo utilizado por humanos para etiquetar es muy costoso.
● Utilizar técnicas como Active Learning para mejorar la calidad de los
clasificadores con pocas instancias etiquetadas.
● Diferencias culturales entre cada desastre disminuyen la calidad de los
clasificadores cuando son cambiados de contexto.
● Transfer learning: esto se refiere al problema de utilizar datos de un desastre
para generar un clasificador para otro desastre.
● Mejorar métodos de aprendizaje semi-supervisado para mejorar modelos, sin
la necesidad de tantas etiquetas humanas.
13. Referencias
Twitter:
Carlos Castillo, Marcelo Mendoza, and Barbara Poblete. Information credibility on twitter. InWWW ’11 Proceedings of the 20th
international conference on World wide web, New York, USA,October 25-29, 2011, pages 675–684, 2011
Aditi Gupta and Ponnurangam Kumaraguru. Credibility ranking of tweets during high impactevents. InPSOSM ’12 Proceedings of the 1st
Workshop on Privacy and Security in Online SocialMedia, NY, USA, 2012, 2012
Combinacion de humanos + AI:
Muhammad Imran, Carlos Castillo, Ji Lucas, Patrick Meier, and Jakob Rogstadius. Coordinatinghuman and machine intelligence to classify
microblog communications in crises. InProceedings ofthe 11th International ISCRAM Conference, Atlanta, USA, May, 2014, 2014.
Muhammad Imran, Carlos Castillo, Ji Lucas, Patrick Meier, and Sarah Vieweg. Aidr: Artificialintelligence for disaster response. In23rd
International Conference on World Wide Web (2014),Seoul, Korea, April 7-11, 2014, page 159–162, 2014
Muhammad Imran, Shady Elbassuoni, Carlos Castillo, Fernando Diaz, and Patrick Meier. Extractinginformation nuggets from disaster- related
messages in social media. InProceedings of the 10thInternational ISCRAM Conference, Baden-Baden, Germany, May 13-17, 2013, pages 26–
33, 2013.
14. Plataforma de Apoyo a la Gestión de Emergencias y Aplicaciones
Proyecto Fondef Idea ID15I-10560