1. Gestión de servicio
usando Twitter
Presentación
Octubre 2016 – Campus Google Madrid
Íñigo González
Product Owner Data & Machine Learning
Mobile One2One
3. 1 MO2O Quién soy
¿Quién soy yo?
• No me gustaban las bases de datos, ni la
estadística
• Probablemente la persona más crítica que
conozcas con el stack de big data actual
• Vengo del área de sistemas y seguridad
• Product owner de Data & Machine
Learning en Mobile One2One
Íñigo González
@exocert
4. 2 MO2O QUÉ HACEMOS
Problema a resolver
Monitorizar en tiempo real el estado de un servicio de streaming
de video usando los twits que los usuarios envían a la cuenta de
twitter #netflixhelps y / o otras cuentas de susceptibles de
recibir mensajes similares.
Restricciones
Sólo podemos usar soluciones Open Source
Limitación de cores (16), memoria (24GB), y disco
7. 3 MO2O PLANTEAMIENTO
Requisitos (I): Software Empresarial
Operativa
Sencilla
Cumplimiento
legal
Evolución
Sencilla
Pocos componentes
Configuración vs Código
Responder a una petición ARCO
en menos de 10 días
Componentes fácilmente
reemplazables
8. 3 MO2O PLANTEAMIENTO
Requisitos (ii): Software para PERSONAS
Tiempo Real Novedoso Sentimiento
Tiempo real “soft”
Para personas,
no para máquinas
Nuevos usos a
herramientas que funcionan
Sentimiento positivo refleja
buen servicio (salvo Trolls)
9. 3 MO2O PLANTEAMIENTO
Restricciones
Sin APIS ML Offline Base de datos
Latencia API impiden tiempo real
Clasificador de sentimiento propio
La máquina no aprende
en tiempo real
No columnar, blockchain…
Debe soportar muchas escrituras,
modificaciones, y borrados
14. 4 MO2O SOLUCIÓN
Reflexiones: Aciertos
Protección de datos
Contemplado en fase de diseño (nueva directiva protección datos)
Mensajes twitter están especialmente protegidos en LOPD (religión, política, orientación sexual)
Lista de oposición a tratamiento de datos está en Kafka
Kafka Streaming
Vale la pena para tareas “ligeras”
Redundancia mejor de la esperada
Talend (ETL)
Facilita mucho comunicar y documentar
movimiento de datos twitter -> Kafka -> Cassandra
15. 4 MO2O SOLUCIÓN
Reflexiones: Dificultades
Kafka streaming
Windows es un ciudadano de segunda clase: DLL HELL!
No distribuido
Muchos componentes (Maven, Kstreams, Java, Cassandra, Python…)
Curva de aprendizaje dura
Cassandra: Documentación
Cassandra cambió la interfaz a CQL y no es fácil encontrar
documentación buena para un paso crítico.
16. Íñigo González
Product Owner, Data & Machine Learning
Inigo.gonzalez@mo2o.com
@exocert
___________________________________________________
MO2O
Avda. De Burgos 8 – Pl. 16 – Edif. Bronce . Madrid 28036