“Retos (tecnológicos)
de la Escucha Activa”
Nunca dudes que un pequeño grupo de ciudadanos
pensantes y comprometidos pueden cambiar el mundo.
De hecho, son los únicos que lo han logrado.
Margaret Mead
consulting, s.a.
autoritas
2
En Internet todo
el mundo habla
consulting, s.a.
autoritas
3
habla mucho
consulting, s.a.
autoritas
4
y en un montón
de canales.
consulting, s.a.
autoritas
5
¿Pero qué nos
interesa?
consulting, s.a.
autoritas
6
Nos interesa...
Estado de
situación
Estratégico de
‘marca’ en
internet. Nuestro
y comparado con
la competencia.
Evolución
temporal de
‘marca’ en la red
Listado de
influenciadores y
target
Opinión de los
consumidores
con respecto a
nuestra marca y la
competencia
El interés de nuestro
target
(Trend Hunting)
Gestión de la
acción/
reacción en
internet
Efectos de
nuestra
acción sobre
nuestro target
Alertas y
Gestión Crisis
Servicio
Atención Cliente
(SAC)
Integración
con CRM
Gestión de
Identidad
consulting, s.a.
autoritas
7
¿Y cómo lo
hacemos?
“Active Listening: more than just
paying attention” Kathryn Robertson
Reputación
Mi actividad
Target
Inspiración
consulting, s.a.
autoritas
8
¿Escuchar todo lo
que se dice en la
Web?
• > 500 millones de usuarios de
Facebook
• > 150 millones de usuarios de
Twitter
• > 90 millones de Webs
• > 150 millones de blogs
• aprox. 1000 exabytes anuales
EXCESO DE INFORMACIÓN
DESESTRUCTURADA
http://www.slideshare.net/autoritas/structuring-unstructured-information-8700497
consulting, s.a.
autoritas
9
Todo problema
conlleva una
oportunidad
Natural
Language
Processing
Machine
Learning
Data Mining
Social Network
Analysis
Collective
Intelligence
System
Architecture
Information
Retrieval
Social
Investigation
Data
Visualization
User
eXperience
consulting, s.a.
autoritas
10
¿Por dónde
empezamos?
Recuperar por
canales
Clasificar
canales
Recuperar
contenido útil
Discriminar por
geografía
Discriminar por
idioma
Eliminar basura
Automatización
Predicción
Extraer
semántica
Relacionar
entidades
Análisis de red
social
Investigación
social
Aprender de los
usuarios
Extraer
entidades
User
eXperience
Data
Visualization
Tiempo Real
Escalabilidad
consulting, s.a.
autoritas
11
Recuperar por
canales
API vs.
Crawler
‣API restringe el acceso a los datos:
Facilitan sólo una muestra de la información
existente y accesible a través de buscador
‣API restringe la cantidad de peticiones
realizables
‣Crawler requiere infraestructura y solución
a problemas IR (periodicidad, fechas,
idiomas, almacenamiento...)
‣Crawler puede generar problemas legales
API gratuita
vs. pago
‣Restricción de resultados: las APIs gratuítas
restringen en exceso los resultados frente a la
interfaz del buscador
‣Limitaciones de licencia de las APIs
gratuítas, no permitiendo por ejemplo la
reordenación, mezclado y almacenamiento de
datos
consulting, s.a.
autoritas
12
Clasificar canales
¿Qué pasa cuando entra una noticia
desde un buscador generalista?
¿Qué canal es la url que se enlaza desde
otro canal?
¿Cómo diferenciar un blog de una web
corporativa?
¿Cómo determinar de qué dominio es
una determinada página?
Identificar
Acotar
Clasificar
Desambiguar
consulting, s.a.
autoritas
13
Recuperar
contenido útil
Sección de
anuncios sin
relevancia para
el contenido
Sección de
última hora que
distorsiona la
semántica de la
página
Contenido útil
consulting, s.a.
autoritas
14
Discriminar por
idioma
Inglés
estoy sin internet ¬¬ fuuuuck!!!
Finlandés
... euskocaja, como euskolabel,
euskotren, euskomueble... XDDD
Portugués
Flowah Powah!
Alemán
Vierrrrrrrrrrrrnes, egunon!!
Modelos del lenguaje vs. n-Gramms vs. Machine Learning
consulting, s.a.
autoritas
15
Discriminar por
geografía
Geografía de origen vs. geografía de contenido
consulting, s.a.
autoritas
16
Eliminar basura
resultados
elimina url
prescindibles
filtra palabras
marca url’s como
Spam
Elimina url’s
Quita de la ‘vista’ los
antitesauros
filtra #hastags
filtra influenciadores
filtra localizaciones
consulting, s.a.
autoritas
17
Extraer
semántica
Terminología
Temas
#hashtags
Clasificación
‣ Agrupación de palabras derivadas (Nico y Nicolas = Nicolas)
‣ Agrupación de palabras compuestas (Buenos + Aires = Buenos Aires)
‣ Eliminación de términos irrelevantes, palabras vacías del lenguaje y términos
vacíos en el proyecto (preposiciones, conjunciones...)
‣ Identificación léxica (sustantivos, verbos, adjetivos...)
‣ Desambiguación de términos y entidades nombradas
‣ Agrupa todos los documentos que hacen referencia a un mismo tema
‣ Agrupa todos los documentos que tienen un mismo significado
‣ Elimina temas irrelevantes
‣ Elimina temas recurrentes (cabeceras publicitarias)
Clusters Lingo
Índices Lucene
‣ Agrupación de documentos que comparten hashtag
‣ Agrupación de hashtags que son lo mismo pero se escriben diferente (errores)
‣ Agrupación de hashtags que significan lo mismo (sinónimos)
‣ Eliminación de hashtags irrelevantes (#FF, #FollowFriday...)
‣ Identificación de hashtags robots
‣ Utilización de todo el conocimiento semántico anterior para generar el
dimensionamiento estratégico del proyecto, sugerir clasificaciones, entidades
reconocidas, enlaces entre entidades, entidades basura...
consulting, s.a.
autoritas
18
Extraer entidades
Named Entity Recognition
PERSONAS ORGANIZ. LUGARES OTROS
‣Gazetteer con cientos de miles de elementos
‣Pe. 90.000 apellidos, 180.000 topónimos, 10.000 compañías
‣Problemas de desambigüación
‣Pe. Medicamento ACTOS, apellido de Artur Mas, siglas AFE
‣Extrema informalidad de los microtextos (twitter)
‣TIEMPO REAL!!
consulting, s.a.
autoritas
19
Relacionar
entidades
Knowledge
Base
Population
Entity
Linking
Slot Filling
No sin problemas podemos enlazar una entidad como George
W. Bush a la KB, ¿pero cómo lo hacemos con personajes
menos conocidos, como por ejemplo el alcalde de un
municipio o cada una de sus posibles relaciones?
Ya tengo identificadas mis entidades e incluso relacionadas con
la KB, ahora quiero saberlo todo de una entidad, pe. para una
persona de interés:
Mis principales problemas son:
Polisemia, sinonimia y menciones NIL
Cuentas sociales (twitter, facebook, slideshare, linkedin...),
teléfono, nombre de su pareja, empresa dónde trabaja, cargo
en la empresa, si tienes hijos....
SoA del 2% ???
consulting, s.a.
autoritas
20
Análisis de red
social e
investigación
social
Si estoy interesado en transmitir un mensaje con
éxito, ¿a quién me tengo que arrimar?
Si hay un conflicto, ¿a quién tengo que
vigilar?
consulting, s.a.
autoritas
21
Aprender de los
usuarios
“Collective Intelligence in Action” Satnam Alag
‣Permitir a los usuarios interactuar con
el sitio web y con los demás,
aprendiendo de cada usuario a través de
sus interacciones y contribuciones
‣Agregar lo aprendido de los usuarios y
sus contribuciones usando modelos
útiles
‣Liberar esos modelos para recomendar
contenido relevante al resto de usuarios
3 reglas de necesario cumplimiento:
Problemas éticos/
legales ???
consulting, s.a.
autoritas
22
Data Visualization
DISPOSITIVOS
MÓVILES
TIEMPO
REAL
BIG DATA
Voluntariado ONG
aprender
actitud
infantilactividadesjóvenes
100%
becas
voluntarios
valores
internet
becas
consulting, s.a.
autoritas
23
User eXperience
PRINCIPIOSDEDISEÑOUNIVERSAL
‣ USO EQUITATIVO
‣ FLEXIBILIDAD DE USO
‣ USO SIMPLE E
INTUITIVO
‣ INFORMACIÓN
PERCEPTIBLE
‣ TOLERANCIA A
ERRORES
‣ REDUCCIÓN DEL
ESFUERZO
‣ TAMAÑO Y ESPACIO
APROPIADO PARA SU
USO
consulting, s.a.
autoritas
24
Automatización
Las 5 Ws
WHERE
WHY
WHO
WHAT
WHEN
‣TIPO DE CONDICIÓN: ¿Dónde hay que mirar?
‣Ej1. Name Entity Recognitiion
‣Ej2. Semántica
‣CARACTERÍSTICAS DE LA CONDICIÓN: ¿Por qué hay que hacerlo?
‣Ej1. Open Government
‣Ej2. Dolor de espalda
‣TIPO DE ACCIÓN: ¿Con qué proceso lo hago?
‣Ej1. Destacar el hit
‣Ej2. Delegar el hit
‣CARACTERÍSTICAS DE LA ACCIÓN: ¿Qué hago?
‣Ej1. Enviar a la sala de prensa
‣Ej2. Destacar en oportunidades de venta
‣PERÍODO: ¿Cuándo lo hago?
‣Ej1. Cada media hora
‣Ej2. Inmediatamente
consulting, s.a.
autoritas
25
Predicción
consulting, s.a.
autoritas
26
Escalabilidad y
Tiempo Real
TIEMPO REAL ES CUANDO EL USUARIO ASÍ LO PERCIBE
NOCHE DE ELECCIONES
GENERALES
216.000 documentos analizados
‣Tweets: 176.815
‣Posts: 7.034
‣News: 2013
‣Facebook: 2.184
‣Multimedia: 671
283.000 etiquetas generadas
1.900.000 términos indexados
Elevado número de usuarios
concurrentes
consulting, s.a.
autoritas
27
La oportunidad
profesional
BIG
DATA
CLOUD
COMPUTING
INTEGRACIÓN
TECNOLOGÍAS
consulting, s.a.
autoritas
“Los retos de la Escucha Activa son
innumerables y una gran
oportunidad para técnicos e
investigadores”
28
Francisco Manuel Rangel Pardo
CTO - Autoritas Consulting
@kicorangel

Retos de la Escucha Activa

  • 1.
    “Retos (tecnológicos) de laEscucha Activa” Nunca dudes que un pequeño grupo de ciudadanos pensantes y comprometidos pueden cambiar el mundo. De hecho, son los únicos que lo han logrado. Margaret Mead
  • 2.
  • 3.
  • 4.
    consulting, s.a. autoritas 4 y enun montón de canales.
  • 5.
  • 6.
    consulting, s.a. autoritas 6 Nos interesa... Estadode situación Estratégico de ‘marca’ en internet. Nuestro y comparado con la competencia. Evolución temporal de ‘marca’ en la red Listado de influenciadores y target Opinión de los consumidores con respecto a nuestra marca y la competencia El interés de nuestro target (Trend Hunting) Gestión de la acción/ reacción en internet Efectos de nuestra acción sobre nuestro target Alertas y Gestión Crisis Servicio Atención Cliente (SAC) Integración con CRM Gestión de Identidad
  • 7.
    consulting, s.a. autoritas 7 ¿Y cómolo hacemos? “Active Listening: more than just paying attention” Kathryn Robertson Reputación Mi actividad Target Inspiración
  • 8.
    consulting, s.a. autoritas 8 ¿Escuchar todolo que se dice en la Web? • > 500 millones de usuarios de Facebook • > 150 millones de usuarios de Twitter • > 90 millones de Webs • > 150 millones de blogs • aprox. 1000 exabytes anuales EXCESO DE INFORMACIÓN DESESTRUCTURADA http://www.slideshare.net/autoritas/structuring-unstructured-information-8700497
  • 9.
    consulting, s.a. autoritas 9 Todo problema conllevauna oportunidad Natural Language Processing Machine Learning Data Mining Social Network Analysis Collective Intelligence System Architecture Information Retrieval Social Investigation Data Visualization User eXperience
  • 10.
    consulting, s.a. autoritas 10 ¿Por dónde empezamos? Recuperarpor canales Clasificar canales Recuperar contenido útil Discriminar por geografía Discriminar por idioma Eliminar basura Automatización Predicción Extraer semántica Relacionar entidades Análisis de red social Investigación social Aprender de los usuarios Extraer entidades User eXperience Data Visualization Tiempo Real Escalabilidad
  • 11.
    consulting, s.a. autoritas 11 Recuperar por canales APIvs. Crawler ‣API restringe el acceso a los datos: Facilitan sólo una muestra de la información existente y accesible a través de buscador ‣API restringe la cantidad de peticiones realizables ‣Crawler requiere infraestructura y solución a problemas IR (periodicidad, fechas, idiomas, almacenamiento...) ‣Crawler puede generar problemas legales API gratuita vs. pago ‣Restricción de resultados: las APIs gratuítas restringen en exceso los resultados frente a la interfaz del buscador ‣Limitaciones de licencia de las APIs gratuítas, no permitiendo por ejemplo la reordenación, mezclado y almacenamiento de datos
  • 12.
    consulting, s.a. autoritas 12 Clasificar canales ¿Quépasa cuando entra una noticia desde un buscador generalista? ¿Qué canal es la url que se enlaza desde otro canal? ¿Cómo diferenciar un blog de una web corporativa? ¿Cómo determinar de qué dominio es una determinada página? Identificar Acotar Clasificar Desambiguar
  • 13.
    consulting, s.a. autoritas 13 Recuperar contenido útil Secciónde anuncios sin relevancia para el contenido Sección de última hora que distorsiona la semántica de la página Contenido útil
  • 14.
    consulting, s.a. autoritas 14 Discriminar por idioma Inglés estoysin internet ¬¨¬¨ fuuuuck!!! Finlandés ... euskocaja, como euskolabel, euskotren, euskomueble... XDDD Portugués Flowah Powah! Alemán Vierrrrrrrrrrrrnes, egunon!! Modelos del lenguaje vs. n-Gramms vs. Machine Learning
  • 15.
  • 16.
    consulting, s.a. autoritas 16 Eliminar basura resultados eliminaurl prescindibles filtra palabras marca url’s como Spam Elimina url’s Quita de la ‘vista’ los antitesauros filtra #hastags filtra influenciadores filtra localizaciones
  • 17.
    consulting, s.a. autoritas 17 Extraer semántica Terminología Temas #hashtags Clasificación ‣ Agrupaciónde palabras derivadas (Nico y Nicolas = Nicolas) ‣ Agrupación de palabras compuestas (Buenos + Aires = Buenos Aires) ‣ Eliminación de términos irrelevantes, palabras vacías del lenguaje y términos vacíos en el proyecto (preposiciones, conjunciones...) ‣ Identificación léxica (sustantivos, verbos, adjetivos...) ‣ Desambiguación de términos y entidades nombradas ‣ Agrupa todos los documentos que hacen referencia a un mismo tema ‣ Agrupa todos los documentos que tienen un mismo significado ‣ Elimina temas irrelevantes ‣ Elimina temas recurrentes (cabeceras publicitarias) Clusters Lingo Índices Lucene ‣ Agrupación de documentos que comparten hashtag ‣ Agrupación de hashtags que son lo mismo pero se escriben diferente (errores) ‣ Agrupación de hashtags que significan lo mismo (sinónimos) ‣ Eliminación de hashtags irrelevantes (#FF, #FollowFriday...) ‣ Identificación de hashtags robots ‣ Utilización de todo el conocimiento semántico anterior para generar el dimensionamiento estratégico del proyecto, sugerir clasificaciones, entidades reconocidas, enlaces entre entidades, entidades basura...
  • 18.
    consulting, s.a. autoritas 18 Extraer entidades NamedEntity Recognition PERSONAS ORGANIZ. LUGARES OTROS ‣Gazetteer con cientos de miles de elementos ‣Pe. 90.000 apellidos, 180.000 topónimos, 10.000 compañías ‣Problemas de desambigüación ‣Pe. Medicamento ACTOS, apellido de Artur Mas, siglas AFE ‣Extrema informalidad de los microtextos (twitter) ‣TIEMPO REAL!!
  • 19.
    consulting, s.a. autoritas 19 Relacionar entidades Knowledge Base Population Entity Linking Slot Filling Nosin problemas podemos enlazar una entidad como George W. Bush a la KB, ¿pero cómo lo hacemos con personajes menos conocidos, como por ejemplo el alcalde de un municipio o cada una de sus posibles relaciones? Ya tengo identificadas mis entidades e incluso relacionadas con la KB, ahora quiero saberlo todo de una entidad, pe. para una persona de interés: Mis principales problemas son: Polisemia, sinonimia y menciones NIL Cuentas sociales (twitter, facebook, slideshare, linkedin...), teléfono, nombre de su pareja, empresa dónde trabaja, cargo en la empresa, si tienes hijos.... SoA del 2% ???
  • 20.
    consulting, s.a. autoritas 20 Análisis dered social e investigación social Si estoy interesado en transmitir un mensaje con éxito, ¿a quién me tengo que arrimar? Si hay un conflicto, ¿a quién tengo que vigilar?
  • 21.
    consulting, s.a. autoritas 21 Aprender delos usuarios “Collective Intelligence in Action” Satnam Alag ‣Permitir a los usuarios interactuar con el sitio web y con los demás, aprendiendo de cada usuario a través de sus interacciones y contribuciones ‣Agregar lo aprendido de los usuarios y sus contribuciones usando modelos útiles ‣Liberar esos modelos para recomendar contenido relevante al resto de usuarios 3 reglas de necesario cumplimiento: Problemas éticos/ legales ???
  • 22.
    consulting, s.a. autoritas 22 Data Visualization DISPOSITIVOS MÓVILES TIEMPO REAL BIGDATA Voluntariado ONG aprender actitud infantilactividadesjóvenes 100% becas voluntarios valores internet becas
  • 23.
    consulting, s.a. autoritas 23 User eXperience PRINCIPIOSDEDISEÑOUNIVERSAL ‣USO EQUITATIVO ‣ FLEXIBILIDAD DE USO ‣ USO SIMPLE E INTUITIVO ‣ INFORMACIÓN PERCEPTIBLE ‣ TOLERANCIA A ERRORES ‣ REDUCCIÓN DEL ESFUERZO ‣ TAMAÑO Y ESPACIO APROPIADO PARA SU USO
  • 24.
    consulting, s.a. autoritas 24 Automatización Las 5Ws WHERE WHY WHO WHAT WHEN ‣TIPO DE CONDICIÓN: ¿Dónde hay que mirar? ‣Ej1. Name Entity Recognitiion ‣Ej2. Semántica ‣CARACTERÍSTICAS DE LA CONDICIÓN: ¿Por qué hay que hacerlo? ‣Ej1. Open Government ‣Ej2. Dolor de espalda ‣TIPO DE ACCIÓN: ¿Con qué proceso lo hago? ‣Ej1. Destacar el hit ‣Ej2. Delegar el hit ‣CARACTERÍSTICAS DE LA ACCIÓN: ¿Qué hago? ‣Ej1. Enviar a la sala de prensa ‣Ej2. Destacar en oportunidades de venta ‣PERÍODO: ¿Cuándo lo hago? ‣Ej1. Cada media hora ‣Ej2. Inmediatamente
  • 25.
  • 26.
    consulting, s.a. autoritas 26 Escalabilidad y TiempoReal TIEMPO REAL ES CUANDO EL USUARIO ASÍ LO PERCIBE NOCHE DE ELECCIONES GENERALES 216.000 documentos analizados ‣Tweets: 176.815 ‣Posts: 7.034 ‣News: 2013 ‣Facebook: 2.184 ‣Multimedia: 671 283.000 etiquetas generadas 1.900.000 términos indexados Elevado número de usuarios concurrentes
  • 27.
  • 28.
    consulting, s.a. autoritas “Los retosde la Escucha Activa son innumerables y una gran oportunidad para técnicos e investigadores” 28 Francisco Manuel Rangel Pardo CTO - Autoritas Consulting @kicorangel