El documento describe la evolución de las necesidades tecnológicas para el monitoreo social y la reputación en línea. Detalla cómo la web ha evolucionado de una plataforma pasiva a una colaborativa, y cómo esto ha creado nuevas necesidades como el análisis de sentimiento, la extracción de entidades, y el manejo de crisis en línea. También discute desafíos como la escalabilidad y el procesamiento en tiempo real.
10. consulting, s.a.
autoritas
10
nació la Web
El 16/02/1991 Tim
Berners Lee
presentaba su
proyecto World
Wide Web
Mike Sendall,
directivo del CERN,
catalogaba la
propuesta como
“Vage, but exciting”
14. consulting, s.a.
autoritas
14
CONSUMER
PRODUCER
germinándose la
Web 2.0
Consume contenidos,
es la gran mayoría.
Puede ser productor a
su vez, pero en otro
lugar y momento.
Puede comentar
contenidos
Crea contenidos, páginas
Web, y aunque puede
responder a
comentarios, no crea
conversación. Suele ser
consumidor, pero en
otro lugar y momento
PROSUMER
Crea y consume contenidos, participa, colabora, comparte,
genera conversación.
La Web 2.0 se construye de manera colaborativa entre las
personas, en Blogs,Wikis, Foros, Redes Sociales... que
mantienen una premisa antropológica común, la necesidad
humana de COMUNICARSE
1.0
2.0
17. consulting, s.a.
autoritas
17
Recuperación de
información
API vs.
Crawler
‣API restringe el acceso a los datos:
Facilitan sólo una muestra de la información
existente y accesible a través de buscador
‣API restringe la cantidad de peticiones
realizables
‣Crawler requiere infraestructura y solución
a problemas IR (periodicidad, fechas,
idiomas, almacenamiento...)
‣Crawler puede generar problemas legales
API gratuita
vs. pago
‣Restricción de resultados: las APIs gratuítas
restringen en exceso los resultados frente a la
interfaz del buscador
‣Limitaciones de licencia de las APIs
gratuítas, no permitiendo por ejemplo la
reordenación, mezclado y almacenamiento de
datos
18. consulting, s.a.
autoritas
18
Clasificación de
canales
¿Qué pasa cuando entra una noticia
desde un buscador generalista?
¿Qué canal es la url que se enlaza desde
otro canal?
¿Cómo diferenciar un blog de una web
corporativa?
¿Cómo determinar de qué dominio es
una determinada página?
Identificar
Acotar
Clasificar
Desambiguar
23. consulting, s.a.
autoritas
23
Extraer
semántica
Terminología
Temas
#hashtags
Clasificación
‣ Agrupación de palabras derivadas (Nico y Nicolas = Nicolas)
‣ Agrupación de palabras compuestas (Buenos + Aires = Buenos Aires)
‣ Eliminación de términos irrelevantes, palabras vacías del lenguaje y términos
vacíos en el proyecto (preposiciones, conjunciones...)
‣ Identificación léxica (sustantivos, verbos, adjetivos...)
‣ Desambiguación de términos y entidades nombradas
‣ Agrupa todos los documentos que hacen referencia a un mismo tema
‣ Agrupa todos los documentos que tienen un mismo significado
‣ Elimina temas irrelevantes
‣ Elimina temas recurrentes (cabeceras publicitarias)
‣ Agrupación de documentos que comparten hashtag
‣ Agrupación de hashtags que son lo mismo pero se escriben diferente (errores)
‣ Agrupación de hashtags que significan lo mismo (sinónimos)
‣ Eliminación de hashtags irrelevantes (#FF, #FollowFriday...)
‣ Identificación de hashtags robots
‣ Utilización de todo el conocimiento semántico anterior para generar el
dimensionamiento estratégico del proyecto, sugerir clasificaciones, entidades
reconocidas, enlaces entre entidades, entidades basura...
27. consulting, s.a.
autoritas
27
Extraer entidades
Named Entity Recognition
PERSONAS ORGANIZ. LUGARES OTROS
‣Gazetteer con cientos de miles de elementos
‣Pe. 90.000 apellidos, 180.000 topónimos, 10.000 compañías
‣Problemas de desambigüación
‣Pe. Medicamento ACTOS, apellido de Artur Mas, siglas AFE
‣Extrema informalidad de los microtextos (twitter)
‣TIEMPO REAL!!
28. consulting, s.a.
autoritas
28
Relacionar
entidades
Knowledge
Base
Population
Entity
Linking
Slot Filling
No sin problemas podemos enlazar una entidad como George
W. Bush a la KB, ¿pero cómo lo hacemos con personajes
menos conocidos, como por ejemplo el alcalde de un
municipio o cada una de sus posibles relaciones?
Ya tengo identificadas mis entidades e incluso relacionadas con
la KB, ahora quiero saberlo todo de una entidad, pe. para una
persona de interés:
Mis principales problemas son:
Polisemia, sinonimia y menciones NIL
Cuentas sociales (twitter, facebook, slideshare, linkedin...),
teléfono, nombre de su pareja, empresa dónde trabaja, cargo
en la empresa, si tienes hijos....
SoA del 2% ???
30. consulting, s.a.
autoritas
30
Tercer foco de
interés
RODOLFO ARES TABOADA,
Consejero de Interior del Gobierno Vasco
Casado, dos hijos, Maestro Industrial,
Ingresó en el PSE-EE (PSOE) y la UGT en el año
1977, participó en la fundación de la Agrupación
Socialista de Otxarkoaga, ocupando diversas
responsabilidades dentro del Partido.
Un caso reciente...
¿Manejas las crisis online?
en una semana en el Pais Vasco …
31. consulting, s.a.
autoritas
31
El manejo de
crisis online
… la tercera parte de las conversaciones online relacionadas con el
Gobierno del Pais Vasco mencionaban al Consejero… la mitad de ellas
pidiendo su dimisión...
sólo el 13% de las conversaciones se produjo en los medios tradicionales
(mass media digitales)… el 85% en twitter
33. consulting, s.a.
autoritas
33
Si estoy interesado en transmitir un mensaje con
éxito, ¿a quién me tengo que arrimar?
Si hay un conflicto, ¿a quién tengo que
vigilar?
Análisis de red social e investigación social
Cuarto foco de
interés
34. consulting, s.a.
autoritas
34
¿Cómo se (auto)
organizan los
usuarios?
16
Los periodistas y
medios de
comunicación ocupan
el centro gravitatorio
del espectro político
español en Twitter
Es la de color verde y la que
ocupa una posición de centralidad
respecto del resto
35. consulting, s.a.
autoritas
35
¿Pero quién es
quién?
16
✓ Los usuarios mienten, no dicen quién son en realidad,
pero escriben y el estilo discursivo es un reflejo de la
personalidad del sujeto que lo elabora.
✓ La elección de las palabras y el modo en que se
combinan, aporta información de dimensiones como el
género, la edad, el estado emocional e incluso la
lengua materna de quién las emite
Author Profilinghttp://pan.webis.de
36. consulting, s.a.
autoritas
36
¡¡Ojo con los
canales!!
16
CAT WIKI PRENSA BLOG FORO TW FB
ADJ 13,57% 12,50% 13,67% 9,27% 6,62% 12,06%
ADV 2,78% 3,46% 3,87% 4,74% 6,30% 3,49%
CONJ 1,52% 2,10% 1,80% 4,18% 7,00% 2,64%
Q 3,34% 4,47% 4,15% 5,34% 5,53% 4,29%
DET 2,88% 3,48% 2,78% 4,18% 6,40% 4,02%
INTJ 0,35% 0,04% 0,06% 0,42% 0,38% 0,07%
MD 0,01% 0,03% 0,02% 0,00% 0,00% 0,00%
PREP 4,00% 5,49% 5,07% 8,94% 13,81% 6,15%
PRON 0,65% 0,92% 1,12% 2,22% 3,32% 1,39%
NOM 50,33% 47,05% 46,59% 42,63% 34,08% 47,04%
VERB 20,55% 20,47% 20,88% 18,08% 16,56% 18,83%
✓ El canal determina el modo en que nos comunicamos!!
41. consulting, s.a.
autoritas
41
Automatización
Las 5 Ws
WHERE
WHY
WHO
WHAT
WHEN
‣TIPO DE CONDICIÓN: ¿Dónde hay que mirar?
‣Ej1. Name Entity Recognitiion
‣Ej2. Semántica
‣CARACTERÍSTICAS DE LA CONDICIÓN: ¿Por qué hay que hacerlo?
‣Ej1. Open Government
‣Ej2. Dolor de espalda
‣TIPO DE ACCIÓN: ¿Con qué proceso lo hago?
‣Ej1. Destacar el hit
‣Ej2. Delegar el hit
‣CARACTERÍSTICAS DE LA ACCIÓN: ¿Qué hago?
‣Ej1. Enviar a la sala de prensa
‣Ej2. Destacar en oportunidades de venta
‣PERÍODO: ¿Cuándo lo hago?
‣Ej1. Cada media hora
‣Ej2. Inmediatamente
42. consulting, s.a.
autoritas
42
Aprender de los
usuarios
“Collective Intelligence in Action” Satnam Alag
‣Permitir a los usuarios interactuar con
el sitio web y con los demás,
aprendiendo de cada usuario a través de
sus interacciones y contribuciones
‣Agregar lo aprendido de los usuarios y
sus contribuciones usando modelos
útiles
‣Liberar esos modelos para recomendar
contenido relevante al resto de usuarios
3 reglas de necesario cumplimiento:
Problemas éticos/
legales ???
43. consulting, s.a.
autoritas
43
Escalabilidad y
Tiempo Real
TIEMPO REAL ES CUANDO EL USUARIO ASÍ LO PERCIBE
NOCHE DE ELECCIONES
GENERALES
216.000 documentos analizados
‣Tweets: 176.815
‣Posts: 7.034
‣News: 2013
‣Facebook: 2.184
‣Multimedia: 671
283.000 etiquetas generadas
1.900.000 términos indexados
Elevado número de usuarios
concurrentes
45. consulting, s.a.
autoritas
45
‣ COSMOS es la herramienta de “escucha
activa” desarrollada por autoritas
consulting, con el objetivo de gestionar
todas las relaciones que una Institución
gestiona en el universo de internet.
‣ COSMOS pone orden en el caos de
internet y ofrece una metodología para
individuos o equipos de trabajo que
desean profesionalizar las oportunidades
que se producen en internet.
‣ COSMOS pretende ayudar a las
organizaciones a tocar internet.
Francisco Manuel Rangel Pardo
CTO - Autoritas Consulting
@kicorangel