Retos y Desafíos del Big Data
¿Es posible hacer Big Data cuando
tus fuentes de datos son textos?
Mike Beattie
CEO, Mediamano
?
Big Data : Macro vs Micro
Macro Micro
El Corte Inglés /
Carrefour
✓ ✓
Censo EEUU ✓ ✓
Google Maps ✓
“Piensa en Java” -
Bruce Eckel
✓ ✓
Wikipedia “Madrid” ✓
Micro
¿Se identifica como Afro-Americano ? Sí No
Indíquenos su condado y estado Condado _______________ Estado _ _
Macro
Google Maps
¿Qué puedes contar?
Conclusiones Interim :
Big Data : Macro (para analizar) y Micro (para encontrar) + otros
No todo lo que tiene Micro se puede analizar con Macro …
… ni todo lo que es Macro se puede enfocar hasta Micro
Es importante distinguir entre Google/Bing/Ask e información privada
Cuando la fuente no tiene
estructura …
"No seas siempre riguroso ni siempre blando y escoge entre
estos dos extremos; que en ello está el punto de la discreción”
- M. de Cervantes, DQ, 2ª parte
o
“Ahora se puede demostrar la verdadera potencia del Iterador:
la habilidad de recorrer una secuencia de la estructura
subyacente de esa secuencia” - Eckel, Piensa en Java
o
Hay un ejemplo no digital …
Índice de contenidos : Macro (19 pp)
Índice : Micro (24 pp)
1.000.000 de artículos
¿Cuántos hablan de deportes?
¿Cuántos hablan de Natación en Madrid?
Macro
Macro
Micro
¿Dónde está el artículo sobre la
carencia de infraestructura en Madrid
para la natación competitiva?
… pero en digital ¿Cómo podemos
realizar Macro y Micro?
Con métodos tradicionales …
Término(s) Resultados
“Deportes” 400.000
“Natación” 2.580
“Natación Madrid” 655
“Natación en Madrid” 168
“Madrid la natación” 46
“Madrid” “Natación” 157.804
Macro ?
Macro ?
La lógica de Boole es perfecta para
millones de aplicaciones
pero no para el análisis de bases de texto
Entonces, ¿qué alternativas
hay?
Tagging Manual
Ontología
(estructura de significados)
Inteligencia
Artificial
¿Puede una máquina aprender
significados sin gramática/ Ontología ?
¡Sí! Con una red neuronal
(sin más detalles)
Input
Output
Hidden
“Ahorasepuededemostrarlaverdaderapotenciadel
Iterador:lahabilidadderecorrerunasecuenciadela
estructurasubyacentedeesasecuencia”-Eckel,Piensa
enJava
Palabra
+
Ubicación
x100.000
Palabras en una dimensión
Rojo
Naranja
Amarillo
colegio
Palabras en 2 dimensiones
Naranja
Rojo Amarillo
colegio
Pera Plátano
Palabras en 3 dimensiones
¿Cuántas se necesitan para
simular el cerebro?
El mapa semántico y sus usos
Cada palabra, y cada texto, tiene una ubicación
Así se puede calcular la distancia entre textos y palabras
Que permite hacer muuuuuuchas cosas….
Búsqueda semántica
Semantic Neighbors
Occurrences
- score > 0,5
- Fuente : Web nacional de noticias
Contexto de Big Data : Temporal
Batería de
consultas
Data
-17.5
0
17.5
35
52.5
70
87.5
-4 0 4 8 12 16 20
Masterchef Junior Natación Problema
Batería de
consultas
Data
Contexto de Big Data : No Temporal
0
25
50
75
100
Mahou Heineken Damm Estrella
Fuente 1 Fuente 2
Conclusiones
¡YES WE CAN Hacer Big Data con Texto!
Al tener un score en cada resultado, podemos medir y cuantificar
Podemos descubrir cosas que no sabíamos que estábamos buscando
Podemos generar tags automáticamente
Mike Beattie
mike@mediamano.com
www.happening.technology

Retos y desafíos del Big Data

  • 1.
    Retos y Desafíosdel Big Data ¿Es posible hacer Big Data cuando tus fuentes de datos son textos? Mike Beattie CEO, Mediamano
  • 2.
  • 3.
    Big Data :Macro vs Micro Macro Micro El Corte Inglés / Carrefour ✓ ✓ Censo EEUU ✓ ✓ Google Maps ✓ “Piensa en Java” - Bruce Eckel ✓ ✓ Wikipedia “Madrid” ✓
  • 4.
    Micro ¿Se identifica comoAfro-Americano ? Sí No Indíquenos su condado y estado Condado _______________ Estado _ _
  • 5.
  • 6.
  • 7.
  • 8.
    Conclusiones Interim : BigData : Macro (para analizar) y Micro (para encontrar) + otros No todo lo que tiene Micro se puede analizar con Macro … … ni todo lo que es Macro se puede enfocar hasta Micro Es importante distinguir entre Google/Bing/Ask e información privada
  • 9.
    Cuando la fuenteno tiene estructura … "No seas siempre riguroso ni siempre blando y escoge entre estos dos extremos; que en ello está el punto de la discreción” - M. de Cervantes, DQ, 2ª parte o “Ahora se puede demostrar la verdadera potencia del Iterador: la habilidad de recorrer una secuencia de la estructura subyacente de esa secuencia” - Eckel, Piensa en Java o
  • 10.
    Hay un ejemplono digital … Índice de contenidos : Macro (19 pp) Índice : Micro (24 pp)
  • 11.
    1.000.000 de artículos ¿Cuántoshablan de deportes? ¿Cuántos hablan de Natación en Madrid? Macro Macro Micro ¿Dónde está el artículo sobre la carencia de infraestructura en Madrid para la natación competitiva? … pero en digital ¿Cómo podemos realizar Macro y Micro?
  • 12.
    Con métodos tradicionales… Término(s) Resultados “Deportes” 400.000 “Natación” 2.580 “Natación Madrid” 655 “Natación en Madrid” 168 “Madrid la natación” 46 “Madrid” “Natación” 157.804
  • 13.
  • 14.
  • 15.
    La lógica deBoole es perfecta para millones de aplicaciones pero no para el análisis de bases de texto
  • 16.
    Entonces, ¿qué alternativas hay? TaggingManual Ontología (estructura de significados) Inteligencia Artificial
  • 17.
    ¿Puede una máquinaaprender significados sin gramática/ Ontología ?
  • 18.
    ¡Sí! Con unared neuronal (sin más detalles) Input Output Hidden “Ahorasepuededemostrarlaverdaderapotenciadel Iterador:lahabilidadderecorrerunasecuenciadela estructurasubyacentedeesasecuencia”-Eckel,Piensa enJava Palabra + Ubicación x100.000
  • 19.
    Palabras en unadimensión Rojo Naranja Amarillo colegio
  • 20.
    Palabras en 2dimensiones Naranja Rojo Amarillo colegio Pera Plátano
  • 21.
    Palabras en 3dimensiones
  • 22.
    ¿Cuántas se necesitanpara simular el cerebro?
  • 23.
    El mapa semánticoy sus usos Cada palabra, y cada texto, tiene una ubicación Así se puede calcular la distancia entre textos y palabras Que permite hacer muuuuuuchas cosas….
  • 24.
  • 25.
  • 26.
    Occurrences - score >0,5 - Fuente : Web nacional de noticias
  • 27.
    Contexto de BigData : Temporal Batería de consultas Data -17.5 0 17.5 35 52.5 70 87.5 -4 0 4 8 12 16 20 Masterchef Junior Natación Problema
  • 28.
    Batería de consultas Data Contexto deBig Data : No Temporal 0 25 50 75 100 Mahou Heineken Damm Estrella Fuente 1 Fuente 2
  • 29.
    Conclusiones ¡YES WE CANHacer Big Data con Texto! Al tener un score en cada resultado, podemos medir y cuantificar Podemos descubrir cosas que no sabíamos que estábamos buscando Podemos generar tags automáticamente
  • 30.

Notas del editor

  • #3 Cervantes : La comunicación a través de palabras.