El documento presenta un webinar sobre Big Data y su uso para la gestión eficiente de la información. El webinar cubre temas como qué es Big Data, por qué es importante ahora, la infraestructura de Big Data incluyendo Hadoop, y casos de negocio como el análisis de datos de energía y comercio electrónico. El objetivo es mostrar cómo Big Data y Hadoop pueden usarse para almacenar y analizar grandes volúmenes y variedades de datos para obtener información útil.
Big Data para la Gestión Eficiente de la Información (Presentación webinar)
1. Webinar
Big Data
para la gestión eficiente de la información
El webinar empezará a las 11 en punto.
Gracias por esperar unos instantes.
2. 2
Vuestros presentadores hoy
Antonio Morán
Big Data Development Manager
antonio.moran@telvent.com
Romain Adde
Marketing Manager
romain.adde@telvent.com
ModeradorPresentador
6. 6
¿Que és Big Data?
BIG DATA NO ES UNA GRAN BASE DE DATOS
NOMBRE VALOR
Megabyte (MB) 106
Gigabyte (GB) 109
Terabyte (TB) 1012
Petabyte (PB) 1015
Exabyte (EB) 1018
Zettabyte (ZB) 1021
Yottabyte (YB) 1024
Big Data es una colección de datos tan grande y compleja que se hace difícil
de procesar con herramientas de gestión de base de datos o aplicaciones de
procesamiento de datos tradicionales. Estos procesos incluyen la captura,
almacenamiento, búsqueda, intercambio, análisis y visualización.
7. 7
¿Por qué ahora?
Hoy, los datos negocios necesitan satisfacer 3 características
Big Data proporciona nuevas tecnologías relacionadas con el
procesamiento y la generación de información útil que las metodologías
tradicionales no pueden realizar de manera ágil
Actualmente se
crean diariamente
12 Terabytes de
Tweets, cifra que
sigue creciendo
cada mes
Se examinan 5
millones de eventos
comerciales crean
cada día para
identificar posibles
fraudes
Diariamente se
monitorizan cientos
de cámaras de
vigilancia en
muchos puntos de
interés
VOLUMEN VELOCIDAD VARIEDAD
15. 15
¿Qué es Hadoop? (I)
HDFS
• Un sistema de archivos
que se extiende por todos
los nodos en un clúster
para el almacenamiento
de datos. Se asume que
los nodos fallan
MapReduce
• El marco que entiende y
asigna el trabajo a los
nodos de un clúster
además de ejecutar las
acciones deseadas sobre
los datos
Ecosistema
• Proyectos Apache, como
Pig, Hive y Zookeeper,
que extienden el valor de
Hadoop y mejora su
usabilidad
20. 20
Business case #1 – Energía
Reto
Capturar, almacenar, gestionar y analizar cada vez mayores
flujos de datos de servicios públicos con infraestructura de
medición avanzada (AMI). Crear aplicaciones de usuario
interactivas usando datos de sensores y medios sociales
Solución
Desplegar una plataforma Hadoop, incluyendo Hbase, Hive y
Sqoop para almacenar, consultar y transformar mediciones y
datos sociales.
21. 21
Business Case #1 – Energía
Resultados
●Tener una visión 360 º de los patrones de uso de energía de
los clientes, proporcionando al cliente una atención
proactiva.
●Ofrecer un asesoramiento e información personalizada
sobre la base de los patrones de uso individuales, ayudando
a mejorar la eficiencia energética para cada cliente.
22. 22
Business Case #2 – eCommerce
Reto
Millones de búsquedas y transacciones diarias generan
cientos de GB de datos todos los días. ¿Por qué no usar esta
información?
●Reducir el coste por cada TB de almacenamiento o
mantenimiento.
●Proporcionar un ahorro económico en TI a la vez que
permitir el crecimiento en términos de grandes volúmenes de
datos.
Solución
Utilizar Hadoop para el análisis de logs e incorporar Mahout
para realizar análisis de tendencias.
23. 23
Business Case #2 – eCommerce
Resultados
1. Implementación de un sistema “machine learning” que
aprende del comportamiento de cada usuario.
2. Recomendaciones de productos específicos por usuario.
3. Análisis detallado de segmentos de usuario y aplicación
en tiempo real de los mismos.
4. Elaboración de patrones de uso utilizando predicciones
meteorológicas y variaciones estacionales.
5. Búsqueda de errores en tiempo real, reportando
directamente los problemas a los desarrolladores para la
resolución de problemas directamente en producción.
6. Análisis de caché, con una mejora del rendimiento.