Big Data

1.306 visualizaciones

Publicado el

Training introductorio de Big Data para ejecutivos de IT. Duración de la presentación: 2 horas.

Publicado en: Empresariales
0 comentarios
3 recomendaciones
Estadísticas
Notas
  • Sé el primero en comentar

Sin descargas
Visualizaciones
Visualizaciones totales
1.306
En SlideShare
0
De insertados
0
Número de insertados
14
Acciones
Compartido
0
Descargas
91
Comentarios
0
Recomendaciones
3
Insertados 0
No insertados

No hay notas en la diapositiva.

Big Data

  1. 1. Big Data Valor estratégico para el mercado corporativo @ferparra
  2. 2. A. Definición de Big Data B. Aplicaciones C. Tecnologías D. Mejores prácticas E. Reflexión final
  3. 3. • Hacia 2020, 5,200 Gigabytes de datos serán generados para cada ser humano del planeta. • Un motor de jet en un vuelo de Londres a Nueva York genera 10 Terabytes de datos cada 30 minutos.
  4. 4. • El 90% de los datos del mundo actuales fueron generados en los últimos 2 años. • Según MIT, las organizaciones grandes tienen en promedio 5.000 fuentes de datos, pero 1-2% terminan en su Data Warehouse.
  5. 5. • El crecimiento exponencial se torna cada vez mas difícil de administrar. • Los datos contienen información poco obvia que las empresas podrían descubrir para mejorar sus resultados. • Las medidas de datos son relativas. Cada industria enfrenta desafíos de distinto tamaño.
  6. 6. A. Definición de Big Data! B. Aplicaciones C. Tecnologías D. Mejores prácticas E. Reflexión final
  7. 7. ¿Qué es Big Data? ¿Análisis Predictivo ¿Business Intelligence? ¿Data Discovery? ¿Visualizaciones e infografías?
  8. 8. ¿Búsqueda de texto? ¿Procesamiento de
 eventos complejos? ¿Programación neurolingüística? ¿Aprendizaje profundo? ¿Inteligencia Artificial?
  9. 9. ¿Cual es nuestra frontera? MB GB TB PB tabla base de datos fotos w eb audio social video m obile tiem po real casitiem po real periodico batch Velocidad Volumen Variedad
  10. 10. El problema comienza a definirse como de Big Data cuando la frontera
 se expande.
  11. 11. Nuestras arquitectura de información tradicional se torna inadecuada.
  12. 12. El ruido supera la señal
  13. 13. Hay buenos modelos…
 y malos modelos…
  14. 14. El 80% del esfuerzo se produce en la integración de datos
  15. 15. La explotación de Big Data está debajo de la superficie alias
 “Dark data"
  16. 16. Además, el 80% de los
 datos disponibles son
 no estructurados, pero… ¿equivalen al 80% del valor?
  17. 17. ROB (Return on Byte)! Es el valor de un byte dividido por el costo de almacenarlo MAX(ROB)
  18. 18. ¿Alto ROB? ¿Bajo ROB?
  19. 19. Big Data es la frontera de una firma para almacenar, procesar y acceder a todos los datos que necesita para operar eficazmente, tomar decisiones, reducir riesgos y servir a los clientes.
  20. 20. A. Definición de Big Data B. Aplicaciones! C. Tecnologías D. Mejores Prácticas E. Reflexión final
  21. 21. Machine learning Procesamiento en tiempo real Analytics exploratorio
  22. 22. Banca Bienes de Consumo IT Telcos y comunicaciones Servicio al consumidor Análisis sentimental Seguridad informática Churn Riesgo
 crediticio Recomendación de productos Escabilidad de Infraestructura Gestión de promociones Detección de Transacciones fraudulentas Predicción de demanda en tiempo real Optimización de protocolos Alocación inteligente de capacidad Upsell y cross-sell de productos Vista 360 del consumidor Predicción de fallos M2M
  23. 23. Gobierno y ciudad Biología y Medicina Energía y utilidades Internet Predicción y prevención del delito Genómica Medidores inteligentes Asistente
 virtual Ciudad
 inteligente Registro de enfermedades Redes
 mixtas Contenido personalizado Digitalización de documentos Diagnóstico médico en la nube Predicción de la demanda Aprendizaje profundo Open
 Government “Yo” cuantificado Gestión de energía desde el consumidor Internet of
 Things
  24. 24. A. Definición de Big Data B. Aplicaciones C. Tecnologías! D. Mejores prácticas E. Reflexión final
  25. 25. Nuevas estructuras
 de datos para
 nuevos problemas
  26. 26. No Relacional Relacional Hadoop! Horton! Cloudera! MapR! Zettaset! ! ! Hadapt! ! ! Teradata! Aster! EMC! Greeplum! IBM InfoSphere! Netezza! SAP HANA! SAP Sybase IQ! HP Vertica! Oracle! Times-ten! Infobright! ParAccel! Calpoint! VectorWise Analíticas Operativas Spark Oracle IBM DB2 SQLSrvr JustOneDB Documentos Lotus Notes InterSystems! Progress! Objectivity! Versant Marklogic! McObject CouchDB! MongoDB! RavenDB NoSQL Clave
 Valor Big Table Grafos Couchbase Riak! Redis! Membrain! Voldemort! BerkleyDB Cassandra HyperTable! HBase FlockDB! InfiniteGraph! Neo4j! AllegroGraph Datos en la nube App Engine! SimpleDB Amazon Redshift! SQL Azure! database.com Xeround! FathomDB NewSQL Sybase ASE Ingress MySQL PostgreSQL EnterpriseDB SchoonerSQL! Tokutek! Continuent! Translattice! GenieDB ScaleBase! CodeFutures! VoltDB! ScalArc! Drizzle HandlerSocket! Akiban! MySQL Cluster! Clustix!
  27. 27. Tuplas "Clave":
 { 
 "valor": 0.55 } ¿Lenguaje de query?
  28. 28. (C) consistencia (A) disponibilidad (P) tolerancia a particiones ¿NoSQL? Elija 2 (lo sentimos)
  29. 29. Hadoop • Almacenaje y procesamiento barato y a escala. • Es la tecnología dominante para procesamiento distribuido a gran escala. Crece 60% anual a tasa compuesta. • Sin embargo su nivel de utilización se encuentra por debajo del 6% en empresas.
  30. 30. Hadoop instala herramientas en cada nodo: • Librerías y scripts en Java • Un filesystem de alta
 disponibilidad -> HDFS • Una plataforma de gestión
 de recursos de cómputo -> YARN • Un motor de 
 extracción -> Map-Reduce
  31. 31. Arquitectura básica Fuente: Rare Mile Technologies, 26 de Junio de 2012, http://blog.raremile.com/hadoop-demystified/
  32. 32. MapReduce Input -> Map(..) -> Reduce(..) -> output
  33. 33. Nodo 2 Nodo 3 Nodo 1 Nodo 2 Nodo 3 Nodo 1 Archivosenfilesystem Map(..) Reduce(..)input output
  34. 34. Soy maestro primario… tengo una caja de lápices de color y cajas más pequeñas -> Caja de lápices Un alumno: toma lápiz, le pone etiqueta, y lo vuelca en su caja (Ejemplo: Rojo, 1) -> Otro alumno: toma caja y suma los 1s -> Lápices
 por color input Map(..) Reduce(..) output
  35. 35. Map Reduce Storm! Drill! HANA
 Spark Alto volumen, alta latencia Alto volumen, baja latencia Procesamiento en batch Acceso a datos en memoria Se define proceduralmente Son queries a bases de datos columnares como HBase, Cassandra o MongoDB Es adecuado para el procesamiento total de datos Es adecuado para producir reportes ah-hoc y procesamiento en tiempo real
  36. 36. • Persistencia
 Cassandra, HBase • Manipulación de datos
 Pig, Pandas • Búsqueda de texto
 Solr, Lucene Tecnologías complementarias que hay que saber obligado
  37. 37. Tecnologías complementarias que hay que saber obligado • Machine Learning
 Mahout, R, SAS, MADLib • Real-time processing
 Drill, Storm, Impala • In-memory
 SAP HANA, Apache Spark
  38. 38. fácil ranking de ventas por región difícil clientes que estén por dejar el servicio ultra difícil clientes que muestran insatisfacción sobre problemas aún no identificados Consulta SQL Clasificador Programación neuro linguistica
  39. 39. ¿Con qué sentido sumergirnos entre tanta complejidad?
  40. 40. fácil ranking de ventas por región difícil clientes que estén por dejar el servicio ultra difícil clientes que muestran insatisfacción sobre problemas aún no identificados Microstrategy Modelo en R Luminoso
  41. 41. Las bases de datos columnares tienen grandes beneficios • Aprovechamiento de procesamiento masivo en paralelo (MPP). • Posibilitan el almacenamiento en memoria RAM. • Fáciles de administrar y de leer
 (viejo y conocido SQL) • Soportan un volumen del orden de los TBs sin problemas
  42. 42. Analytics in-database y funciones definidas por el usuario • Ganancia cualitativa en performance. • Compatibles con lenguajes de markup para aplicaciones de Data Mining (PMML) • Contendientes: Aster Data, Vertica, Netezza, Greenplum (EMC), ParAccel, SAP Sybase
  43. 43. Columnar + In-Database analytics =
  44. 44. A. Definición de Big Data B. Aplicaciones C. Tecnologías D. Mejores prácticas! E. Reflexión final
  45. 45. Algunas Mejores prácticas 1. Partir siempre de una hipótesis antes de actuar sobre los datos 2. No construir Legacy 3. Definir una “autopista de la información” 4. Seguir pensando en dimensiones e indicadores
  46. 46. Algunas Mejores prácticas 5. Construir una infraestructura flexible y escalable (la nube) 6. Implementar flujos conectados a las etapas de caché anteriores 7. Los datos mas próximos van a ser sucios, pero debe agregarse valor en la etapas subsiguientes
  47. 47. A. Definición de Big Data B. Aplicaciones C. Tecnologías D. Kimball E. Reflexión final
  48. 48. –Brett Sheppard, director de Big Data, Splunk “2014 will be the year of the big data non- specialist. Until recently, many big data projects—including those built with Hadoop— have required the skills of highly trained data scientists. They’ve also tended to rely on fixed schemas and scheduled reporting that limit the kinds of questions the system can answer. Starting in 2014, line-of-business employees will be able to ask and answer their own questions using raw, unstructured big data from disparate sources. They won’t need to rely on specialists to unlock the value of big data. Inevitably, they’ll start using data to help make decisions they previously might have made on gut-feel alone. Decision-making will also become a more creative process, as employees of all kinds start asking questions of their data to test hypotheses and explore new approaches to old problems.” Fuente: http://inside-bigdata.com/2013/12/09/big-data-predictions-2014/
  49. 49. Fuente: Read Write Web, 26 de Diciembre 2013, http://readwrite.com/2013/12/26/big-data-myths-reality
  50. 50. El mercado requerirá nuevos perfiles
  51. 51. Resumiendo 1. Las empresas pueden capturar más datos que nunca. 2. La explosión del social media y del Internet of Things son los principales disparadores.
  52. 52. Resumiendo 3. Identificar lo importante entre tanto ruido depende del las capacidades intuitivas y de la apertura del tomador de decisiones. 4. Hadoop es una herramienta extremadamente flexible que pocos ejecutivos entienden.
  53. 53. Resumiendo 5. El cliente va cambiando. Las gerencias de negocio son las nuevas compradoras de software. 6. La apuesta es a largo plazo, pero con foco en lo diario. Las empresas necesitan de la prueba y el error.
  54. 54. Big Data es pensar en nuevos modelos de negocio basados en las necesidades del futuro
  55. 55. ¡Gracias!

×