Publicidad
Publicidad

Más contenido relacionado

Similar a Carga y procesamiento de datos en HDInsight(20)

Publicidad
Publicidad

Carga y procesamiento de datos en HDInsight

  1. Carga y procesamiento de datos en HDInsight @erincon Eladio Rincón Director Área Relacional erincon@solidq.com @yolrod Yolanda Olmedo DPS yolmedo@solidq.com @Daniel_Seara Daniel Seara Mentor dseara@solidq.com
  2. Agenda • Almacenamiento en HDInsight • Carga de datos • Herramientas para la carga de datos • Estructurados • No estructurados • Especiales • Transformaciones • Hive • Pig • Map Reduce • Obteniendo resultados 2
  3. • Azure HDInsight cluster • Hortonworks Data Platform • Arquitectura HDInsight Almacenamiento 3
  4. HDInsight Ecosistema 4 Distributed Storage (HDFS) Distributed Processing (Map Reduce) ODBC World’s Data (Azure Data Marketplace) Windows Azure Storage
  5. • Bibliotecas .Net que facilitan la tarea • Serialización • JSON • AVRO – Interacción con HDInsight y Azure Carga de Datos Herramientas para la carga de Datos 5
  6. DEMO 6 Encontrando lo que necesitamos con NuGet
  7. Escenario Datos de clima y consumo de cerveza  Analizar grandes volúmenes de información respecto del clima y su correlación de consumo, relacionado con períodos estacionales 7
  8. • Sqoop • Importación/exportación RDMS  Hadoop • Azure PowerShell • Extensión de PowerShell para interactuar con Azure • AzureHDInsightSqoopJobDefinition • … Carga de Datos Estructurados 8
  9. DEMO 9 Importando datos de base de datos a HDInsight
  10. • ¡Serialización! • AVRO • JSON • CSV • ORC (Optimized Row Columnar) • Transformar y almacenar • Herramientas de serialización • Herramientas de almacenamiento en la nube Carga de Datos No Estructurados 10
  11. DEMO 11 Llevando datos no estrcuturados a HDInsight
  12. • Definir la estructura de datos necesarios • “Copiar” entre el origen e instancias de la estructura • Serializar Carga de Datos Casos especiales 12
  13. DEMO 13 Llevando datos diferentes a HDInsight
  14. • Núcleo de Hadoop • Procesamiento paralelo • Divide trabajo en pequeñas tareas • Tolerancia a fallos Transformaciones MapReduce 14
  15. Transformaciones MapReduce 15 MapReduce Mapper Mapper Mapper Reducer Reducer Reducer Mezcla y ordena
  16. • Sistema Data Warehouse para Hadoop • Consultas Ad-hoc • Lenguaje de consulta como SQL: HiveQL • Por detrás ejecuta MapReduce Transformaciones Hive 16
  17. • Lenguaje de scripting de alto nivel • Fácil programación extensible • Ejecuta trabajos MapReduce Transformaciones Pig 17
  18. Obteniendo resultados Leyendo del cluster 18
  19. ¿Preguntas? 19
  20. Siéntate a comer con nosotros o tómate un café y aclara tus dudas  ¡Gracias! 20 @erincon Director Área Relacional Eladio Rincón @yolrod DPS Yolanda Olmedo @Daniel_Seara Mentor Daniel Seara
  21. Si quieres disfrutar de las mejores sesiones de nuestros mentores de España y Latino América, ésta es tu oportunidad. http://summit.solidq.com Síguenos: 21
Publicidad