Data warehousing con hadoop y el paradigma map reduce

•Descargar como PPTX, PDF•

0 recomendaciones•90 vistas

Ismel Martínez Díaz

HDFS, MapReduce and DW

Tecnología

Data Warehousing con Hadoop
y el paradigma MapReduce
Ismel Martínez Díaz

Motivación y Antecedentes de Hadoop
• Alto volúmenes de datos
• Variedad de formatos
• Alta velocidad de generación de datos
• Sistemas de bases de datos distribuidos
• Programación funcional

Historia
• Creador: Doug Cutting
• 2002 Nutch
• 2004 GFS y MapReduce
• 2006 – 2008 Hadoop (HDFS y MapReduce)
• Actualidad: CloudEra y HortonWorks (Hive, Pig, HBase, etc)

Hadoop
• Proyecto Open Source
• Procesamiento de grandes cantidades de datos
• Computación distribuida
• Escalable, fiable, eficiente y económico

HDFS
• Fallos en el hardware y uso de heartbeats
• Millones de archivos y espacio de nombres único
• Portabilidad
• Escribir una vez, leer varias
• Archivos divididos en bloques y replicación.
• Acceso directo a los datos y validación.

MapReduce
• Programación funcional para la computación distribuida.

HDFS y MapReduce
• Útil
• Sencillo
• Pensamiento funcional y distribuido

Cliente Job
Tracker
Task
Tracker
map
Input
Formar
combine()
reduce()
region
region
ram Task
Tracker
read
sort
reduce()
Input
Files
split
split
split
Output
File
Task
Tracker
Task
Tracker
region
region
region
region
Output
Formar

Cliente Job
Tracker
Task
Tracker
map
Input
Format
combine()
reduce()
region
region
ram Task
Tracker
read
sort
reduce()
Input
Files
split
split
split
Output
File
Task
Tracker
Task
Tracker
region
region
region
region
MapTask
Output
Formar

Cliente Job
Tracker
Task
Tracker
map
Input
Formar
combine()
reduce()
region
region
ram Task
Tracker
read
sort
reduce()
Output
Formar
Input
Files
split
split
split
Output
File
Task
Tracker
Task
Tracker
region
region
region
region

Más contenido relacionado

La actualidad más candente

Basic Hadoop Architecture V1 vs V2VIVEKVANAVAN

Introduction to apache hadoop copyMohammad_Tariq

Map reduce & HDFS with HadoopDiego Pacheco

HADOOP TECHNOLOGY pptsravya raju

Hadoop technologySohini~~ Music

Big dataAlisha Roy

Introduction to Big DataMd. Afif Al Mamun

Apache Hadoop HDFSMike Frampton

BigdataAyush Agrawal

Hadoop foundation for analyticsHariniA7

Hadoopavnishagr

Big dataHM Digital Marketing

Reduce Storage Costs by 5x Using The New HDFS Tiered Storage Feature DataWorks Summit

Hive and querying dataKarthigaGunasekaran1

Big Data on the Microsoft PlatformAndrew Brust

P.Maharajothi,II-M.sc(computer science),Bon secours college for women,thanjavur.MaharajothiP

SQL Server 2012 and Big DataMicrosoft TechNet - Belgium and Luxembourg

An Introduction of Apache HadoopKMS Technology

Big data - Online TrainingLearntek1

AnjuAnju Shekhawat

La actualidad más candente (20)

Basic Hadoop Architecture V1 vs V2

Introduction to apache hadoop copy

Map reduce & HDFS with Hadoop

HADOOP TECHNOLOGY ppt

Hadoop technology

Big data

Introduction to Big Data

Apache Hadoop HDFS

Bigdata

Hadoop foundation for analytics

Hadoop

Big data

Reduce Storage Costs by 5x Using The New HDFS Tiered Storage Feature

Hive and querying data

Big Data on the Microsoft Platform

P.Maharajothi,II-M.sc(computer science),Bon secours college for women,thanjavur.

SQL Server 2012 and Big Data

An Introduction of Apache Hadoop

Big data - Online Training

Anju

Destacado

El tren de la vidaCristina Tenezaca Mora

María+p.Victoria Franco

La república.José Luis Zeferino Catzalco León

T a tLUCIAGOMEZOJEDA

Electronic publishing presentationWenxiao Wang

BU econ professor runs for president, hopes to mobilize young votersKalina Newman

El peso de la lectura!Juan Osvaldo

Soldadura Oxiacetilenica y Smawjoa52

Presentación1 comunicacionMara Wonka

En el silencio de tu alma.Cristina Tenezaca Mora

Ipswich Motorway Upgrade-Intelligent Transport Systems (ITS) Layouts 5Gary Hayes

Como hacerte saberCristina Tenezaca Mora

Transfer cap. presentacion p ower pMULTINIVELES

IBF INTERNACIONALMULTINIVELES

Humanismo. Camino a la trascendenciaJosé Luis Zeferino Catzalco León

Programa completo,lic. en softwareVladimir Morote

M. del marVictoria Franco

Cuestionario de computacion del primer quimestrewilychisa

Cuadro uftalexander

Currey_PentateuchThemeAshley (Currey) Lenz

Destacado (20)

El tren de la vida

María+p.

La república.

T a t

Electronic publishing presentation

BU econ professor runs for president, hopes to mobilize young voters

El peso de la lectura!

Soldadura Oxiacetilenica y Smaw

Presentación1 comunicacion

En el silencio de tu alma.

Ipswich Motorway Upgrade-Intelligent Transport Systems (ITS) Layouts 5

Como hacerte saber

Transfer cap. presentacion p ower p

IBF INTERNACIONAL

Humanismo. Camino a la trascendencia

Programa completo,lic. en software

M. del mar

Cuestionario de computacion del primer quimestre

Cuadro

Currey_PentateuchTheme

Similar a Data warehousing con hadoop y el paradigma map reduce

Getting Started with HadoopCloudera, Inc.

02 Hadoop.pptx HADOOP VENNELA DONTHIREDDYVenneladonthireddy1

Introduction to BIg Data and HadoopAmir Shaikh

Scaling Storage and Computation with Hadoopyaevents

Cloudera Hadoop DistributionThisara Pramuditha

List of Engineering Colleges in UttarakhandRoorkee College of Engineering, Roorkee

Hadoop.pptxarslanhaneef

Hadoop.pptxsonukumar379092

Big dataMayuri Verma

Tcloud Computing Hadoop Family and Ecosystem Service 2013.Q2tcloudcomputing-tw

Concepts on HadoopChristopher Sharkey

HadoopNishant Gandhi

Big data in AzureVenkatesh Narayanan

Big data and hadoop anupamaAnupama Prabhudesai

Big Data in the Microsoft PlatformJesus Rodriguez

Hadoop ppt1chariorienit

Tcloud Computing Hadoop Family and Ecosystem Service 2013.Q3tcloudcomputing-tw

Real time hadoop + mapreduce introGeoff Hendrey

hadoop distributed file systems complete informationbhargavi804095

Analytics using big data technologiesBalakrishnan Vinchu

Similar a Data warehousing con hadoop y el paradigma map reduce (20)

Getting Started with Hadoop

02 Hadoop.pptx HADOOP VENNELA DONTHIREDDY

Introduction to BIg Data and Hadoop

Scaling Storage and Computation with Hadoop

Cloudera Hadoop Distribution

List of Engineering Colleges in Uttarakhand

Hadoop.pptx

Big data

Tcloud Computing Hadoop Family and Ecosystem Service 2013.Q2

Concepts on Hadoop

Hadoop

Big data in Azure

Big data and hadoop anupama

Big Data in the Microsoft Platform

Hadoop ppt1

Tcloud Computing Hadoop Family and Ecosystem Service 2013.Q3

Real time hadoop + mapreduce intro

hadoop distributed file systems complete information

Analytics using big data technologies

Último

04-2024-HHUG-Sales-and-Marketing-Alignment.pptxHampshireHUG

Connector Corner: Accelerate revenue generation using UiPath API-centric busi...DianaGray10

Automating Google Workspace (GWS) & more with Apps Scriptwesley chun

Bajaj Allianz Life Insurance Company - Insurer Innovation Award 2024The Digital Insurer

Tech Trends Report 2024 Future Today Institute.pdfhans926745

From Event to Action: Accelerate Your Decision Making with Real-Time AutomationSafe Software

GenCyber Cyber Security Day PresentationMichael W. Hawkins

AWS Community Day CPH - Three problems of TerraformAndrey Devyatkin

Understanding Discord NSFW Servers A Guide for Responsible Users.pdfUK Journal

TrustArc Webinar - Stay Ahead of US State Data Privacy Law DevelopmentsTrustArc

A Domino Admins Adventures (Engage 2024)Gabriella Davis

Partners Life - Insurer Innovation Award 2024The Digital Insurer

Boost PC performance: How more available memory can improve productivityPrincipled Technologies

Scaling API-first – The story of a global engineering organizationRadu Cotescu

Apidays Singapore 2024 - Building Digital Trust in a Digital Economy by Veron...apidays

[2024]Digital Global Overview Report 2024 Meltwater.pdfhans926745

Axa Assurance Maroc - Insurer Innovation Award 2024The Digital Insurer

Handwritten Text Recognition for manuscripts and early printed textsMaria Levchenko

Strategies for Landing an Oracle DBA Job as a FresherRemote DBA Services

Tata AIG General Insurance Company - Insurer Innovation Award 2024The Digital Insurer

Data warehousing con hadoop y el paradigma map reduce

1. Data Warehousing con Hadoop y el paradigma MapReduce Ismel Martínez Díaz

2. Motivación y Antecedentes de Hadoop • Alto volúmenes de datos • Variedad de formatos • Alta velocidad de generación de datos • Sistemas de bases de datos distribuidos • Programación funcional

3. Historia • Creador: Doug Cutting • 2002 Nutch • 2004 GFS y MapReduce • 2006 – 2008 Hadoop (HDFS y MapReduce) • Actualidad: CloudEra y HortonWorks (Hive, Pig, HBase, etc)

4. Hadoop • Proyecto Open Source • Procesamiento de grandes cantidades de datos • Computación distribuida • Escalable, fiable, eficiente y económico

5. HDFS • Fallos en el hardware y uso de heartbeats • Millones de archivos y espacio de nombres único • Portabilidad • Escribir una vez, leer varias • Archivos divididos en bloques y replicación. • Acceso directo a los datos y validación.

6. MapReduce • Programación funcional para la computación distribuida.

7. HDFS y MapReduce • Útil • Sencillo • Pensamiento funcional y distribuido

8. Cliente Job Tracker Task Tracker map Input Formar combine() reduce() region region ram Task Tracker read sort reduce() Input Files split split split Output File Task Tracker Task Tracker region region region region Output Formar

9. Cliente Job Tracker Task Tracker map Input Formar combine() reduce() region region ram Task Tracker read sort reduce() Input Files split split split Output File Task Tracker Task Tracker region region region region Output Formar

10. Cliente Job Tracker Task Tracker map Input Formar combine() reduce() region region ram Task Tracker read sort reduce() Input Files split split split Output File Task Tracker Task Tracker region region region region Output Formar

11. Cliente Job Tracker Task Tracker map Input Formar combine() reduce() region region ram Task Tracker read sort reduce() Input Files split split split Output File Task Tracker Task Tracker region region region region MapTask Output Formar

12. Cliente Job Tracker Task Tracker map Input Format combine() reduce() region region ram Task Tracker read sort reduce() Input Files split split split Output File Task Tracker Task Tracker region region region region MapTask Output Formar

13. Cliente Job Tracker Task Tracker map Input Formar combine() reduce() region region ram Task Tracker read sort reduce() Input Files split split split Output File Task Tracker Task Tracker region region region region MapTask Output Formar

14. Cliente Job Tracker Task Tracker map Input Formar combine() reduce() region region ram Task Tracker read sort reduce() Input Files split split split Output File Task Tracker Task Tracker region region region region MapTask Output Formar

15. Cliente Job Tracker Task Tracker map Input Formar combine() reduce() region region ram Task Tracker read sort reduce() Input Files split split split Output File Task Tracker Task Tracker region region region region MapTask Output Formar

16. Cliente Job Tracker Task Tracker map Input Formar combine() reduce() region region ram Task Tracker read sort reduce() Input Files split split split Output File Task Tracker Task Tracker region region region region MapTask Output Formar

17. Cliente Job Tracker Task Tracker map Input Formar combine() reduce() region region ram Task Tracker read sort reduce() Input Files split split split Output File Task Tracker Task Tracker region region region region MapTask Output Formar

18. Cliente Job Tracker Task Tracker map Input Formar combine() reduce() region region ram Task Tracker read sort reduce() Output Formar Input Files split split split Output File Task Tracker Task Tracker region region region region

19. Cliente Job Tracker Task Tracker map Input Formar combine() reduce() region region ram Task Tracker read sort reduce() Output Formar Input Files split split split Output File Task Tracker Task Tracker region region region region

20. Ejemplo

21. HDFS y MapReduce

22. Ecosistema Hadoop

23. Servicios profesionales

24. RDBMS y Hadoop

25. RDBMS y Hadoop

26. Data Warehousing con Hadoop

27. Data Warehousing con Hadoop

28. Hive

29. Gracias

Notas del editor

Presentarse
Problemas del procesamiento Big Data Se guardan grandes volúmenes de datos de distintos formatos que son generados a una alta velocidad. En específico Bases de datos distribuídas. programación funcional relacionada con el álgebra de monoide
Nutch es un proyecto open source de motor de búsqueda, problemas con escalabilidad en despliegue En el 2004 Google presenta si sistema de archivos distribuídos y la primera propuesta de programación mapReduce para la comunidad open source Estas tecnologías de Google son adoptadas por Nutch En 2006 se crea el proyecto open source Hadoop y se consolida en 2008 con la creación de su propio sistema de archivos distribuídos e implementación de MapReduce. Servicios profesionales y herramientas de gestión. Actualidad, ecosistema Hadoop
Características de software y proyecto. Escalable hasta
Supone que el hardware falla, redundancia, DataNodes send heartbeat to the NameNode – Once every 3 seconds para detectar fallos Altos volúmenes de datos , petabytes de información Correr en cualquier plataforma Sólo se puede añadir datos a los archivos ya existentes, no borrar. En el futuro no se podrán modificar los archivos Normalmente en 64MB ó 128MB Varias réplicas en diferentes DataNodes: normalmente 3 , Una vez el NameNode nos ha indicado donde están los datos el cliente accede directamente a los mismos • Use Checksums to validate data – Use CRC32 (comprobación de redundancia cíclica) • File Creation – Client computes checksum per 512 byte – DataNode stores the checksum • File access – Client retrieves the data and checksum from DataNode – If Validation fails, Client tries other replicas
Procesamien en paralelo y en tiempo real.
El cliente manda la configuración (el nombre de las funciones map y reduce), los directorios de entrada y salida y las clases java que se utilizarán para procesar los datos.
Le devuelve un JobID al Cliente. Y empieza a asignar tareas de tipo map a los TaskTrackers que se muestran disponibles (modelo pull). En función de proximidad de los datos: mismo nodo, mismo rack, mismo switch de red.
Extrae y divide el INPUT a partir de RecordReader e InputFormat.
Entonces se invoca la función MAP que emitirá conjuntos de tipo key/value.
En ocasiones en las fases de map() se puedne producir reducciones parciales así como ordenaciones parciales para favorecer el aprovechamiento de los buffers
Cuando varios tasktrackers han acabado sus fases de mapeo, el JobTracker empezará a asignar tareas reduce() (modelo pull de nuevo).
Cuando varios tasktrackers han acabado sus fases de mapeo, el JobTracker empezará a asignar tareas reduce() (modelo pull de nuevo).
Cuando todas las tareas de MAP se han completado el JobTracker les indicará a todos los TaskTrackers que procedan con la fase final de REDUCE.
Al final se escribirá en el HDFS los archivos de salida previo formateo
Word Count in SparkPython Se lee desde un fichero en el HDFS y se escribe hacia un fichero en el HDFS.
YARN es la última versión del MapReduce permite procesamiento batch, scriptings, SQL y no Sql, en streming, en memoria
Hive Data Warehouse que provee una interfaz SQL HBase base de datos orientada a columnas.
ZooKeeper Coordinacion de los cluster HBase, base de datos no-Sql y de consulta en tiempo real Hive orientado a batch, procesamiento tipo SQL Servicios profesionales y herramientas de gestión y administración : CloudEra y HortonWorks
Comparacion entre Sistemas de base de datos relacionales y Map-reduce propietario, open sourse caro, barato datos estructurados, datos no estructurados semántica relacional, soporte a semántica relacional de modo indirecto soporte indirecto a estructuras de datos complejos, soporte profundo a estructuras de datos complejos soporte a procesamiento transaccional. soporte a iteraciones
Formas de relacionar Hadoop y sistemas de gestión de bases de datos relacionales para poder utilizar herramientas de la inteligencia de negocio.
raw data exists in HDFS, es necesario ETL
Se pueden realizar distintas consultas y obtener varias vistas el procesamiento es en paralelo y los datos se encuentran distribuidos, pueden ser estructurado o no estructurados.
Hive permite definir tablas, datos estructurados realiza consultas SQL que se transforman en operaciones de tipo MapReduce consultar o obtener una vista de los hashtags que están el los tweets.

Data warehousing con hadoop y el paradigma map reduce

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Data warehousing con hadoop y el paradigma map reduce

Similar a Data warehousing con hadoop y el paradigma map reduce (20)

Último

Último (20)

Data warehousing con hadoop y el paradigma map reduce

Notas del editor