SlideShare una empresa de Scribd logo
1 de 35
Descargar para leer sin conexión
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Data	
  Analy6cs	
  con	
  Hadoop	
  
Data	
  
Analy6cs	
  
Data	
  
Value	
  
Data	
  
Ingest	
  
Agenda	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
	
  
–  ¿Qué	
  es	
  Hadoop?	
  
–  Técnicas	
  para	
  capturar	
  datos	
  
–  Análisis	
  de	
  datos	
  con	
  Hadoop	
  
–  Casos	
  prác6cos	
  
Myself	
  
Ø  Licenciado	
  en	
  CC.	
  Matemá6cas	
  e	
  Ingeniero	
  Técnico	
  en	
  
Informá6ca	
  de	
  Ges6ón.	
  
Ø  Empecé	
  a	
  trabajar	
  en	
  IT	
  hace	
  más	
  de	
  14	
  años.	
  
Ø  Actualmente	
  trabajo	
  en	
  el	
  área	
  de	
  arquitectura	
  de	
  una	
  
en6dad	
  financiera	
  como	
  Arquitecto	
  Big	
  Data	
  diseñando	
  
soluciones	
  en	
  entornos	
  Big	
  Data.	
  
Ø  Instructor	
  de	
  Hadoop.	
  
Ø  Soy	
  un	
  entusiasta	
  de	
  la	
  analí6ca	
  de	
  los	
  datos	
  en	
  con6nua	
  
formación	
  en	
  técnicas	
  de	
  Machine	
  Learning	
  y	
  Data	
  Mining.	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  hUps://www.linkedin.com/in/fcojavierlahoz	
  
	
  
What’s	
  that?	
  
Hadoop	
  es	
  un	
  sistema	
  de	
  código	
  abierto	
  que	
  se	
  u6liza	
  para	
  
almacenar,	
  procesar	
  y	
  explotar	
  grades	
  volúmenes	
  de	
  datos.	
  
Hadoop	
  se	
  inspiró	
  en	
  los	
  documentos	
  de	
  Google	
  para	
  
MapReduce	
  y	
  Google	
  File	
  System.	
  
Componentes:	
  
•  HDFS.	
  El	
  Hadoop	
  Distributed	
  File	
  System	
  es	
  un	
  sistema	
  de	
  
archivos	
  distribuido,	
  escalable	
  y	
  tolerante	
  a	
  fallos.	
  
•  MapReduce.	
  Paradigma	
  de	
  computación	
  paralela	
  donde	
  se	
  
distribuyen	
  las	
  tareas	
  para	
  su	
  procesamiento	
  unitario	
  (Map)	
  y	
  se	
  
agrupan	
  una	
  vez	
  procesados	
  (Reduce).	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Técnicas	
  para	
  capturar	
  datos	
  
Se	
  pueden	
  capturar	
  datos	
  de	
  dis6nta	
  6pología:	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Técnicas	
  para	
  capturar	
  datos	
  
Se	
  pueden	
  capturar	
  datos	
  de	
  dis6nta	
  6pología:	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Técnicas	
  para	
  capturar	
  datos	
  
Se	
  pueden	
  capturar	
  datos	
  de	
  dis6nta	
  6pología:	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Técnicas	
  para	
  capturar	
  datos	
  
Se	
  pueden	
  capturar	
  datos	
  de	
  dis6nta	
  6pología:	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Técnicas	
  para	
  capturar	
  datos	
  
Para	
  poder	
  ingestar	
  este	
  variedad	
  de	
  datos	
  
surge	
  la	
  necesidad	
  de	
  dis6ntas	
  herramientas:	
  
	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Técnicas	
  para	
  capturar	
  datos	
  
Para	
  poder	
  ingestar	
  este	
  variedad	
  de	
  datos	
  
surge	
  la	
  necesidad	
  de	
  dis6ntas	
  herramientas:	
  
•  Flume,	
  es	
  una	
  herramienta	
  distribuida,	
  
fiable	
  y	
  escalable	
  para	
  la	
  recolección,	
  
agregación	
  y	
  carga	
  de	
  grandes	
  can6dades	
  
de	
  datos.	
  
	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Técnicas	
  para	
  capturar	
  datos	
  
Para	
  poder	
  ingestar	
  este	
  variedad	
  de	
  datos	
  
surge	
  la	
  necesidad	
  de	
  dis6ntas	
  herramientas:	
  
•  Flume,	
  es	
  una	
  herramienta	
  distribuida,	
  
fiable	
  y	
  escalable	
  para	
  la	
  recolección,	
  
agregación	
  y	
  carga	
  de	
  grandes	
  can6dades	
  
de	
  datos.	
  
	
  
•  Sqoop,	
  está	
  diseñada	
  para	
  transferir	
  datos	
  
de	
  manera	
  eficiente	
  y	
  escalable	
  de	
  bases	
  
de	
  datos	
  relacionales	
  a	
  Hadoop.	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Técnicas	
  para	
  capturar	
  datos	
  -­‐	
  Flume	
  
Flume	
  6ene	
  una	
  arquitectura	
  simple	
  y	
  flexible	
  basada	
  en	
  el	
  
streaming	
  de	
  datos.	
  
Es	
  tolerante	
  a	
  fallos	
  y	
  escalable.	
  
Se	
  basa	
  en	
  una	
  configuración	
  descentralizada	
  basada	
  en	
  
ficheros	
  planos.	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
 
La	
  arquitectura	
  de	
  Flume	
  está	
  basada	
  en	
  agentes:	
  
	
  
	
  
	
  
	
  
Agente	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
Técnicas	
  para	
  capturar	
  datos	
  -­‐	
  Flume	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Source	
   Sink	
  
Channel	
  
Datos	
   Datos	
  
Técnicas	
  para	
  capturar	
  datos	
  -­‐	
  Sqoop	
  
Con	
  Sqoop	
  se	
  puede	
  importar	
  datos	
  de	
  bases	
  de	
  datos	
  
relacionales	
  a	
  HDFS,	
  Hive	
  o	
  HBase.	
  
Algunas	
  bases	
  de	
  datos	
  serían:	
  	
  
–  Oracle	
  
–  MySQL	
  
–  Teradata	
  
–  DB2	
  
–  ….	
  
También	
  se	
  pueden	
  exportar	
  ficheros	
  de	
  HDFS	
  a	
  bases	
  de	
  
datos	
  relacionales.	
  	
  
	
  
	
  
	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Técnicas	
  para	
  capturar	
  datos	
  -­‐	
  Sqoop	
  
Caracterís6cas	
  de	
  Sqoop:	
  
•  Sqoop	
  puede	
  importar	
  una	
  tabla	
  o	
  una	
  esquema	
  de	
  base	
  
de	
  datos.	
  
•  También	
  se	
  pueden	
  filtrar	
  los	
  datos	
  de	
  una	
  tabla,	
  por	
  
ejemplo,	
  para	
  cargar	
  incrementales	
  basados	
  en	
  una	
  
fecha	
  de	
  alta	
  o	
  modificación.	
  
•  Permite	
  proyectar	
  una	
  tabla	
  recuperando	
  sólo	
  los	
  
campos	
  requeridos.	
  
	
  
	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  
	
  
Cuando	
  ya	
  tenemos	
  datos	
  cargados	
  en	
  nuestro	
  Cluster	
  de	
  
Hadoop	
  existen	
  dis6ntas	
  herramientas	
  para	
  analizar	
  los	
  
datos	
  según	
  el	
  lenguaje	
  a	
  u6lizar.	
  
	
  
	
  
También	
  existen	
  herramientas	
  OpenSource	
  y	
  comerciales	
  
que,	
  mediante	
  workflows,	
  nos	
  permiten	
  procesar	
  y	
  
analizar	
  los	
  datos.	
  
	
   Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  
Existen	
  diversas	
  tecnologías	
  para	
  analizar	
  los	
  datos	
  según	
  
los	
  lenguajes	
  comentados	
  anteriormente.	
  Por	
  ejemplo:	
  
•  MapReduce,	
  framework	
  desarrollado	
  en	
  Java	
  para	
  
procesamiento	
  batch.	
  	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  
Existen	
  diversas	
  tecnologías	
  para	
  analizar	
  los	
  datos	
  según	
  
los	
  lenguajes	
  comentados	
  anteriormente.	
  Por	
  ejemplo:	
  
•  MapReduce,	
  framework	
  desarrollado	
  en	
  Java	
  para	
  
procesamiento	
  batch.	
  	
  
•  Spark,	
  para	
  procesamiento	
  paralelo	
  en	
  memoria.	
  Se	
  puede	
  
implementar	
  en	
  Scala,	
  Python	
  y	
  Java,	
  permi6endo	
  analizar	
  
datos	
  a	
  través	
  de	
  SparkSQL	
  y	
  SparkStreaming,	
  entre	
  otros.	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  
Existen	
  diversas	
  tecnologías	
  para	
  analizar	
  los	
  datos	
  según	
  
los	
  lenguajes	
  comentados	
  anteriormente.	
  Por	
  ejemplo:	
  
•  MapReduce,	
  framework	
  desarrollado	
  en	
  Java	
  para	
  
procesamiento	
  batch.	
  	
  
•  Spark,	
  para	
  procesamiento	
  paralelo	
  en	
  memoria.	
  Se	
  puede	
  
implementar	
  en	
  Scala,	
  Python	
  y	
  Java,	
  permi6endo	
  analizar	
  
datos	
  a	
  través	
  de	
  SparkSQL	
  y	
  SparkStreaming,	
  entre	
  otros.	
  
•  Hive,	
  abstraccion	
  por	
  encima	
  de	
  Hadoop	
  para	
  ejecutar	
  
procesos	
  MapReduce	
  mediante	
  un	
  interfaz	
  SQL.	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  
Existen	
  diversas	
  tecnologías	
  para	
  analizar	
  los	
  datos	
  según	
  
los	
  lenguajes	
  comentados	
  anteriormente.	
  Por	
  ejemplo:	
  
•  MapReduce,	
  framework	
  desarrollado	
  en	
  Java	
  para	
  
procesamiento	
  batch.	
  	
  
•  Spark,	
  para	
  procesamiento	
  paralelo	
  en	
  memoria.	
  Se	
  puede	
  
implementar	
  en	
  Scala,	
  Python	
  y	
  Java,	
  permi6endo	
  analizar	
  
datos	
  a	
  través	
  de	
  SparkSQL	
  y	
  SparkStreaming,	
  entre	
  otros.	
  
•  Hive,	
  abstraccion	
  por	
  encima	
  de	
  Hadoop	
  para	
  ejecutar	
  
procesos	
  MapReduce	
  mediante	
  un	
  interfaz	
  SQL.	
  
•  Pig,	
  lenguaje	
  de	
  alto	
  nivel	
  para	
  el	
  procesamiento	
  de	
  
procesos	
  MapReduce	
  mediante	
  flujos	
  de	
  datos.	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  -­‐	
  Hive	
  
Hive	
  es	
  un	
  sistema	
  de	
  almacen	
  de	
  datos	
  (data	
  
warehouse)	
  capaz	
  de	
  seleccionar	
  y	
  ges6onar	
  grandes	
  
conjuntos	
  de	
  datos	
  almacenados	
  en	
  HDFS.	
  
	
  
Se	
  implementa	
  en	
  SQL	
  (HiveQL).	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
  
	
   Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  -­‐	
  Hive	
  
Hive	
  es	
  un	
  sistema	
  de	
  almacen	
  de	
  datos	
  (data	
  
warehouse)	
  capaz	
  de	
  seleccionar	
  y	
  ges6onar	
  grandes	
  
conjuntos	
  de	
  datos	
  almacenados	
  en	
  HDFS.	
  
	
  
Se	
  implementa	
  en	
  SQL	
  (HiveQL).	
  
	
  
Hive	
  NO	
  es	
  una	
  base	
  de	
  datos	
  y	
  usa	
  los	
  recursos	
  de	
  
Hadoop	
  para	
  almacenar	
  y	
  procesar.	
  
Sólo	
  implementa	
  un	
  subconjunto	
  del	
  estandard	
  SQL.	
  
	
  
Tiene	
  latencias	
  grandes	
  (por	
  el	
  uso	
  de	
  MapReduce).	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  -­‐	
  Hive	
  
Casos	
  de	
  Uso:	
  
	
  
•  Almacenamiento	
  histórico	
  ges6onado	
  con	
  
par6ciones,	
  por	
  ejemplo	
  con	
  fecha	
  (año,	
  mes,	
  día).	
  
•  Para	
  repor6ng	
  tradicional	
  o	
  avanzado	
  a	
  través	
  de	
  
herramientas	
  de	
  BI.	
  
•  Para	
  analí6ca	
  avanzada	
  mediante	
  paquetes	
  
estadís6cos,	
  como	
  por	
  ejemplo,	
  R.	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  -­‐	
  Hive	
  
Arquitectura	
  de	
  Hive:	
  
	
  
•  Hive	
  usa	
  un	
  schema	
  “on	
  read”	
  lo	
  que	
  implica	
  que	
  no	
  
se	
  validan	
  los	
  datos	
  cuando	
  se	
  cargan	
  o	
  se	
  insertan	
  y	
  
pueden	
  no	
  ser	
  correctos	
  cuando	
  se	
  consultan	
  
devolviendo	
  valores	
  NULL.	
  
•  Los	
  datos	
  se	
  almacenan	
  en	
  ficheros	
  dentro	
  del	
  HDFS	
  
en	
  el	
  siguiente	
  path	
  (por	
  defecto):	
  
	
  	
  	
  	
  /user/hive/warehouse/<db_name>.db/<db_table>/	
  
	
  
	
   Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  -­‐	
  Hive	
  
•  Los	
  metadatos	
  (estructuras)	
  se	
  almacenan	
  en	
  el	
  
Metastore	
  que	
  está	
  compuesto	
  por	
  un	
  servicio	
  y	
  un	
  
repositorio.	
  Hay	
  varios	
  6pos	
  de	
  metastore:	
  
–  Metastore	
  embebido	
  
–  Metastore	
  local	
  
–  Metastore	
  remoto:	
  
	
  
	
  
	
  
	
  
	
  
	
   Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Metastore	
   MySQL	
  
Hive	
  Cli	
  
BI	
  Tools	
   HiveServer2	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  -­‐	
  Pig	
  
Pig	
  es	
  una	
  plataforma	
  para	
  el	
  análisis	
  de	
  grandes	
  
conjuntos	
  de	
  datos	
  que	
  consiste	
  en	
  un	
  lenguaje	
  de	
  alto	
  
nivel	
  para	
  expresar	
  programas	
  de	
  análisis	
  de	
  datos.	
  
En	
  Pig	
  se	
  procesa	
  la	
  información	
  como	
  un	
  flujo	
  de	
  
datos	
  encadenando	
  las	
  salidas	
  y	
  entradas	
  de	
  las	
  
operaciones.	
  
Las	
  operaciones	
  realizadas	
  en	
  Pig	
  se	
  transforman	
  en	
  
procesos	
  MapReduce	
  que	
  se	
  ejecutan	
  sobre	
  el	
  Cluster.	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  -­‐	
  Pig	
  
Arquitectura	
  de	
  Pig:	
  
	
  
Pig	
  es	
  una	
  capa	
  que	
  está	
  
por	
  encima	
  de	
  Hadoop.	
  Los	
  
flujos	
  de	
  datos	
  se	
  
procesarán	
  con	
  MapReduce	
  
leyendo	
  y	
  escribiendo	
  en	
  
HDFS	
  u	
  otras	
  fuentes	
  
(MongoDB,	
  Cassandra,	
  
HBase)	
  
	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Pig	
  
Scrip6ng	
  
MapReduce	
  
HDFS	
  
	
  
	
  
	
  
	
  
	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  -­‐	
  Pig	
  
Flujo	
  de	
  ejecución	
  con	
  Pig:	
  
	
   	
   	
   	
  	
  Operaciones	
  Relacionales	
  
	
  	
  
	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Datos	
   Datos	
  
Load	
  
Data	
  
Transform	
  
Data	
  
Store	
  
Data	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  -­‐	
  Pig	
  
Flujo	
  de	
  ejecución	
  con	
  Pig:	
  
	
   	
   	
   	
  	
  Operaciones	
  Relacionales	
  
	
  	
  
	
  
A	
  =	
  load	
  ‘test.csv’	
  using	
  PigStorage(‘,’);	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Datos	
   Datos	
  
Load	
  
Data	
  
Transform	
  
Data	
  
Store	
  
Data	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  -­‐	
  Pig	
  
Flujo	
  de	
  ejecución	
  con	
  Pig:	
  
	
   	
   	
   	
  	
  Operaciones	
  Relacionales	
  
	
  	
  
	
  
A	
  =	
  load	
  ‘test.csv’	
  using	
  PigStorage(‘,’);	
  
	
   	
   	
   	
  	
  	
  	
  	
  B	
  =	
  foreach	
  A	
  generate	
  $0	
  as	
  id;	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Datos	
   Datos	
  
Load	
  
Data	
  
Transform	
  
Data	
  
Store	
  
Data	
  
Análisis	
  de	
  datos	
  con	
  Hadoop	
  -­‐	
  Pig	
  
Flujo	
  de	
  ejecución	
  con	
  Pig:	
  
	
   	
   	
   	
  	
  Operaciones	
  Relacionales	
  
	
  	
  
	
  
A	
  =	
  load	
  ‘test.csv’	
  using	
  PigStorage(‘,’);	
  
	
   	
   	
   	
  	
  	
  	
  	
  B	
  =	
  foreach	
  A	
  generate	
  $0	
  as	
  id;	
  
	
   	
   	
   	
   	
   	
   	
   	
   	
  	
  	
  	
  	
  	
  store	
  B	
  into	
  ‘result.csv’ 	
  	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Datos	
   Datos	
  
Load	
  
Data	
  
Transform	
  
Data	
  
Store	
  
Data	
  
Casos	
  prác6cos	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Ø Análisis	
  de	
  Tweets	
  con	
  Hive	
  
Ø Procesamiento	
  de	
  datos	
  mediante	
  Pig	
  
	
  
	
  
	
  
	
  
¿Ganas	
  de	
  más?	
  
Ø Cursos	
  online	
  en	
  la	
  plataforma	
  
SoyData.net	
  (BigData4Success):	
  
	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
ü Introducción	
  a	
  Hadoop	
  e	
  instalación	
  en	
  AWS	
  
ü Inges6ón	
  y	
  análisis	
  de	
  datos	
  con	
  casos	
  prác6cos	
  
desplegados	
  en	
  AWS	
  
	
  Cupón	
  de	
  promoción:	
  PROMOLANZAMIENTO	
  
	
  
	
  
Q	
  &	
  A	
  
	
  
Thank	
  you	
  for	
  your	
  
aUen6on!!	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Fco.	
  Javier	
  Lahoz	
  Sevilla	
  
Data	
  Analy6cs	
  con	
  Hadoop	
  
Data	
  
Analy6cs	
  
Data	
  
Value	
  
Data	
  
Ingest	
  

Más contenido relacionado

La actualidad más candente

Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Guillermo Alvarado Mejía
 
Big data con Hadoop y SSIS 2016
Big data con Hadoop y SSIS 2016Big data con Hadoop y SSIS 2016
Big data con Hadoop y SSIS 2016Ángel Rayo
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?Socialmetrix
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
 
Estudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveEstudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveWellness Telecom
 
Introduccion a Apache Spark
Introduccion a Apache SparkIntroduccion a Apache Spark
Introduccion a Apache SparkGustavo Arjones
 
Meetup Spark y la Combinación de sus Distintos Módulos
Meetup Spark y la Combinación de sus Distintos MódulosMeetup Spark y la Combinación de sus Distintos Módulos
Meetup Spark y la Combinación de sus Distintos MódulosJorge Lopez-Malla
 
Tutorial en Apache Spark - Clasificando tweets en realtime
Tutorial en Apache Spark - Clasificando tweets en realtimeTutorial en Apache Spark - Clasificando tweets en realtime
Tutorial en Apache Spark - Clasificando tweets en realtimeSocialmetrix
 

La actualidad más candente (20)

Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack Big data para desarrolladores utilizando hadoop y openstack
Big data para desarrolladores utilizando hadoop y openstack
 
OpenAnalytics Madrid 2014: Spark
OpenAnalytics Madrid 2014: SparkOpenAnalytics Madrid 2014: Spark
OpenAnalytics Madrid 2014: Spark
 
HDFS
HDFSHDFS
HDFS
 
Introducción a Hadoop
Introducción a HadoopIntroducción a Hadoop
Introducción a Hadoop
 
Hadoop
HadoopHadoop
Hadoop
 
Big data con Hadoop y SSIS 2016
Big data con Hadoop y SSIS 2016Big data con Hadoop y SSIS 2016
Big data con Hadoop y SSIS 2016
 
Hadoop en accion
Hadoop en accionHadoop en accion
Hadoop en accion
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu Empresa
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Hadoop
HadoopHadoop
Hadoop
 
Presentacion
PresentacionPresentacion
Presentacion
 
MapReduce en Hadoop
MapReduce en HadoopMapReduce en Hadoop
MapReduce en Hadoop
 
¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?¿Por que cambiar de Apache Hadoop a Apache Spark?
¿Por que cambiar de Apache Hadoop a Apache Spark?
 
BigData y MapReduce
BigData y MapReduceBigData y MapReduce
BigData y MapReduce
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión I
 
Estudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y HiveEstudio sobre Spark, Storm, Kafka y Hive
Estudio sobre Spark, Storm, Kafka y Hive
 
Introduccion a Apache Spark
Introduccion a Apache SparkIntroduccion a Apache Spark
Introduccion a Apache Spark
 
Taller hadoop
Taller hadoopTaller hadoop
Taller hadoop
 
Meetup Spark y la Combinación de sus Distintos Módulos
Meetup Spark y la Combinación de sus Distintos MódulosMeetup Spark y la Combinación de sus Distintos Módulos
Meetup Spark y la Combinación de sus Distintos Módulos
 
Tutorial en Apache Spark - Clasificando tweets en realtime
Tutorial en Apache Spark - Clasificando tweets en realtimeTutorial en Apache Spark - Clasificando tweets en realtime
Tutorial en Apache Spark - Clasificando tweets en realtime
 

Destacado

Practical Problem Solving with Apache Hadoop & Pig
Practical Problem Solving with Apache Hadoop & PigPractical Problem Solving with Apache Hadoop & Pig
Practical Problem Solving with Apache Hadoop & PigMilind Bhandarkar
 
HIVE: Data Warehousing & Analytics on Hadoop
HIVE: Data Warehousing & Analytics on HadoopHIVE: Data Warehousing & Analytics on Hadoop
HIVE: Data Warehousing & Analytics on HadoopZheng Shao
 
Hadoop, Pig, and Twitter (NoSQL East 2009)
Hadoop, Pig, and Twitter (NoSQL East 2009)Hadoop, Pig, and Twitter (NoSQL East 2009)
Hadoop, Pig, and Twitter (NoSQL East 2009)Kevin Weil
 
Guia de mediciones lunes 12.
Guia de mediciones lunes 12.Guia de mediciones lunes 12.
Guia de mediciones lunes 12.lorena1965
 
La france et son système éducatif
La france et son système éducatifLa france et son système éducatif
La france et son système éducatifshzahedi
 
Documentary questionnaire
Documentary questionnaireDocumentary questionnaire
Documentary questionnaireFelanQuirke
 
La représentation par la pensée visuelle
La représentation par la pensée visuelleLa représentation par la pensée visuelle
La représentation par la pensée visuelleNathalie Bachelier
 
Dé'télé - semaine du 24 au 30 janvier
Dé'télé  - semaine du 24 au 30 janvierDé'télé  - semaine du 24 au 30 janvier
Dé'télé - semaine du 24 au 30 janvierJoris Laquittant
 
Présentation du rythme de scolarité DECLIC à IFC
Présentation du rythme de scolarité DECLIC à IFCPrésentation du rythme de scolarité DECLIC à IFC
Présentation du rythme de scolarité DECLIC à IFCJulien PANSIER
 
Bilan des 6 derniers mois de la situation sécuritaire.
Bilan des 6 derniers mois de la situation sécuritaire.Bilan des 6 derniers mois de la situation sécuritaire.
Bilan des 6 derniers mois de la situation sécuritaire.laurentlamothe
 

Destacado (20)

Practical Problem Solving with Apache Hadoop & Pig
Practical Problem Solving with Apache Hadoop & PigPractical Problem Solving with Apache Hadoop & Pig
Practical Problem Solving with Apache Hadoop & Pig
 
HIVE: Data Warehousing & Analytics on Hadoop
HIVE: Data Warehousing & Analytics on HadoopHIVE: Data Warehousing & Analytics on Hadoop
HIVE: Data Warehousing & Analytics on Hadoop
 
Hadoop, Pig, and Twitter (NoSQL East 2009)
Hadoop, Pig, and Twitter (NoSQL East 2009)Hadoop, Pig, and Twitter (NoSQL East 2009)
Hadoop, Pig, and Twitter (NoSQL East 2009)
 
Internet
InternetInternet
Internet
 
Guia de mediciones lunes 12.
Guia de mediciones lunes 12.Guia de mediciones lunes 12.
Guia de mediciones lunes 12.
 
Revista Digital
Revista DigitalRevista Digital
Revista Digital
 
La france et son système éducatif
La france et son système éducatifLa france et son système éducatif
La france et son système éducatif
 
Joaquin antuna bernardo
Joaquin antuna bernardoJoaquin antuna bernardo
Joaquin antuna bernardo
 
Documentary questionnaire
Documentary questionnaireDocumentary questionnaire
Documentary questionnaire
 
Practica06 2008 2009
Practica06 2008 2009Practica06 2008 2009
Practica06 2008 2009
 
Macroeconomía clase 1 (1)
Macroeconomía clase 1 (1)Macroeconomía clase 1 (1)
Macroeconomía clase 1 (1)
 
Sodium Lauryl Ether
Sodium Lauryl EtherSodium Lauryl Ether
Sodium Lauryl Ether
 
La représentation par la pensée visuelle
La représentation par la pensée visuelleLa représentation par la pensée visuelle
La représentation par la pensée visuelle
 
Biología
BiologíaBiología
Biología
 
Dé'télé - semaine du 24 au 30 janvier
Dé'télé  - semaine du 24 au 30 janvierDé'télé  - semaine du 24 au 30 janvier
Dé'télé - semaine du 24 au 30 janvier
 
Présentation du rythme de scolarité DECLIC à IFC
Présentation du rythme de scolarité DECLIC à IFCPrésentation du rythme de scolarité DECLIC à IFC
Présentation du rythme de scolarité DECLIC à IFC
 
Projet associatif
Projet associatifProjet associatif
Projet associatif
 
Tic power
Tic powerTic power
Tic power
 
El futbol
El futbolEl futbol
El futbol
 
Bilan des 6 derniers mois de la situation sécuritaire.
Bilan des 6 derniers mois de la situation sécuritaire.Bilan des 6 derniers mois de la situation sécuritaire.
Bilan des 6 derniers mois de la situation sécuritaire.
 

Similar a Open analytics. data analytics con hadoop

Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataSpanishPASSVC
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQSolidQ
 
Como de grandes son tus datos
Como de grandes son tus datosComo de grandes son tus datos
Como de grandes son tus datosAntonio Rodriguez
 
Polybase
PolybasePolybase
PolybaseSolidQ
 
SolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big datamateo luquez
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdfAntonioSotoRodriguez1
 
Herramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkHerramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkJose Manuel Ortega Candel
 
An evening with... Apache hadoop Meetup
An evening with...  Apache hadoop MeetupAn evening with...  Apache hadoop Meetup
An evening with... Apache hadoop MeetupArkhotech
 
Ensayo 2 (1).pptx
Ensayo 2 (1).pptxEnsayo 2 (1).pptx
Ensayo 2 (1).pptxClikC
 
SGBD-TECNOLOGIA DE APLICACIONES WEB
SGBD-TECNOLOGIA DE APLICACIONES WEBSGBD-TECNOLOGIA DE APLICACIONES WEB
SGBD-TECNOLOGIA DE APLICACIONES WEBkattia vargas
 
Log -Analytics con Apache-Flume Elasticsearch HDFS Kibana
 Log -Analytics con Apache-Flume  Elasticsearch HDFS Kibana Log -Analytics con Apache-Flume  Elasticsearch HDFS Kibana
Log -Analytics con Apache-Flume Elasticsearch HDFS KibanaFelix Rodriguez
 
Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume  Elasticsearch HDFS KibanaLog -Analytics with Apache-Flume  Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume Elasticsearch HDFS KibanaFelix Rodriguez
 
Azure Spark - Big Data - Coresic 2016
Azure Spark - Big Data - Coresic 2016Azure Spark - Big Data - Coresic 2016
Azure Spark - Big Data - Coresic 2016nnakasone
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesJuan José Domenech
 

Similar a Open analytics. data analytics con hadoop (20)

Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big data
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
 
Como de grandes son tus datos
Como de grandes son tus datosComo de grandes son tus datos
Como de grandes son tus datos
 
Polybase
PolybasePolybase
Polybase
 
SolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datos
 
Big Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open SourceBig Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open Source
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Big data2
Big data2Big data2
Big data2
 
01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf
 
Herramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a SparkHerramientas para computación distribuida. De Hadoop a Spark
Herramientas para computación distribuida. De Hadoop a Spark
 
An evening with... Apache hadoop Meetup
An evening with...  Apache hadoop MeetupAn evening with...  Apache hadoop Meetup
An evening with... Apache hadoop Meetup
 
Ensayo 2 (1).pptx
Ensayo 2 (1).pptxEnsayo 2 (1).pptx
Ensayo 2 (1).pptx
 
SGBD-TECNOLOGIA DE APLICACIONES WEB
SGBD-TECNOLOGIA DE APLICACIONES WEBSGBD-TECNOLOGIA DE APLICACIONES WEB
SGBD-TECNOLOGIA DE APLICACIONES WEB
 
Log -Analytics con Apache-Flume Elasticsearch HDFS Kibana
 Log -Analytics con Apache-Flume  Elasticsearch HDFS Kibana Log -Analytics con Apache-Flume  Elasticsearch HDFS Kibana
Log -Analytics con Apache-Flume Elasticsearch HDFS Kibana
 
Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume  Elasticsearch HDFS KibanaLog -Analytics with Apache-Flume  Elasticsearch HDFS Kibana
Log -Analytics with Apache-Flume Elasticsearch HDFS Kibana
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
 
Azure Spark - Big Data - Coresic 2016
Azure Spark - Big Data - Coresic 2016Azure Spark - Big Data - Coresic 2016
Azure Spark - Big Data - Coresic 2016
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
Sgbd y tecnologias usadas por aplicaciones web 2
Sgbd y tecnologias usadas por aplicaciones web 2Sgbd y tecnologias usadas por aplicaciones web 2
Sgbd y tecnologias usadas por aplicaciones web 2
 

Último

REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfIrapuatoCmovamos
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptxSergiothaine2
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria deCalet Cáceres Vergara
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docxmarthaarroyo16
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfEDUARDO MAMANI MAMANI
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitariachayananazcosimeon
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresamerca6
 
CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...jhoecabanillas12
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)estebancitoherrera
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicaciónJonathanAntonioMaldo
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfIrapuatoCmovamos
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,juberrodasflores
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechojuliosabino1
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptxccordovato
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfGEINER22
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfluisccollana
 

Último (17)

REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptx
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria de
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresa
 
CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...CAPACITACION_higiene_industrial (1).ppt...
CAPACITACION_higiene_industrial (1).ppt...
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicación
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derecho
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdf
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
 

Open analytics. data analytics con hadoop

  • 1. Fco.  Javier  Lahoz  Sevilla   Data  Analy6cs  con  Hadoop   Data   Analy6cs   Data   Value   Data   Ingest  
  • 2. Agenda   Fco.  Javier  Lahoz  Sevilla     –  ¿Qué  es  Hadoop?   –  Técnicas  para  capturar  datos   –  Análisis  de  datos  con  Hadoop   –  Casos  prác6cos  
  • 3. Myself   Ø  Licenciado  en  CC.  Matemá6cas  e  Ingeniero  Técnico  en   Informá6ca  de  Ges6ón.   Ø  Empecé  a  trabajar  en  IT  hace  más  de  14  años.   Ø  Actualmente  trabajo  en  el  área  de  arquitectura  de  una   en6dad  financiera  como  Arquitecto  Big  Data  diseñando   soluciones  en  entornos  Big  Data.   Ø  Instructor  de  Hadoop.   Ø  Soy  un  entusiasta  de  la  analí6ca  de  los  datos  en  con6nua   formación  en  técnicas  de  Machine  Learning  y  Data  Mining.     Fco.  Javier  Lahoz  Sevilla  hUps://www.linkedin.com/in/fcojavierlahoz    
  • 4. What’s  that?   Hadoop  es  un  sistema  de  código  abierto  que  se  u6liza  para   almacenar,  procesar  y  explotar  grades  volúmenes  de  datos.   Hadoop  se  inspiró  en  los  documentos  de  Google  para   MapReduce  y  Google  File  System.   Componentes:   •  HDFS.  El  Hadoop  Distributed  File  System  es  un  sistema  de   archivos  distribuido,  escalable  y  tolerante  a  fallos.   •  MapReduce.  Paradigma  de  computación  paralela  donde  se   distribuyen  las  tareas  para  su  procesamiento  unitario  (Map)  y  se   agrupan  una  vez  procesados  (Reduce).     Fco.  Javier  Lahoz  Sevilla  
  • 5. Técnicas  para  capturar  datos   Se  pueden  capturar  datos  de  dis6nta  6pología:     Fco.  Javier  Lahoz  Sevilla  
  • 6. Técnicas  para  capturar  datos   Se  pueden  capturar  datos  de  dis6nta  6pología:     Fco.  Javier  Lahoz  Sevilla  
  • 7. Técnicas  para  capturar  datos   Se  pueden  capturar  datos  de  dis6nta  6pología:     Fco.  Javier  Lahoz  Sevilla  
  • 8. Técnicas  para  capturar  datos   Se  pueden  capturar  datos  de  dis6nta  6pología:     Fco.  Javier  Lahoz  Sevilla  
  • 9. Técnicas  para  capturar  datos   Para  poder  ingestar  este  variedad  de  datos   surge  la  necesidad  de  dis6ntas  herramientas:       Fco.  Javier  Lahoz  Sevilla  
  • 10. Técnicas  para  capturar  datos   Para  poder  ingestar  este  variedad  de  datos   surge  la  necesidad  de  dis6ntas  herramientas:   •  Flume,  es  una  herramienta  distribuida,   fiable  y  escalable  para  la  recolección,   agregación  y  carga  de  grandes  can6dades   de  datos.       Fco.  Javier  Lahoz  Sevilla  
  • 11. Técnicas  para  capturar  datos   Para  poder  ingestar  este  variedad  de  datos   surge  la  necesidad  de  dis6ntas  herramientas:   •  Flume,  es  una  herramienta  distribuida,   fiable  y  escalable  para  la  recolección,   agregación  y  carga  de  grandes  can6dades   de  datos.     •  Sqoop,  está  diseñada  para  transferir  datos   de  manera  eficiente  y  escalable  de  bases   de  datos  relacionales  a  Hadoop.   Fco.  Javier  Lahoz  Sevilla  
  • 12. Técnicas  para  capturar  datos  -­‐  Flume   Flume  6ene  una  arquitectura  simple  y  flexible  basada  en  el   streaming  de  datos.   Es  tolerante  a  fallos  y  escalable.   Se  basa  en  una  configuración  descentralizada  basada  en   ficheros  planos.     Fco.  Javier  Lahoz  Sevilla  
  • 13.   La  arquitectura  de  Flume  está  basada  en  agentes:           Agente                       Técnicas  para  capturar  datos  -­‐  Flume   Fco.  Javier  Lahoz  Sevilla   Source   Sink   Channel   Datos   Datos  
  • 14. Técnicas  para  capturar  datos  -­‐  Sqoop   Con  Sqoop  se  puede  importar  datos  de  bases  de  datos   relacionales  a  HDFS,  Hive  o  HBase.   Algunas  bases  de  datos  serían:     –  Oracle   –  MySQL   –  Teradata   –  DB2   –  ….   También  se  pueden  exportar  ficheros  de  HDFS  a  bases  de   datos  relacionales.             Fco.  Javier  Lahoz  Sevilla  
  • 15. Técnicas  para  capturar  datos  -­‐  Sqoop   Caracterís6cas  de  Sqoop:   •  Sqoop  puede  importar  una  tabla  o  una  esquema  de  base   de  datos.   •  También  se  pueden  filtrar  los  datos  de  una  tabla,  por   ejemplo,  para  cargar  incrementales  basados  en  una   fecha  de  alta  o  modificación.   •  Permite  proyectar  una  tabla  recuperando  sólo  los   campos  requeridos.         Fco.  Javier  Lahoz  Sevilla  
  • 16. Análisis  de  datos  con  Hadoop     Cuando  ya  tenemos  datos  cargados  en  nuestro  Cluster  de   Hadoop  existen  dis6ntas  herramientas  para  analizar  los   datos  según  el  lenguaje  a  u6lizar.       También  existen  herramientas  OpenSource  y  comerciales   que,  mediante  workflows,  nos  permiten  procesar  y   analizar  los  datos.     Fco.  Javier  Lahoz  Sevilla  
  • 17. Análisis  de  datos  con  Hadoop   Existen  diversas  tecnologías  para  analizar  los  datos  según   los  lenguajes  comentados  anteriormente.  Por  ejemplo:   •  MapReduce,  framework  desarrollado  en  Java  para   procesamiento  batch.       Fco.  Javier  Lahoz  Sevilla  
  • 18. Análisis  de  datos  con  Hadoop   Existen  diversas  tecnologías  para  analizar  los  datos  según   los  lenguajes  comentados  anteriormente.  Por  ejemplo:   •  MapReduce,  framework  desarrollado  en  Java  para   procesamiento  batch.     •  Spark,  para  procesamiento  paralelo  en  memoria.  Se  puede   implementar  en  Scala,  Python  y  Java,  permi6endo  analizar   datos  a  través  de  SparkSQL  y  SparkStreaming,  entre  otros.   Fco.  Javier  Lahoz  Sevilla  
  • 19. Análisis  de  datos  con  Hadoop   Existen  diversas  tecnologías  para  analizar  los  datos  según   los  lenguajes  comentados  anteriormente.  Por  ejemplo:   •  MapReduce,  framework  desarrollado  en  Java  para   procesamiento  batch.     •  Spark,  para  procesamiento  paralelo  en  memoria.  Se  puede   implementar  en  Scala,  Python  y  Java,  permi6endo  analizar   datos  a  través  de  SparkSQL  y  SparkStreaming,  entre  otros.   •  Hive,  abstraccion  por  encima  de  Hadoop  para  ejecutar   procesos  MapReduce  mediante  un  interfaz  SQL.   Fco.  Javier  Lahoz  Sevilla  
  • 20. Análisis  de  datos  con  Hadoop   Existen  diversas  tecnologías  para  analizar  los  datos  según   los  lenguajes  comentados  anteriormente.  Por  ejemplo:   •  MapReduce,  framework  desarrollado  en  Java  para   procesamiento  batch.     •  Spark,  para  procesamiento  paralelo  en  memoria.  Se  puede   implementar  en  Scala,  Python  y  Java,  permi6endo  analizar   datos  a  través  de  SparkSQL  y  SparkStreaming,  entre  otros.   •  Hive,  abstraccion  por  encima  de  Hadoop  para  ejecutar   procesos  MapReduce  mediante  un  interfaz  SQL.   •  Pig,  lenguaje  de  alto  nivel  para  el  procesamiento  de   procesos  MapReduce  mediante  flujos  de  datos.   Fco.  Javier  Lahoz  Sevilla  
  • 21. Análisis  de  datos  con  Hadoop  -­‐  Hive   Hive  es  un  sistema  de  almacen  de  datos  (data   warehouse)  capaz  de  seleccionar  y  ges6onar  grandes   conjuntos  de  datos  almacenados  en  HDFS.     Se  implementa  en  SQL  (HiveQL).                     Fco.  Javier  Lahoz  Sevilla  
  • 22. Análisis  de  datos  con  Hadoop  -­‐  Hive   Hive  es  un  sistema  de  almacen  de  datos  (data   warehouse)  capaz  de  seleccionar  y  ges6onar  grandes   conjuntos  de  datos  almacenados  en  HDFS.     Se  implementa  en  SQL  (HiveQL).     Hive  NO  es  una  base  de  datos  y  usa  los  recursos  de   Hadoop  para  almacenar  y  procesar.   Sólo  implementa  un  subconjunto  del  estandard  SQL.     Tiene  latencias  grandes  (por  el  uso  de  MapReduce).     Fco.  Javier  Lahoz  Sevilla  
  • 23. Análisis  de  datos  con  Hadoop  -­‐  Hive   Casos  de  Uso:     •  Almacenamiento  histórico  ges6onado  con   par6ciones,  por  ejemplo  con  fecha  (año,  mes,  día).   •  Para  repor6ng  tradicional  o  avanzado  a  través  de   herramientas  de  BI.   •  Para  analí6ca  avanzada  mediante  paquetes   estadís6cos,  como  por  ejemplo,  R.   Fco.  Javier  Lahoz  Sevilla  
  • 24. Análisis  de  datos  con  Hadoop  -­‐  Hive   Arquitectura  de  Hive:     •  Hive  usa  un  schema  “on  read”  lo  que  implica  que  no   se  validan  los  datos  cuando  se  cargan  o  se  insertan  y   pueden  no  ser  correctos  cuando  se  consultan   devolviendo  valores  NULL.   •  Los  datos  se  almacenan  en  ficheros  dentro  del  HDFS   en  el  siguiente  path  (por  defecto):          /user/hive/warehouse/<db_name>.db/<db_table>/       Fco.  Javier  Lahoz  Sevilla  
  • 25. Análisis  de  datos  con  Hadoop  -­‐  Hive   •  Los  metadatos  (estructuras)  se  almacenan  en  el   Metastore  que  está  compuesto  por  un  servicio  y  un   repositorio.  Hay  varios  6pos  de  metastore:   –  Metastore  embebido   –  Metastore  local   –  Metastore  remoto:               Fco.  Javier  Lahoz  Sevilla   Metastore   MySQL   Hive  Cli   BI  Tools   HiveServer2  
  • 26. Análisis  de  datos  con  Hadoop  -­‐  Pig   Pig  es  una  plataforma  para  el  análisis  de  grandes   conjuntos  de  datos  que  consiste  en  un  lenguaje  de  alto   nivel  para  expresar  programas  de  análisis  de  datos.   En  Pig  se  procesa  la  información  como  un  flujo  de   datos  encadenando  las  salidas  y  entradas  de  las   operaciones.   Las  operaciones  realizadas  en  Pig  se  transforman  en   procesos  MapReduce  que  se  ejecutan  sobre  el  Cluster.   Fco.  Javier  Lahoz  Sevilla  
  • 27. Análisis  de  datos  con  Hadoop  -­‐  Pig   Arquitectura  de  Pig:     Pig  es  una  capa  que  está   por  encima  de  Hadoop.  Los   flujos  de  datos  se   procesarán  con  MapReduce   leyendo  y  escribiendo  en   HDFS  u  otras  fuentes   (MongoDB,  Cassandra,   HBase)       Fco.  Javier  Lahoz  Sevilla   Pig   Scrip6ng   MapReduce   HDFS            
  • 28. Análisis  de  datos  con  Hadoop  -­‐  Pig   Flujo  de  ejecución  con  Pig:            Operaciones  Relacionales           Fco.  Javier  Lahoz  Sevilla   Datos   Datos   Load   Data   Transform   Data   Store   Data  
  • 29. Análisis  de  datos  con  Hadoop  -­‐  Pig   Flujo  de  ejecución  con  Pig:            Operaciones  Relacionales         A  =  load  ‘test.csv’  using  PigStorage(‘,’);     Fco.  Javier  Lahoz  Sevilla   Datos   Datos   Load   Data   Transform   Data   Store   Data  
  • 30. Análisis  de  datos  con  Hadoop  -­‐  Pig   Flujo  de  ejecución  con  Pig:            Operaciones  Relacionales         A  =  load  ‘test.csv’  using  PigStorage(‘,’);                  B  =  foreach  A  generate  $0  as  id;     Fco.  Javier  Lahoz  Sevilla   Datos   Datos   Load   Data   Transform   Data   Store   Data  
  • 31. Análisis  de  datos  con  Hadoop  -­‐  Pig   Flujo  de  ejecución  con  Pig:            Operaciones  Relacionales         A  =  load  ‘test.csv’  using  PigStorage(‘,’);                  B  =  foreach  A  generate  $0  as  id;                              store  B  into  ‘result.csv’       Fco.  Javier  Lahoz  Sevilla   Datos   Datos   Load   Data   Transform   Data   Store   Data  
  • 32. Casos  prác6cos   Fco.  Javier  Lahoz  Sevilla   Ø Análisis  de  Tweets  con  Hive   Ø Procesamiento  de  datos  mediante  Pig          
  • 33. ¿Ganas  de  más?   Ø Cursos  online  en  la  plataforma   SoyData.net  (BigData4Success):     Fco.  Javier  Lahoz  Sevilla   ü Introducción  a  Hadoop  e  instalación  en  AWS   ü Inges6ón  y  análisis  de  datos  con  casos  prác6cos   desplegados  en  AWS    Cupón  de  promoción:  PROMOLANZAMIENTO      
  • 34. Q  &  A     Thank  you  for  your   aUen6on!!   Fco.  Javier  Lahoz  Sevilla  
  • 35. Fco.  Javier  Lahoz  Sevilla   Data  Analy6cs  con  Hadoop   Data   Analy6cs   Data   Value   Data   Ingest