SlideShare una empresa de Scribd logo
1 de 24
Herramientas BigData
Apache Hadoop
Modelo de Programación
MapReduce
Es open source, está escrito en Java y
proporciona soporte multiplataforma.
Amazon, IBM, Intel, Microsoft y Facebook.
Qué es un formato HDF?
El formato HDF (Hierarchical Data Format), representa una alternativa eficaz al ser adoptado
como estructura de almacenamiento de datos, cuyas características más representativas son
las siguientes:
Permite almacenar datos de distinta naturaleza en un mismo archivo y relacionarlos entre ellos.
Estandariza los formatos y las descripciones de los tipos de datos más comúnmente
empleados.
Es flexible y puede ser adaptado para almacenar cualquier tipo de dato.
Spark
Que es Apache Spark?
 Es un motor rápido para el procesamiento de datos a gran escala.
 Es básicamente una arquitectura lógica que se puede usar para programar el procesamiento
distribuido de grandes conjuntos de datos.
Por lo tanto, contiene funciones que le permiten importar datos desde una repositorio de datos
distribuido así como un sistema de archivos HDF : proporciona un mecanismo para procesar esos
datos de manera muy simple y muy eficiente.
 Permite hacer procesos de altas prestaciones que pueden ejecutarse en una sola
terminal . Altamente escalable.
Que significa?
 Básicamente, se desarrolla un programa controlador, por lo que todos los son
programas controladores y se basan en un objeto RDD llamado “ contexto de scala” que
encapsula el hardware subyacente real en el que se está ejecutando.

Arquitectura
LO USAN
Es difícil?
NO!.
Sorprende cuan pequeños son los scripts de los controladores SPARK.
Es un lenguaje muy poderoso y conciso con poco hace mucho.
Proceso:
 Carga un conjunto de datos distribuido de forma flexible.
 Esto es básicamente una abstracción sobre un conjunto gigante de datos y simplemente toma estos
en un objeto de memoria RDD, los transforma y realiza acciones en ellos.
 Programación FUNCIONAl: Es es solo una cuestión de tratar de averiguar la estrategia correcta de
cómo ir del punto A al punto B, donde tiene un conjunto de datos de entrada y un conjunto
deseado de resultados.
Bibliotecas
Ejemplo de capacidad
 Puede procesar un flujo de datos de una flota de servidores web, por ejemplo.
 También una tonelada de sensores (IoT) de una aplicación de Internet de las
cosas en un segundo a la vez y seguir actualizando sus resultados a medida
que avanza en tiempo real.
RDD
 Este es un concepto muy importante con Spark.
 Es el conjunto de datos distribuido resiliente.
 Básicamente, el objeto central que va a utilizar en todo su desarrollo de SPARK, por lo que es un
concepto importante a la hora de usar la herramienta BIGDATA.
 Este conjunto de datos distribuidos resilente, básicamente resuelve toda la complejidad de tratar
de gestionar toda la tolerancia a fallas y la naturaleza distribuida del procesamiento que ocurre
con estos objetos .
 RDD es simplemente un conjunto gigante de datos, básicamente fila tras fila tras fila de
información y eso puede ser solo líneas de texto en bruto o información de clave valor (NOSQL).
skala
ALGUNA PRACTICA ELEMENTAL°
Que diablos es?
 También es con lo que se construye SPARK.
 Scala, obtiene acceso a todas las funciones SPARK. Por lo tanto, al usar Scala, tendrá los trabajos
SPARK más rápidos y más confiables que posiblemente pueda crear.
 Scala y Python similares entre sí.
 Scala se ejecuta sobre la máquina virtual Java.
Otro punto clave sobre Scala es que se centra en lo que se llama programación funcional, donde las
funciones son una especie de punto crucial de lo que estamos tratando.
Las funciones se pasan a otras funciones y se encadenan de una manera en la que usted no está
acostumbrado.
Pero así es como funciona SPARK a un nivel fundamental.
Básicamente, tomamos la abstracción sobre una porción de datos y le asignamos una función para
realizar un procesamiento de esos datos y la programación funcional, y Scala hace que sea muy
intuitivo desde el punto de vista del lenguaje.
Abrir eclipse
 Gracias!
SPARK
 Practica Gracias!
Práctica
 Abrir ECLIPESE con el script de la clase pasada.
 Ejecutarlos de nuevo:
Vaya al menú Ejecutar, ejecutar configuraciones:
 Asegúrese de que RatingsCounter esté seleccionado aquí.
Proceso de un millón (100000) de clasificaciones de películas reales y cuenta la distribución de
diferentes puntuaciones de lectura.
Comprendiendo el código Spark
Maquina Local
* Indica uso de todos lo nucleos
Objeto para crear Rdd de Spark
Plan de Ejecución:
Comenzamos con un comando de archivo de texto que importa un montón de datos
sin procesar en un RDD,
Luego mapeamos ese RDD para analizar la información que nos importa, que es solo la clasificación.
Y finalmente, llamamos a la acción de contar por valor para sumar todos los diferentes números de
cada tipo de calificación.
Práctica #2. La película mas popular.
 Que debo interpretar ?
 Si quisiera descubrir la película más popular, lo que necesito averiguar
cuántas veces se calificó esa película individual.
 En general no me importan los usuarios que votaron correctamente.
 No me importa el tiempo.
 No importa el valor de las calificaciones.
 Necesito contar uno a uno con un grupo de datos coincidente

Más contenido relacionado

Similar a Herramientas BigData.pptx

Introduccion a Apache Spark
Introduccion a Apache SparkIntroduccion a Apache Spark
Introduccion a Apache SparkGustavo Arjones
 
Unidad 4: Administración de datos en dispositivos móviles
Unidad 4: Administración de datos en dispositivos móvilesUnidad 4: Administración de datos en dispositivos móviles
Unidad 4: Administración de datos en dispositivos móvilesJuan Anaya
 
Que es una base de datos
Que es una base de datosQue es una base de datos
Que es una base de datosHectorJuarez49
 
Clase de investigacion presentacion 1
Clase de investigacion presentacion 1Clase de investigacion presentacion 1
Clase de investigacion presentacion 1Bryan Matos
 
Proyecto herramientas para analisis del big-data.pdf
Proyecto herramientas para analisis del big-data.pdfProyecto herramientas para analisis del big-data.pdf
Proyecto herramientas para analisis del big-data.pdftechno48
 
Las principales bases de datos existentes
Las principales bases de datos existentesLas principales bases de datos existentes
Las principales bases de datos existentesDolores Leonor
 
Meetup: Cómo monitorizar y optimizar procesos de Spark usando la Spark Web - ...
Meetup: Cómo monitorizar y optimizar procesos de Spark usando la Spark Web - ...Meetup: Cómo monitorizar y optimizar procesos de Spark usando la Spark Web - ...
Meetup: Cómo monitorizar y optimizar procesos de Spark usando la Spark Web - ...Stratio
 
Act4 base datos_reyes_rosalba
Act4 base datos_reyes_rosalbaAct4 base datos_reyes_rosalba
Act4 base datos_reyes_rosalbaRozzi Reyes
 
Las principales bases de datos existentes
Las principales bases de datos existentesLas principales bases de datos existentes
Las principales bases de datos existentesDolores Leonor
 
Introducción a Apache Spark
Introducción a Apache SparkIntroducción a Apache Spark
Introducción a Apache SparkSocialmetrix
 

Similar a Herramientas BigData.pptx (20)

Big Data
Big DataBig Data
Big Data
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Introduccion a Apache Spark
Introduccion a Apache SparkIntroduccion a Apache Spark
Introduccion a Apache Spark
 
Glosario de terminos
Glosario de terminosGlosario de terminos
Glosario de terminos
 
Unidad 4: Administración de datos en dispositivos móviles
Unidad 4: Administración de datos en dispositivos móvilesUnidad 4: Administración de datos en dispositivos móviles
Unidad 4: Administración de datos en dispositivos móviles
 
Que es una base de datos
Que es una base de datosQue es una base de datos
Que es una base de datos
 
Clase de investigacion presentacion 1
Clase de investigacion presentacion 1Clase de investigacion presentacion 1
Clase de investigacion presentacion 1
 
Base de datos
Base de datosBase de datos
Base de datos
 
Base de datos
Base de datosBase de datos
Base de datos
 
Proyecto herramientas para analisis del big-data.pdf
Proyecto herramientas para analisis del big-data.pdfProyecto herramientas para analisis del big-data.pdf
Proyecto herramientas para analisis del big-data.pdf
 
Las principales bases de datos existentes
Las principales bases de datos existentesLas principales bases de datos existentes
Las principales bases de datos existentes
 
Meetup: Cómo monitorizar y optimizar procesos de Spark usando la Spark Web - ...
Meetup: Cómo monitorizar y optimizar procesos de Spark usando la Spark Web - ...Meetup: Cómo monitorizar y optimizar procesos de Spark usando la Spark Web - ...
Meetup: Cómo monitorizar y optimizar procesos de Spark usando la Spark Web - ...
 
Spark web meetup
Spark web meetupSpark web meetup
Spark web meetup
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Act4 base datos_reyes_rosalba
Act4 base datos_reyes_rosalbaAct4 base datos_reyes_rosalba
Act4 base datos_reyes_rosalba
 
Base de datos
Base de datosBase de datos
Base de datos
 
Las principales bases de datos existentes
Las principales bases de datos existentesLas principales bases de datos existentes
Las principales bases de datos existentes
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 
Introducción a Apache Spark
Introducción a Apache SparkIntroducción a Apache Spark
Introducción a Apache Spark
 
Bases de datos
Bases de datosBases de datos
Bases de datos
 

Más de Mauricio Bedoya (9)

Bi2021.pptx
Bi2021.pptxBi2021.pptx
Bi2021.pptx
 
Dashboard.pptx
Dashboard.pptxDashboard.pptx
Dashboard.pptx
 
Objetivos
ObjetivosObjetivos
Objetivos
 
Trigger
TriggerTrigger
Trigger
 
Proceyfunc
ProceyfuncProceyfunc
Proceyfunc
 
Control
ControlControl
Control
 
Bloques
BloquesBloques
Bloques
 
Bloques
BloquesBloques
Bloques
 
Script
ScriptScript
Script
 

Último

Segmentacion Segmantica_Modelos UNET and DEEPLABV3
Segmentacion Segmantica_Modelos UNET and DEEPLABV3Segmentacion Segmantica_Modelos UNET and DEEPLABV3
Segmentacion Segmantica_Modelos UNET and DEEPLABV3AlexysCaytanoMelndez1
 
Manual de Usuario APPs_AppInventor-2023.pdf
Manual de Usuario APPs_AppInventor-2023.pdfManual de Usuario APPs_AppInventor-2023.pdf
Manual de Usuario APPs_AppInventor-2023.pdfmasogeis
 
Caso de éxito de Hervian con el ERP Sage 200
Caso de éxito de Hervian con el ERP Sage 200Caso de éxito de Hervian con el ERP Sage 200
Caso de éxito de Hervian con el ERP Sage 200Opentix
 
PARTES DEL TECLADO Y SUS FUNCIONES - EJEMPLO
PARTES DEL TECLADO Y SUS FUNCIONES - EJEMPLOPARTES DEL TECLADO Y SUS FUNCIONES - EJEMPLO
PARTES DEL TECLADO Y SUS FUNCIONES - EJEMPLOSelenaCoronadoHuaman
 
Unidad_3_T1_AutomatasFinitos presentacion
Unidad_3_T1_AutomatasFinitos presentacionUnidad_3_T1_AutomatasFinitos presentacion
Unidad_3_T1_AutomatasFinitos presentacionarmando_cardenas
 
Introducción a Funciones LENGUAJE DART FLUTTER
Introducción a Funciones LENGUAJE DART FLUTTERIntroducción a Funciones LENGUAJE DART FLUTTER
Introducción a Funciones LENGUAJE DART FLUTTEREMMAFLORESCARMONA
 
BREEAM ES Urbanismo como herramienta para un planeamiento sostenible - Miguel...
BREEAM ES Urbanismo como herramienta para un planeamiento sostenible - Miguel...BREEAM ES Urbanismo como herramienta para un planeamiento sostenible - Miguel...
BREEAM ES Urbanismo como herramienta para un planeamiento sostenible - Miguel...ITeC Instituto Tecnología Construcción
 

Último (7)

Segmentacion Segmantica_Modelos UNET and DEEPLABV3
Segmentacion Segmantica_Modelos UNET and DEEPLABV3Segmentacion Segmantica_Modelos UNET and DEEPLABV3
Segmentacion Segmantica_Modelos UNET and DEEPLABV3
 
Manual de Usuario APPs_AppInventor-2023.pdf
Manual de Usuario APPs_AppInventor-2023.pdfManual de Usuario APPs_AppInventor-2023.pdf
Manual de Usuario APPs_AppInventor-2023.pdf
 
Caso de éxito de Hervian con el ERP Sage 200
Caso de éxito de Hervian con el ERP Sage 200Caso de éxito de Hervian con el ERP Sage 200
Caso de éxito de Hervian con el ERP Sage 200
 
PARTES DEL TECLADO Y SUS FUNCIONES - EJEMPLO
PARTES DEL TECLADO Y SUS FUNCIONES - EJEMPLOPARTES DEL TECLADO Y SUS FUNCIONES - EJEMPLO
PARTES DEL TECLADO Y SUS FUNCIONES - EJEMPLO
 
Unidad_3_T1_AutomatasFinitos presentacion
Unidad_3_T1_AutomatasFinitos presentacionUnidad_3_T1_AutomatasFinitos presentacion
Unidad_3_T1_AutomatasFinitos presentacion
 
Introducción a Funciones LENGUAJE DART FLUTTER
Introducción a Funciones LENGUAJE DART FLUTTERIntroducción a Funciones LENGUAJE DART FLUTTER
Introducción a Funciones LENGUAJE DART FLUTTER
 
BREEAM ES Urbanismo como herramienta para un planeamiento sostenible - Miguel...
BREEAM ES Urbanismo como herramienta para un planeamiento sostenible - Miguel...BREEAM ES Urbanismo como herramienta para un planeamiento sostenible - Miguel...
BREEAM ES Urbanismo como herramienta para un planeamiento sostenible - Miguel...
 

Herramientas BigData.pptx

  • 2. Apache Hadoop Modelo de Programación MapReduce Es open source, está escrito en Java y proporciona soporte multiplataforma. Amazon, IBM, Intel, Microsoft y Facebook.
  • 3. Qué es un formato HDF? El formato HDF (Hierarchical Data Format), representa una alternativa eficaz al ser adoptado como estructura de almacenamiento de datos, cuyas características más representativas son las siguientes: Permite almacenar datos de distinta naturaleza en un mismo archivo y relacionarlos entre ellos. Estandariza los formatos y las descripciones de los tipos de datos más comúnmente empleados. Es flexible y puede ser adaptado para almacenar cualquier tipo de dato.
  • 5. Que es Apache Spark?  Es un motor rápido para el procesamiento de datos a gran escala.  Es básicamente una arquitectura lógica que se puede usar para programar el procesamiento distribuido de grandes conjuntos de datos. Por lo tanto, contiene funciones que le permiten importar datos desde una repositorio de datos distribuido así como un sistema de archivos HDF : proporciona un mecanismo para procesar esos datos de manera muy simple y muy eficiente.
  • 6.  Permite hacer procesos de altas prestaciones que pueden ejecutarse en una sola terminal . Altamente escalable. Que significa?  Básicamente, se desarrolla un programa controlador, por lo que todos los son programas controladores y se basan en un objeto RDD llamado “ contexto de scala” que encapsula el hardware subyacente real en el que se está ejecutando. 
  • 9. Es difícil? NO!. Sorprende cuan pequeños son los scripts de los controladores SPARK. Es un lenguaje muy poderoso y conciso con poco hace mucho. Proceso:  Carga un conjunto de datos distribuido de forma flexible.  Esto es básicamente una abstracción sobre un conjunto gigante de datos y simplemente toma estos en un objeto de memoria RDD, los transforma y realiza acciones en ellos.  Programación FUNCIONAl: Es es solo una cuestión de tratar de averiguar la estrategia correcta de cómo ir del punto A al punto B, donde tiene un conjunto de datos de entrada y un conjunto deseado de resultados.
  • 11. Ejemplo de capacidad  Puede procesar un flujo de datos de una flota de servidores web, por ejemplo.  También una tonelada de sensores (IoT) de una aplicación de Internet de las cosas en un segundo a la vez y seguir actualizando sus resultados a medida que avanza en tiempo real.
  • 12. RDD  Este es un concepto muy importante con Spark.  Es el conjunto de datos distribuido resiliente.  Básicamente, el objeto central que va a utilizar en todo su desarrollo de SPARK, por lo que es un concepto importante a la hora de usar la herramienta BIGDATA.  Este conjunto de datos distribuidos resilente, básicamente resuelve toda la complejidad de tratar de gestionar toda la tolerancia a fallas y la naturaleza distribuida del procesamiento que ocurre con estos objetos .  RDD es simplemente un conjunto gigante de datos, básicamente fila tras fila tras fila de información y eso puede ser solo líneas de texto en bruto o información de clave valor (NOSQL).
  • 14. Que diablos es?  También es con lo que se construye SPARK.  Scala, obtiene acceso a todas las funciones SPARK. Por lo tanto, al usar Scala, tendrá los trabajos SPARK más rápidos y más confiables que posiblemente pueda crear.  Scala y Python similares entre sí.  Scala se ejecuta sobre la máquina virtual Java. Otro punto clave sobre Scala es que se centra en lo que se llama programación funcional, donde las funciones son una especie de punto crucial de lo que estamos tratando. Las funciones se pasan a otras funciones y se encadenan de una manera en la que usted no está acostumbrado. Pero así es como funciona SPARK a un nivel fundamental. Básicamente, tomamos la abstracción sobre una porción de datos y le asignamos una función para realizar un procesamiento de esos datos y la programación funcional, y Scala hace que sea muy intuitivo desde el punto de vista del lenguaje.
  • 17. Práctica  Abrir ECLIPESE con el script de la clase pasada.  Ejecutarlos de nuevo: Vaya al menú Ejecutar, ejecutar configuraciones:  Asegúrese de que RatingsCounter esté seleccionado aquí. Proceso de un millón (100000) de clasificaciones de películas reales y cuenta la distribución de diferentes puntuaciones de lectura.
  • 18. Comprendiendo el código Spark Maquina Local * Indica uso de todos lo nucleos Objeto para crear Rdd de Spark
  • 19.
  • 20.
  • 21.
  • 22.
  • 23. Plan de Ejecución: Comenzamos con un comando de archivo de texto que importa un montón de datos sin procesar en un RDD, Luego mapeamos ese RDD para analizar la información que nos importa, que es solo la clasificación. Y finalmente, llamamos a la acción de contar por valor para sumar todos los diferentes números de cada tipo de calificación.
  • 24. Práctica #2. La película mas popular.  Que debo interpretar ?  Si quisiera descubrir la película más popular, lo que necesito averiguar cuántas veces se calificó esa película individual.  En general no me importan los usuarios que votaron correctamente.  No me importa el tiempo.  No importa el valor de las calificaciones.  Necesito contar uno a uno con un grupo de datos coincidente