2. Apache Hadoop
Modelo de Programación
MapReduce
Es open source, está escrito en Java y
proporciona soporte multiplataforma.
Amazon, IBM, Intel, Microsoft y Facebook.
3. Qué es un formato HDF?
El formato HDF (Hierarchical Data Format), representa una alternativa eficaz al ser adoptado
como estructura de almacenamiento de datos, cuyas características más representativas son
las siguientes:
Permite almacenar datos de distinta naturaleza en un mismo archivo y relacionarlos entre ellos.
Estandariza los formatos y las descripciones de los tipos de datos más comúnmente
empleados.
Es flexible y puede ser adaptado para almacenar cualquier tipo de dato.
5. Que es Apache Spark?
Es un motor rápido para el procesamiento de datos a gran escala.
Es básicamente una arquitectura lógica que se puede usar para programar el procesamiento
distribuido de grandes conjuntos de datos.
Por lo tanto, contiene funciones que le permiten importar datos desde una repositorio de datos
distribuido así como un sistema de archivos HDF : proporciona un mecanismo para procesar esos
datos de manera muy simple y muy eficiente.
6. Permite hacer procesos de altas prestaciones que pueden ejecutarse en una sola
terminal . Altamente escalable.
Que significa?
Básicamente, se desarrolla un programa controlador, por lo que todos los son
programas controladores y se basan en un objeto RDD llamado “ contexto de scala” que
encapsula el hardware subyacente real en el que se está ejecutando.
9. Es difícil?
NO!.
Sorprende cuan pequeños son los scripts de los controladores SPARK.
Es un lenguaje muy poderoso y conciso con poco hace mucho.
Proceso:
Carga un conjunto de datos distribuido de forma flexible.
Esto es básicamente una abstracción sobre un conjunto gigante de datos y simplemente toma estos
en un objeto de memoria RDD, los transforma y realiza acciones en ellos.
Programación FUNCIONAl: Es es solo una cuestión de tratar de averiguar la estrategia correcta de
cómo ir del punto A al punto B, donde tiene un conjunto de datos de entrada y un conjunto
deseado de resultados.
11. Ejemplo de capacidad
Puede procesar un flujo de datos de una flota de servidores web, por ejemplo.
También una tonelada de sensores (IoT) de una aplicación de Internet de las
cosas en un segundo a la vez y seguir actualizando sus resultados a medida
que avanza en tiempo real.
12. RDD
Este es un concepto muy importante con Spark.
Es el conjunto de datos distribuido resiliente.
Básicamente, el objeto central que va a utilizar en todo su desarrollo de SPARK, por lo que es un
concepto importante a la hora de usar la herramienta BIGDATA.
Este conjunto de datos distribuidos resilente, básicamente resuelve toda la complejidad de tratar
de gestionar toda la tolerancia a fallas y la naturaleza distribuida del procesamiento que ocurre
con estos objetos .
RDD es simplemente un conjunto gigante de datos, básicamente fila tras fila tras fila de
información y eso puede ser solo líneas de texto en bruto o información de clave valor (NOSQL).
14. Que diablos es?
También es con lo que se construye SPARK.
Scala, obtiene acceso a todas las funciones SPARK. Por lo tanto, al usar Scala, tendrá los trabajos
SPARK más rápidos y más confiables que posiblemente pueda crear.
Scala y Python similares entre sí.
Scala se ejecuta sobre la máquina virtual Java.
Otro punto clave sobre Scala es que se centra en lo que se llama programación funcional, donde las
funciones son una especie de punto crucial de lo que estamos tratando.
Las funciones se pasan a otras funciones y se encadenan de una manera en la que usted no está
acostumbrado.
Pero así es como funciona SPARK a un nivel fundamental.
Básicamente, tomamos la abstracción sobre una porción de datos y le asignamos una función para
realizar un procesamiento de esos datos y la programación funcional, y Scala hace que sea muy
intuitivo desde el punto de vista del lenguaje.
17. Práctica
Abrir ECLIPESE con el script de la clase pasada.
Ejecutarlos de nuevo:
Vaya al menú Ejecutar, ejecutar configuraciones:
Asegúrese de que RatingsCounter esté seleccionado aquí.
Proceso de un millón (100000) de clasificaciones de películas reales y cuenta la distribución de
diferentes puntuaciones de lectura.
18. Comprendiendo el código Spark
Maquina Local
* Indica uso de todos lo nucleos
Objeto para crear Rdd de Spark
19.
20.
21.
22.
23. Plan de Ejecución:
Comenzamos con un comando de archivo de texto que importa un montón de datos
sin procesar en un RDD,
Luego mapeamos ese RDD para analizar la información que nos importa, que es solo la clasificación.
Y finalmente, llamamos a la acción de contar por valor para sumar todos los diferentes números de
cada tipo de calificación.
24. Práctica #2. La película mas popular.
Que debo interpretar ?
Si quisiera descubrir la película más popular, lo que necesito averiguar
cuántas veces se calificó esa película individual.
En general no me importan los usuarios que votaron correctamente.
No me importa el tiempo.
No importa el valor de las calificaciones.
Necesito contar uno a uno con un grupo de datos coincidente