Este documento presenta una investigación sobre Big Data. Introduce el tema y define Big Data como conjuntos de datos de gran volumen, alta velocidad y variedad que requieren nuevas formas de procesamiento para extraer valor e información. Explica las diferentes clasificaciones de datos, incluyendo estructurados, semi-estructurados y no estructurados. También compara Business Intelligence tradicional con Big Data y describe algunas herramientas comunes para implementar soluciones de Big Data como Hadoop, MapReduce y Apache Spark.
En este trabajo monográfico presentamos de una manera objetiva y didáctica el BI (Inteligencia de Negocios) como un proceso necesario e imprescindible en la toma de decisiones. Trataremos de dar solución a las diferentes preguntas que se hace el público en cuestión a las estrategias de tomar decisiones de negocios en una empresa o en cualquier organización pública.
Definimos a BI, como un proceso para explorar y analizar información estructurada sobre un área, con el fin de descubrir y efectuar cambios hacia el mejoramiento de la empresa.
Debido a la alta demanda de las empresas por las mejoras en la competitividad de sus productos y servicios, desarrollamos el BI para dar a conocer a los lectores y usuarios el uso de las herramientas y tecnología necesaria para su aprovechamiento al máximo, y lograr el conocimiento y difusión del BI en las mayores partes posibles del área de negocios empresariales.
El informe muestra la construcción de la base de datos para la farmacia "José",para ello se hace uso de un gestor de base que en este caso usaremos MySQL, así como otros programas y plugins para el diseño de los modelos relacionales y el diccionario de datos.Se hará uso del método de especialización para tener un mayor entendimiento sobre los productos que ofrece la farmacia y su relación con las distintas enfermedades,de modo de generar una relación directa entre los productos y las enfermedades.
El informe muestra la construcción de la base de datos para la farmacia "José",para ello se hace uso de un gestor de base que en este caso usaremos MySQL, así como otros programas y plugins para el diseño de los modelos relacionales y el diccionario de datos.Se hará uso del método de especialización para tener un mayor entendimiento sobre los productos que ofrece la farmacia y su relación con las distintas enfermedades,de modo de generar una relación directa entre los productos y las enfermedades.
Se puede concluir que el Big Data se focaliza en la captura y procesamiento de los datos, mientras que el Business Analytics y el Business Intelligence examinan esta información y la utilizan con el fin de optimizar las decisiones.
En este trabajo monográfico presentamos de una manera objetiva y didáctica el BI (Inteligencia de Negocios) como un proceso necesario e imprescindible en la toma de decisiones. Trataremos de dar solución a las diferentes preguntas que se hace el público en cuestión a las estrategias de tomar decisiones de negocios en una empresa o en cualquier organización pública.
Definimos a BI, como un proceso para explorar y analizar información estructurada sobre un área, con el fin de descubrir y efectuar cambios hacia el mejoramiento de la empresa.
Debido a la alta demanda de las empresas por las mejoras en la competitividad de sus productos y servicios, desarrollamos el BI para dar a conocer a los lectores y usuarios el uso de las herramientas y tecnología necesaria para su aprovechamiento al máximo, y lograr el conocimiento y difusión del BI en las mayores partes posibles del área de negocios empresariales.
El informe muestra la construcción de la base de datos para la farmacia "José",para ello se hace uso de un gestor de base que en este caso usaremos MySQL, así como otros programas y plugins para el diseño de los modelos relacionales y el diccionario de datos.Se hará uso del método de especialización para tener un mayor entendimiento sobre los productos que ofrece la farmacia y su relación con las distintas enfermedades,de modo de generar una relación directa entre los productos y las enfermedades.
El informe muestra la construcción de la base de datos para la farmacia "José",para ello se hace uso de un gestor de base que en este caso usaremos MySQL, así como otros programas y plugins para el diseño de los modelos relacionales y el diccionario de datos.Se hará uso del método de especialización para tener un mayor entendimiento sobre los productos que ofrece la farmacia y su relación con las distintas enfermedades,de modo de generar una relación directa entre los productos y las enfermedades.
Se puede concluir que el Big Data se focaliza en la captura y procesamiento de los datos, mientras que el Business Analytics y el Business Intelligence examinan esta información y la utilizan con el fin de optimizar las decisiones.
Breve presentación sobre los retos y oportunidades con las que se encuentra el sector turístico al enfrentarse a un mundo dominado por la tecnología y la globalización. Grandes herramientas tecnológicas como el "BIG DATA" surgen a raíz de los cambios en el estilo de vida de las personas, gustos y comportamientos, por eso es preciso hacer buen uso de las mismas.
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleoCICE
BIG DATA. Nuevos perfiles y oportunidades de empleo.
Conviértete en un experto en la gestión de grandes volúmenes de datos y en la inteligencia de negocio.
www.cice.es
Analizamos el mundo a través de un rompecabezas, conformado por piezas de conocimientos que se agrupan en categorizaciones, grupos, familias y etiquetas. Así es como la ciencia ha podido “saber más“ en detalle sobre los diferentes aspectos de la realidad. Pero, ¿qué pasaría si quisiéramos tener un entendimiento completo de una situación “x”? Deberíamos comenzar a descubrir el cuadro completo “big data, big picture” que se esconde detrás de toda pieza analizada.
El big data le permite recopilar datos de redes sociales, visitas a páginas web, registros de llamadas y otras fuentes para mejorar la experiencia de interacción, así como maximizar el valor ofrecido.
libro conabilidad financiera, 5ta edicion.pdfMiriamAquino27
LIBRO DE CONTABILIDAD FINANCIERA, ESTE TE AYUDARA PARA EL AVANCE DE TU CARRERA EN LA CONTABILIDAD FINANCIERA.
SI ERES INGENIERO EN GESTION ESTE LIBRO TE AYUDARA A COMPRENDER MEJOR EL FUNCIONAMIENTO DE LA CONTABLIDAD FINANCIERA, EN AREAS ADMINISTRATIVAS ENLA CARREARA DE INGENERIA EN GESTION EMPRESARIAL, ESTE LIBRO FUE UTILIZADO PARA ALUMNOS DE SEGUNDO SEMESTRE
Sistema de disposición sanitarias – UBS composteras 2 PARTE.pptx
Bigdata trabajo de investigacion
1. FACULTAD DE INGENIERÍA,
ARQUITECTURA Y URBANISMO
ESCUELA PROFESIONAL DE INGENIERÍA DE
SISTEMAS
“BIG DATA”
DOCENTE:
Mg. Sánchez Guevara Omar Antonio.
INTEGRANTES:
Becerra Cardenas,Jorge
Fernández Román,Ismael.
Montalvo Sandoval ,Jose.
PIMENTEL – PERÚ
2015
2. Big Data.
U s s Página 1
ÍNDICE
TRABAJO DE INVESTIGACION .................................................................................... 3
OBJETIVO........................................................................................................................ 3
1. INTRODUCCIÓN ...................................................................................................... 3
2. MARCO TEÓRICO..................................................................................................... 4
3. DEFINICIÓN DE BIG DATA. ..................................................................................... 5
4. BI TRADICIONAL VS BIG DATA............................................................................... 8
5. Clasificación En Base De La Estructura ....................................................... 9
5.1. Nivel de estructura de los datos:................................................................. 10
5.1.1. Datos estructurados............................................................................... 11
5.1.2. Datos semi estructuradas ..................................................................... 12
6. BENEFICIOS DEL BIG DATA ............................................................................... 14
7. HERRAMIENTAS PARA IMPLEMENTAR SOLUCIONES DE BIG DATA. ......... 15
7.1. Hadoop............................................................................................................ 15
7.2. MapReduce..................................................................................................... 15
7.3. Gridgain .......................................................................................................... 16
7.4. HPCC ............................................................................................................... 17
7.5. Storm............................................................................................................... 17
7.6. HANA............................................................................................................... 18
7.7. SPARK............................................................................................................. 19
7.8. HIVE................................................................................................................. 20
7.9. KAFKA............................................................................................................. 21
7.10. FLUME ......................................................................................................... 23
8. CONCLUSIONES ................................................................................................... 24
9. REFERENCIAS BIBLIOGRÁFICAS:..................................................................... 25
3. Big Data.
U s s Página 2
Imágenes
IMAGEN 1: BENEFICIOS DEL USO DE BIGDATA................................................................... 6
IMAGEN 2: LAS 5 V DEL BIGDATA...................................................................................... 7
IMAGEN 3: BIGDATA VS BI ........................................... ¡ERROR! MARCADOR NO DEFINIDO.
IMAGEN 4: NIVELES DE ESTRUCTURA DE LOS DATOS ....................................................... 11
IMAGEN 5: ARQUITECTURA HADDOP ............................................................................... 15
IMAGEN 6: PROCESO MAPREDUCE.................................................................................. 16
IMAGEN 7: GRIDGAIN ...................................................................................................... 16
IMAGEN 8: ARQUITECTURA HPCC................................................................................... 17
IMAGEN 9: EJEMPLO DE APLICACION STORM RESTORATION ........................................... 18
IMAGEN 10: PLATAFORMA HANA PARA BIGDATA ............................................................ 19
IMAGEN 11: ARQUITECURA APACHE SPARK.................................................................... 20
IMAGEN 12: ARQUITECTURA HIVE .................................................................................. 21
IMAGEN 13: ARQUITECTURA KAFKA................................................................................ 22
IMAGEN 14: ARQUITECTURA FLUME ................................................................................ 23
Tablas
TABLA 1 : CARACTERÍSTICAS DEL BIGDATA....................................................................... 7
TABLA 2: DIFERENCIAS BI TRADICIONAL Y BIGDATA.......................................................... 8
4. Big Data.
U s s Página 3
TRABAJO DE INVESTIGACION
OBJETIVO
Realizar una investigación profunda sobre el tema asignado y sustentar dicha
investigación a través de una exposición.
La estructura sugerida para el trabajo de investigación es, grosso modo:
1. INTRODUCCIÓN
Con el constante crecimiento de información en cada uno de los aspectos más
relevantes mundialmente como sociedad, comercio y ciencia, se vuelve necesario un
cambio con respecto al manejo de la información, que hasta hace poco tiempo se
venía implementando a partir de bases de datos relacionales. Si bien este esquema
funcionaba para ambientes que almacenaban Teras de información con datos
puntuales y que a través de consultas SQL se podía buscar la información requerida,
se vuelve dispendioso y costoso al momento de analizar un mayor volumen de
información, en ambientes donde anualmente se almacenan petas de todo tipo de
datos, incluyendo aquí los no estructurados, como archivos de video y audio; un
ejemplo de esto es “Google, que recibe a diario trillones de bytes, con el objetivo de
ofrecer muchos de los servicios que actualmente se conocen como el mismo motor de
búsqueda y Google Earth”.
El manejo de grandes cantidades de información conlleva a pensar en la
implementación de herramientas que permitan administrar y gestionar este tipo de
datos no estructurados y semi-estructurados, en la búsqueda de patrones
concurrentes para la toma de decisiones. “Actualmente se pueden encontrar
tecnologías como Hadoop, MapReduce y bases de datos NoSQL, que se pueden
implementar en la creación de un ambiente Big Data”.
5. Big Data.
U s s Página 4
El Big Data en una combinación de tecnologías de gestión de datos que han
evolucionado en las últimas décadas.
Permite a las compañías almacenar y manipular grandes volúmenes de datos a la
velocidad adecuada y en el momento oportuno.
Big Data no es una solución aislada; es necesario hacer confluir una estrategia de
negocio con una técnica para aprovechar esta tendencia tecnológica.
Big Data es una combinación de los 50 años de evolución de la tecnología. Debemos
conocer las tecnologías emergentes que usan las compañías (Hadoop, MapReduce,
etc.). Las compañías han trabajado durante años para obtener información útil de sus
clientes, productos y servicios.
Algunos datos son estructurados y están almacenados en bases de datos. Sin
embargo, otros, incluyendo documentos, imágenes y vídeos, son desestructurados.
Además, las compañías tienen que considerar datos obtenidos de nuevas fuentes,
como son los sensores, las redes sociales, las páginas web, etc.
2. MARCO TEÓRICO
Big Data ha representado un movimiento revolucionario, en cuanto al manejo de toda
la información que hasta hace poco tiempo era poco probable se pudiera analizar, con
la inclusión de este concepto se puede pensar en el procesamiento de datos del tipo
no estructurado, como video, audio, sistemas GPS y gran número de sensores
ubicados en dispositivos móviles, automóviles y equipos industriales entre otros.
6. Big Data.
U s s Página 5
3. DEFINICIÓN DE BIG DATA.
Según Gartner 7, Big data es una referencia a aquellos sistemas de
información que manejan conjuntos de datos de gran volumen, de alta
velocidad, de veracidad, de valor y de gran variedad de recursos, que
demandan formas rentables e innovadoras de procesamiento de la
información para mejorar la comprensión y la toma de decisiones.
Según Gualtieri Big data es la solución al crecimiento exponencial de los
datos, en el momento en que se hace difícil su administración con respecto
al almacenamiento, procesamiento y acceso.
De esto se puede obtener beneficios como.
“Optimizar el cálculo y la precisión algorítmica para reunir, analizar,
enlazar y comparar conjuntos de grandes datos”.
“Identificar patrones para la toma de decisiones en los ámbitos
económico, social, técnico y legal”.
7. Big Data.
U s s Página 6
La mayoría de las definiciones que se pueden encontrar de Big data están
enfocadas al volumen de los datos, al almacenamiento de dicha información,
de esto se puede concluir que el volumen importa pero que también existen
otros atributos importantes de Big data, estos son: “la velocidad, la
veracidad, la variedad y el valor” 11 . Estos cinco aspectos constituyen
una definición comprensiva y además destruyen el mito acerca de que Big data
se trataúnicamente del volumen. A cada uno de estos aspectos se le atribuyen
las siguientes características:
Imagen 1: Beneficios del Uso de Bigdata
Imagen 2: Arquitecura Apache SparkImagen 3: Beneficios del Uso de Bigdata
Imagen 4: Arquitecura Apache Spark
Imagen 5: Arquitectura HIVEImagen 6: Arquitecura Apache SparkImagen 7:
Beneficios del Uso de Bigdata
Imagen 8: Arquitecura Apache SparkImagen 9: Beneficios del Uso de Bigdata
Imagen 10: Arquitecura Apache Spark
Imagen 11: Arquitectura HIVEImagen 12: Arquitecura Apache Spark
Imagen 13: Arquitectura HIVEImagen 14: Arquitecura Apache Spark
Imagen 15: Arquitectura HIVEImagen 16: Arquitecura Apache SparkImagen 17:
Beneficios del Uso de Bigdata
Imagen 18: Arquitecura Apache SparkImagen 19: Beneficios del Uso de Bigdata
Imagen 20: Arquitecura Apache Spark
Imagen 21: Arquitectura HIVEImagen 22: Arquitecura Apache SparkImagen 23:
Beneficios del Uso de Bigdata
Imagen 24: Arquitecura Apache SparkImagen 25: Beneficios del Uso de Bigdata
8. Big Data.
U s s Página 7
Tabla 1 : Características del Bigdata
Volumen Velocidad Variedad Veracidad Valor
Almacenamiento
En terabytes
Por lotes Estructurado Integridad y
Autenticidad
Estadísticas
Registros Tiempo
Cercano
No
estructurado
Origen y
Reputación
Eventos
Transacciones Tiempo
Real
Multi-factor Disponibilidad Correlaciones
Tablas y
Archivos
Procesos Probabilística Responsabilid
ad
Hipótesis
Imagen 26: Las 5 V del Bigdata
Imagen 27: BigData VS BIImagen 28: Las 5 V del Bigdata
Imagen 29: BigData VS BI
Imagen 30: Niveles de estructura de los datosImagen 31: BigData VS BIImagen 32:
Las 5 V del Bigdata
Imagen 33: BigData VS BIImagen 34: Las 5 V del Bigdata
Imagen 35: BigData VS BI
Imagen 36: Niveles de estructura de los datosImagen 37: BigData VS BI
Imagen 38: Niveles de estructura de los datos
Imagen 39: Arquitectura HaddopImagen 40: Niveles de estructura de los
datosImagen 41: BigData VS BI
Imagen 42: Niveles de estructura de los datosImagen 43: BigData VS BIImagen 44:
Las 5 V del Bigdata
9. Big Data.
U s s Página 8
4. BI TRADICIONAL VS BIG DATA
Tabla 2: Diferencias Bi Tradicional y Bigdata
DIFERENCIAS BIG DATA BUSINESS INTELLIGENCE
Almacenamiento
de datos:
Big Data almacena los datos en
un sistema de ficheros que puede
encontrarse distribuido por la
nube. Por tanto, tiene capacidad
para cruzar datos de varias
plataformas por ejemplo datos de
una red de información científica
con historiales médicos de un
centro sanitario.
Business Intelligence se
aplica a menor escala. Los
datos se almacenan en un
servidor central, en un
entorno seguro y más
flexible, por ejemplo,
información de las ventas de
una empresa.
Cantidad de
datos:
Big data tiene la capacidad de
analizar grandes volúmenes de
datos, de tal forma que llevan las
funciones de proceso a los datos.
business intelligence toma
los datos y los lleva hasta las
funciones.
Análisis del
kaos:
Big Data tiene la capacidad de
analizar datos que se encuentran
estructurados o no estructurados,
aquellos que no están
almacenados en soportes
tradicionales.
Es capaz de analizar datos
que provienen de diferentes
fuentes y plataformas, una
clara diferencias al business
intelligence.
Características
de los datos:
Big Data tiene la habilidad de
procesar y analizar datos que
provienen de archivos históricos
con datos que se obtienen en
tiempo real.
Si retomamos el ejemplo de
la investigación científica, se
podrán analizar datos
históricos de
comportamientos de
patógenos y datos obtenidos
de las nuevas zepas de un
mismo virus para tratar con
seguridad una epidemia.
11. Big Data.
U s s Página 10
5. CLASIFICACIÓN EN BASE DE LA ESTRUCTURA
5.1. Nivel de estructura de los datos:
La forma en que se organizan los datos para facilitar su procesamiento usando
un computador
- Mayor nivel de estructura → Procesamiento más sencillo
- Menor nivel de estructura → Procesamiento más complejo
Por ejemplo, no es lo mismo el procesamiento y análisis de un texto escrito en
lenguaje humano que uno al que ya se han aplicado un conjunto de reglas
definidas para la estructuración de la información que contiene. ej. modelo
relacional, lenguaje de marcas XML, …
Cuando menor es el nivel de estructura más difícil es su procesamiento
(integración y verificación de la calidad) y, por tanto, más complicada es la
extracción de conocimiento.
En base a su nivel de estructura las fuentes de datos pueden clasificarse en:
- Estructuradas
- Semi estructuradas
- No estructuradas
12. Big Data.
U s s Página 11
5.1.1. Datos estructurados
Nivel más alto de estructura → Procesamiento eficiente y eficaz.
Los datos se almacenan con una estructura bien definida y que aplica unas
normas muy estrictas.
El ejemplo más claro son las bases de datos relacionales
- La información se almacena en tablas y se definen relaciones entre dichas
tablas.
- Las tablas se componen de filas (tuplas) y columnas (campos o atributos).
Toda la información se almacena de acuerdo al esquema relacional definido
Imagen 54: Niveles de estructura de los datos
Imagen 55: Arquitectura HaddopImagen 56:
Niveles de estructura de los datos
Imagen 57: Arquitectura Haddop
Imagen 58: Proceso MapReduceImagen 59:
Arquitectura HaddopImagen 60: Niveles de
estructura de los datos
Imagen 61: Arquitectura HaddopImagen 62:
Niveles de estructura de los datos
Imagen 63: Arquitectura Haddop
Imagen 64: Proceso MapReduceImagen 65:
Arquitectura Haddop
Imagen 66: Proceso MapReduce
Imagen 67: GridGainImagen 68: Proceso
MapReduceImagen 69: Arquitectura Haddop
Imagen 70: Proceso MapReduceImagen 71:
Arquitectura HaddopImagen 72: Niveles de
estructura de los datos
Imagen 73: Arquitectura HaddopImagen 74:
Niveles de estructura de los datos
Imagen 75: Arquitectura Haddop
Imagen 76: Proceso MapReduceImagen 77:
Arquitectura HaddopImagen 78: Niveles de
estructura de los datos
13. Big Data.
U s s Página 12
Por lo general, los almacenes de datos (Data Warehouses) usan esta
tecnología como almacenamiento subyacente
Aunque se aplique el modelo multidimensional (que vimos en el tema 2) en
lugar del modelo relacional
Suelen contener metadatos: información sobre los propios datos que ayuda en
su interpretación (ej. descripciones, unidades de medida usadas…)
5.1.2. Datos semi estructuradas
El procesamiento de información estructurada es el más sencillo y, desde hace
tiempo, se consigue realizar de forma eficiente para grandes volúmenes de
datos. Sin embargo, en Big Data, la mayoría de las fuentes externas de las que
disponemos son de las consideradas semi o nada estructuradas.
Los datos se almacenan conforme a conjunto de reglas menos estrictas y más
flexibles.
El nivel de estructura puede variar según su aplicación y, por tanto, también la
dificultad de procesamiento. A medio camino entre datos estructurados y nada
estructurados.
Algunos de los formatos semi estructurados más usados:
- XML, JSON, CSV, Excel.
En algunos los datos se organizan conforme a un esquema o modelo de datos
bien definido.
- XML (DTD y XML Schema)
Suelen contener metadatos.
Algunas de las fuentes que usualmente se distribuyen en estos formatos:
- Open Data, redes sociales, datos de sensores, logs de servidores web
(ejemplo de JSON).
14. Big Data.
U s s Página 13
5.1.3. Datos No Estructurados
Por último, tenemos los datos no estructurados:
Menor nivel de estructura: No tienen una estructura definida de forma explícita
- Ejemplos: texto (en lenguaje natural), vídeo, audio, imágenes…
- Sí pueden tener algún tipo de estructura implícita: ej. División en párrafos de
un texto, escenas de una película, estribillo de una canción.
Para un computador puede llegar a ser muy difícil de interpretar
- Es frecuente que, lo que es más fácil de interpretar para un humano sea lo
más difícil de interpretar para un computador
El 80% de las fuentes disponibles en Big Data son no estructuradas.
Existen algunas técnicas que permiten aprovechar este tipo de fuentes:
- Procesamiento del lenguaje natural (PLN) → Estructuración
- Minería de datos → Descubrimiento automático de conocimiento implícito en
los datos.
En una aplicación Big Data es frecuente trabajar con fuentes de datos de los 3
tipos como veremos en el módulo 4, la tecnología de almacenamiento y
procesamiento de Big Data centra sus esfuerzos en dar soporte efectivo y
eficiente a las nuevas fuentes semi y no estructuradas, y facilitar la integración
de estas con otras fuentes altamente estructuradas.
Puede ser necesario añadir estructura a las fuentes que no la tienen antes de
aplicar algún proceso de análisis para el descubrimiento de conocimiento
- Mediante procesos ETL.
15. Big Data.
U s s Página 14
6. BENEFICIOS DEL BIG DATA
Puede proporcionar ideas provenientes de enormes cantidades de datos de
múltiples fuentes que incluyen a aquellos que ya están almacenados en bases
de datos de la empresa, las que provienen de fuentes externas de terceros, de
Internet, redes sociales, etc.
Monitorización y previsión en tiempo real de eventos que pueden afectar el
rendimiento o las operaciones de los negocios.
Capacidad de encontrar, adquirir, extraer, manipular, analizar, conectar y
visualizar datos con diferentes herramientas.
Identificación de información importante que puede mejorar la calidad de la
toma de decisiones.
Capacidad de mitigar riesgos mediante la optimización de decisiones complejas
acerca de eventos no planificados con mayor rapidez.
Identificación de las causas fundamentales de fallos y problemas en tiempo
real.
Comprensión plena del potencial del marketing basado en datos.
Generación de ofertas a clientes basadas en sus hábitos de compra.
Mejora del compromiso del cliente y aumento de su fidelidad.
Reevaluación del portfolio de riesgos de forma rápida.
Personalización de la experiencia del cliente.
Añadiendo valor a las interacciones con los clientes online y offline.
16. Big Data.
U s s Página 15
7. HERRAMIENTAS PARA IMPLEMENTAR SOLUCIONES DE BIG DATA.
7.1. Hadoop
“Es un framework que permite el procesamiento distribuido de grandes
conjuntos de datos a través de grupos de ordenadores que utilizan modelos de
programación simple. Está diseñado para detectar y controlar los errores en la
capa de aplicación”.
Apache Hadoop tiene dos componentes centrales, el almacenamiento de
archivos llamado Hadoop Distributed File System (HDFS), y la infraestructura
de programación llamada MapReduce.
7.2.MapReduce
MapReduce es un motor computacional que permite una escalabilidad
descomunal a miles de servidores en un cluster Hadoop. Literalmente,
MapReduce se divide en dos términos, “Mapa” y “Reducir”. “Mapa” viene a ser
la conversión de un dataset en otro conjunto de datos al descomponer los
datos y la creación de pares de datos (clave / valor). La tarea de “reducir” es
tomar los datos del “mapa” y combinar los pares clave / valor en pares más
pequeños. Otro framework alternativo dentro del ecosistema Hadoop para
aplicaciones de procesamiento de datos es Apache Tez.
Imagen 81: Arquitectura Haddop
Imagen 82: Proceso MapReduceImagen 83: Arquitectura
Haddop
Imagen 84: Proceso MapReduce
Imagen 85: GridGainImagen 86: Proceso
MapReduceImagen 87: Arquitectura Haddop
Imagen 88: Proceso MapReduceImagen 89: Arquitectura
Haddop
Imagen 90: Proceso MapReduce
Imagen 91: GridGainImagen 92: Proceso MapReduce
Imagen 93: GridGain
Imagen 94: Arquitectura HPCCImagen 95:
GridGainImagen 96: Proceso MapReduce
Imagen 97: GridGainImagen 98: Proceso
MapReduceImagen 99: Arquitectura Haddop
17. Big Data.
U s s Página 16
7.3. Gridgain
Gridgrain es una herramienta que proporciona métodos dinámicos de
computación y almacenamiento de datos tales como la agrupación dinámica,
procesamiento MapReduce, ejecución de cierre distribuido, balanceo de carga,
tolerancia a fallos, mensajería distribuida y escalabilidad lineal.
Imagen 108: Proceso MapReduce
Imagen 109: GridGainImagen 110: Proceso MapReduce
Imagen 111: GridGain
Imagen 112: Arquitectura HPCCImagen 113: GridGainImagen 114: Proceso
MapReduce
Imagen 115: GridGainImagen 116: Proceso MapReduce
Imagen 117: GridGain
Imagen 118: Arquitectura HPCCImagen 119: GridGain
Imagen 120: Arquitectura HPCC
Imagen 121: Ejemplo de Aplicacion RestImagen 122: Arquitectura HPCCImagen
123: GridGain
Imagen 124: Arquitectura HPCCImagen 125: GridGainImagen 126: Proceso
MapReduce
Imagen 127: GridGainImagen 128: Proceso MapReduce
Imagen 129: GridGain
Imagen 130: Arquitectura HPCCImagen 131: GridGainImagen 132: Proceso
MapReduce
Imagen 133: GridGainImagen 134: Proceso MapReduce
Imagen 135: GridGain
Imagen 136: Arquitectura HPCCImagen 137: GridGain
Imagen 138: Arquitectura HPCC
Imagen 139: Ejemplo de Aplicacion RestImagen 140:
Arquitectura HPCCImagen 141: GridGain
Imagen 142: Arquitectura HPCCImagen 143: GridGain
Imagen 144: Arquitectura HPCC
18. Big Data.
U s s Página 17
7.4. HPCC
HPCC, siglas de “clustering computacional de alto rendimiento “, es conocido
por ofrecer un rendimiento superior a Hadoop en determinados entornos. Esta
herramienta está disponible tanto en versión gratuita y versión de pago. Tiene
un apoyo activo de la comunidad en todo el mundo.
7.5. Storm
Apache Storm es una herramienta de código libre y abierto. Es fácil de usar y
puede ser integrada con cualquier lenguaje de programación. Ofrece una
interfaz fácil y fiable, permite procesamiento en tiempo real, similar a lo que
Hadoop hace en batch processing (procesamiento por lotes). Es una de las
herramientas más populares y está siendo utilizada por empresas como
Flipboard, Groupon, Twitter, Spotify, Yahoo (Japón), WebMD, Baidu y muchos
más.
Además de las anteriores, hay muchas herramientas de bases de datos /
datawarehouses que facilitan las tareas de manejo de grandes volúmenes de
Imagen 162: Arquitectura HPCC
Imagen 163: Ejemplo de Aplicacion RestImagen 164:
Arquitectura HPCC
Imagen 165: Ejemplo de Aplicacion Restauracion Storm
Imagen 166: Plataforma Hana para BigdataImagen 167:
Ejemplo de Aplicacion RestImagen 168: Arquitectura
HPCC
Imagen 169: Ejemplo de Aplicacion RestImagen 170:
Arquitectura HPCC
Imagen 171: Ejemplo de Aplicacion Restauracion Storm
Imagen 172: Plataforma Hana para BigdataImagen 173:
Ejemplo de Aplicacion Restauracion Storm
Imagen 174: Plataforma Hana para Bigdata
Imagen 175: Arquitectura KafkaImagen 176: Plataforma
Hana para BigdataImagen 177: Ejemplo de Aplicacion
Restauracion Storm
Imagen 178: Plataforma Hana para BigdataImagen 179:
Ejemplo de Aplicacion RestImagen 180: Arquitectura
HPCC
Imagen 181: Ejemplo de Aplicacion RestImagen 182:
19. Big Data.
U s s Página 18
datos. Algunas de las más populares son MongoDB, CouchDB, Cassandra,
HBase, Neo4j, Riak, Hypertable.
7.6. HANA
La Ley de Moore también se aplica al Big Data, lo que nos conduce a
soluciones más rápidas, más asequibles, y gracias a ello procesadores y más
memoria. Todo tiende al análisis de datos en tiempo real. SAP ha sido el
campeón del enfoque in-memory con su plataforma Hana, pero Microsoft y
Oracle están a punto de introducir opciones en memoria a sus soluciones de
bases de datos. Proveedores de bases de datos enfocados en analítica como
Actium, HP Vertica, y Teradata han introducido opciones para relaciones de
alto acceso RAM a disco, junto con herramientas para colocar datos
específicos en memoria para el análisis ultra-rápido.
Imagen 189: Ejemplo de Aplicación Restauración Storm
Imagen 190: Plataforma Hana para BigdataImagen 191: Ejemplo de
Aplicacion Restauracion Storm
Imagen 192: Plataforma Hana para Bigdata
Imagen 193: Arquitectura KafkaImagen 194: Plataforma Hana para
BigdataImagen 195: Ejemplo de Aplicacion Restauracion Storm
Imagen 196: Plataforma Hana para BigdataImagen 197: Ejemplo de
Aplicacion Restauracion Storm
Imagen 198: Plataforma Hana para Bigdata
Imagen 199: Arquitectura KafkaImagen 200: Plataforma Hana para
Bigdata
Imagen 201: Arquitectura Kafka
Imagen 202: Arquitectura FlumeImagen 203: Arquitectura KafkaImagen
204: Plataforma Hana para Bigdata
Imagen 205: Arquitectura KafkaImagen 206: Plataforma Hana para
BigdataImagen 207: Ejemplo de Aplicacion Restauracion Storm
Imagen 208: Plataforma Hana para BigdataImagen 209: Ejemplo de
Aplicacion Restauracion Storm
Imagen 210: Plataforma Hana para Bigdata
Imagen 211: Arquitectura KafkaImagen 212: Plataforma Hana para
BigdataImagen 213: Ejemplo de Aplicacion Restauracion Storm
20. Big Data.
U s s Página 19
7.7. SPARK
Apache Spark es un motor de procesamiento de datos a gran escala rápido y
fácil de usar. Se pueden programar aplicaciones usando diferentes lenguajes
como Java, Scala, Python o R. Según las aplicaciones puede llegar a ser 100
veces más rápido que Hadoop MapReduce en memoria o 10 veces más rápido
en disco. Permite combinar SQL, streaming y librerías analíticas avanzadas,
MLlib para machine learning, GraphX y Spark Streaming. Puede funcionar
Imagen 216: Plataforma Hana para Bigdata
Imagen 217: Arquitectura KafkaImagen 218: Plataforma Hana para Bigdata
Imagen 219: Arquitectura Kafka
Imagen 220: Arquitectura FlumeImagen 221: Arquitectura KafkaImagen 222:
Plataforma Hana para Bigdata
Imagen 223: Arquitectura KafkaImagen 224: Plataforma Hana para Bigdata
Imagen 225: Arquitectura Kafka
Imagen 226: Arquitectura FlumeImagen 227: Arquitectura Kafka
Imagen 228: Arquitectura Flume
Imagen 229: Beneficios del Uso de BigdataImagen 230: Arquitectura
FlumeImagen 231: Arquitectura Kafka
Imagen 232: Arquitectura FlumeImagen 233: Arquitectura KafkaImagen 234:
Plataforma Hana para Bigdata
Imagen 235: Arquitectura KafkaImagen 236: Plataforma Hana para Bigdata
Imagen 237: Arquitectura Kafka
Imagen 238: Arquitectura FlumeImagen 239: Arquitectura KafkaImagen 240:
Plataforma Hana para Bigdata
Imagen 241: Arquitectura KafkaImagen 242: Plataforma Hana para Bigdata
21. Big Data.
U s s Página 20
sobre Hadoop, Mesos, formato standalone, o en cloud. Permite acceder
diversas fuentes de datos como HDFS, Cassandra, HBase y S3.
7.8.HIVE
Apache Hive es una infraestructura datawarehouse para Hadoop. Este
software facilita la consulta y gestión de grandes conjuntos de datos que
residen en almacenamiento distribuido. La funcionalidad principal de Hive
es proporcionar resumenes de datos, consultas y análisis. Es compatible
con el análisis de grandes conjuntos de datos almacenados en HDFS de
Hadoop, así como en el sistema de archivos de Amazon S3. Ofrece un
Imagen 243: Arquitecura Apache Spark
Imagen 244: Arquitectura HIVEImagen 245: Arquitecura Apache Spark
Imagen 246: Arquitectura HIVEImagen 247: Arquitecura Apache Spark
Imagen 248: Arquitectura HIVEImagen 249: Arquitecura Apache Spark
Imagen 250: Arquitectura HIVEImagen 251: Arquitecura Apache Spark
Imagen 252: Arquitectura HIVEImagen 253: Arquitecura Apache Spark
Imagen 254: Arquitectura HIVEImagen 255: Arquitecura Apache Spark
Imagen 256: Arquitectura HIVEImagen 257: Arquitecura Apache Spark
22. Big Data.
U s s Página 21
mecanismo para proyectar la estructura sobre los datos y consultarlos
utilizando un lenguaje similar a SQL llamado HiveQL.
7.9. KAFKA
Apache Kafka es un sistema de publicación distribuida. Ha sido diseñado para
permitir que un solo grupo de datos pueda servir como la columna vertebral
para una gran organización. Un único broker de Kafka puede manejar cientos
de megabytes en lecturas y escrituras por segundo desde miles de clientes.
Puede ser ampliado de manera elástica y transparente en modo producción.
Algunas de las empresas que usan Kafka para el streaming de datos son
Imagen 258: Arquitectura HIVE
23. Big Data.
U s s Página 22
LinkedIn, Yahoo, Twitter, Netflix, Square, Spotify, Pinterest, Uber, Goldman
Sachs, Tumblr, Paypal, Box, Airbnb, Cisco, Mozilla, Foursquare.
Imagen 259: Arquitectura Kafka
Imagen 260: Arquitectura FlumeImagen 261: Arquitectura Kafka
Imagen 262: Arquitectura Flume
Imagen 263: Beneficios del Uso de BigdataImagen 264: Arquitectura
FlumeImagen 265: Arquitectura Kafka
Imagen 266: Arquitectura FlumeImagen 267: Arquitectura Kafka
Imagen 268: Arquitectura Flume
Imagen 269: Beneficios del Uso de BigdataImagen 270: Arquitectura
Flume
Imagen 271: Beneficios del Uso de Bigdata
Imagen 272: Arquitecura Apache SparkImagen 273: Beneficios del Uso
de BigdataImagen 274: Arquitectura Flume
Imagen 275: Beneficios del Uso de BigdataImagen 276: Arquitectura
FlumeImagen 277: Arquitectura Kafka
Imagen 278: Arquitectura FlumeImagen 279: Arquitectura Kafka
Imagen 280: Arquitectura Flume
24. Big Data.
U s s Página 23
7.10. FLUME
Es un servicio distribuido, confiable y disponible para recolectar, agregar y
mover grandes cantidades de datos de registro eficientemente. Cuenta con una
arquitectura simple y flexible basada en transmisión de flujos de datos. Es
robusto y tolerante a fallos con los mecanismos de fiabilidad, conmutación por
error y los mecanismos de recuperación. Se utiliza un modelo de datos
extensible simple que permite una aplicación analítica en línea.
FLUJO DE DATOS
Imagen 286: Arquitectura Flume
Imagen 287: Beneficios del Uso de BigdataImagen 288:
Arquitectura Flume
Imagen 289: Beneficios del Uso de Bigdata
Imagen 290: Arquitecura Apache SparkImagen 291:
Beneficios del Uso de BigdataImagen 292: Arquitectura
Flume
Imagen 293: Beneficios del Uso de BigdataImagen 294:
Arquitectura Flume
Imagen 295: Beneficios del Uso de Bigdata
Imagen 296: Arquitecura Apache SparkImagen 297:
Beneficios del Uso de Bigdata
Imagen 298: Arquitecura Apache Spark
Imagen 299: Arquitectura HIVEImagen 300: Arquitecura Apache
SparkImagen 301: Beneficios del Uso de Bigdata
Imagen 302: Arquitecura Apache SparkImagen 303:
25. Big Data.
U s s Página 24
8. CONCLUSIONES
Big data es una nueva tendencia para el manejo de grandes volúmenes de
información, utilizado principalmente por grandes empresas, pero gracias a las
nuevas tecnologías y su fácil acceso podrá ser utilizado por cualquier empresa
o institución que desee vincularse al nuevo proceso que se puede lograr en la
gestión de la información.
La estructura de un ambiente Big Data ayuda a mejorar la manipulación de los
datos, optimizando la gestión de la información respecto a tiempo y costo,
logrando obtener mejores resultados en las estadísticas para una buena toma
de decisiones.
La creación de un ambiente Big Data se debe realizar dentro de un cluster, el
cual permita integrar todas las aplicaciones que se van a utilizar, como en este
caso Hadoop, en el cual se almacena la información y las aplicaciones corren
dentro del mismo nodo, evitando conflictos durante la ejecución.
Es importante resaltar que existen muchas maneras para transformar el mismo
modelo relacional al modelo basado en columnas, ya que se pueden tomar
distintos caminos para la unión de los datos, esto depende de la información
que se desee encontrar o saber. Para obtener una adecuada transformación se
deben tener en cuenta las llaves primarias, las cuales se convertirán en las row
key, que permitirá integrar toda la información dentro de una misma columna,
mejorando la manipulación que se darán a los datos.
26. Big Data.
U s s Página 25
9. REFERENCIAS BIBLIOGRÁFICAS:
Libro: Introducción al Big Data - Open Course Ware
Tesis: Diseño Y Desarrollo De Una Guía Para La Implementación De Un Ambiente
Big Data En La Universidad Católica De Colombia
https://campusvirtual.ull.es/ocw/course/view.php?id=95
https://www.informaticaparatunegocio.com/blog/beneficios-del-big-data-empresa/
http://www.tuataratech.com/2016/06/el-futuro-se-escribe-con-b-de-big-data.html
https://diarium.usal.es/id00707290/2016/03/15/big-data/
https://johnfaberblog.wordpress.com/2016/07/27/big-data-clasificacion-en-base-
de-la-estructura/
http://culturacrm.com/big-data/diferencias-big-data-business/
https://es.slideshare.net/interxionspain/big-data-espaa-q1-2013-prensa