SlideShare una empresa de Scribd logo
1 de 26
Descargar para leer sin conexión
FACULTAD DE INGENIERÍA,
ARQUITECTURA Y URBANISMO
ESCUELA PROFESIONAL DE INGENIERÍA DE
SISTEMAS
“BIG DATA”
DOCENTE:
Mg. Sánchez Guevara Omar Antonio.
INTEGRANTES:
Becerra Cardenas,Jorge
Fernández Román,Ismael.
Montalvo Sandoval ,Jose.
PIMENTEL – PERÚ
2015
Big Data.
U s s Página 1
ÍNDICE
TRABAJO DE INVESTIGACION .................................................................................... 3
OBJETIVO........................................................................................................................ 3
1. INTRODUCCIÓN ...................................................................................................... 3
2. MARCO TEÓRICO..................................................................................................... 4
3. DEFINICIÓN DE BIG DATA. ..................................................................................... 5
4. BI TRADICIONAL VS BIG DATA............................................................................... 8
5. Clasificación En Base De La Estructura ....................................................... 9
5.1. Nivel de estructura de los datos:................................................................. 10
5.1.1. Datos estructurados............................................................................... 11
5.1.2. Datos semi estructuradas ..................................................................... 12
6. BENEFICIOS DEL BIG DATA ............................................................................... 14
7. HERRAMIENTAS PARA IMPLEMENTAR SOLUCIONES DE BIG DATA. ......... 15
7.1. Hadoop............................................................................................................ 15
7.2. MapReduce..................................................................................................... 15
7.3. Gridgain .......................................................................................................... 16
7.4. HPCC ............................................................................................................... 17
7.5. Storm............................................................................................................... 17
7.6. HANA............................................................................................................... 18
7.7. SPARK............................................................................................................. 19
7.8. HIVE................................................................................................................. 20
7.9. KAFKA............................................................................................................. 21
7.10. FLUME ......................................................................................................... 23
8. CONCLUSIONES ................................................................................................... 24
9. REFERENCIAS BIBLIOGRÁFICAS:..................................................................... 25
Big Data.
U s s Página 2
Imágenes
IMAGEN 1: BENEFICIOS DEL USO DE BIGDATA................................................................... 6
IMAGEN 2: LAS 5 V DEL BIGDATA...................................................................................... 7
IMAGEN 3: BIGDATA VS BI ........................................... ¡ERROR! MARCADOR NO DEFINIDO.
IMAGEN 4: NIVELES DE ESTRUCTURA DE LOS DATOS ....................................................... 11
IMAGEN 5: ARQUITECTURA HADDOP ............................................................................... 15
IMAGEN 6: PROCESO MAPREDUCE.................................................................................. 16
IMAGEN 7: GRIDGAIN ...................................................................................................... 16
IMAGEN 8: ARQUITECTURA HPCC................................................................................... 17
IMAGEN 9: EJEMPLO DE APLICACION STORM RESTORATION ........................................... 18
IMAGEN 10: PLATAFORMA HANA PARA BIGDATA ............................................................ 19
IMAGEN 11: ARQUITECURA APACHE SPARK.................................................................... 20
IMAGEN 12: ARQUITECTURA HIVE .................................................................................. 21
IMAGEN 13: ARQUITECTURA KAFKA................................................................................ 22
IMAGEN 14: ARQUITECTURA FLUME ................................................................................ 23
Tablas
TABLA 1 : CARACTERÍSTICAS DEL BIGDATA....................................................................... 7
TABLA 2: DIFERENCIAS BI TRADICIONAL Y BIGDATA.......................................................... 8
Big Data.
U s s Página 3
TRABAJO DE INVESTIGACION
OBJETIVO
Realizar una investigación profunda sobre el tema asignado y sustentar dicha
investigación a través de una exposición.
La estructura sugerida para el trabajo de investigación es, grosso modo:
1. INTRODUCCIÓN
Con el constante crecimiento de información en cada uno de los aspectos más
relevantes mundialmente como sociedad, comercio y ciencia, se vuelve necesario un
cambio con respecto al manejo de la información, que hasta hace poco tiempo se
venía implementando a partir de bases de datos relacionales. Si bien este esquema
funcionaba para ambientes que almacenaban Teras de información con datos
puntuales y que a través de consultas SQL se podía buscar la información requerida,
se vuelve dispendioso y costoso al momento de analizar un mayor volumen de
información, en ambientes donde anualmente se almacenan petas de todo tipo de
datos, incluyendo aquí los no estructurados, como archivos de video y audio; un
ejemplo de esto es “Google, que recibe a diario trillones de bytes, con el objetivo de
ofrecer muchos de los servicios que actualmente se conocen como el mismo motor de
búsqueda y Google Earth”.
El manejo de grandes cantidades de información conlleva a pensar en la
implementación de herramientas que permitan administrar y gestionar este tipo de
datos no estructurados y semi-estructurados, en la búsqueda de patrones
concurrentes para la toma de decisiones. “Actualmente se pueden encontrar
tecnologías como Hadoop, MapReduce y bases de datos NoSQL, que se pueden
implementar en la creación de un ambiente Big Data”.
Big Data.
U s s Página 4
El Big Data en una combinación de tecnologías de gestión de datos que han
evolucionado en las últimas décadas.
Permite a las compañías almacenar y manipular grandes volúmenes de datos a la
velocidad adecuada y en el momento oportuno.
Big Data no es una solución aislada; es necesario hacer confluir una estrategia de
negocio con una técnica para aprovechar esta tendencia tecnológica.
Big Data es una combinación de los 50 años de evolución de la tecnología. Debemos
conocer las tecnologías emergentes que usan las compañías (Hadoop, MapReduce,
etc.). Las compañías han trabajado durante años para obtener información útil de sus
clientes, productos y servicios.
Algunos datos son estructurados y están almacenados en bases de datos. Sin
embargo, otros, incluyendo documentos, imágenes y vídeos, son desestructurados.
Además, las compañías tienen que considerar datos obtenidos de nuevas fuentes,
como son los sensores, las redes sociales, las páginas web, etc.
2. MARCO TEÓRICO
Big Data ha representado un movimiento revolucionario, en cuanto al manejo de toda
la información que hasta hace poco tiempo era poco probable se pudiera analizar, con
la inclusión de este concepto se puede pensar en el procesamiento de datos del tipo
no estructurado, como video, audio, sistemas GPS y gran número de sensores
ubicados en dispositivos móviles, automóviles y equipos industriales entre otros.
Big Data.
U s s Página 5
3. DEFINICIÓN DE BIG DATA.
Según Gartner 7, Big data es una referencia a aquellos sistemas de
información que manejan conjuntos de datos de gran volumen, de alta
velocidad, de veracidad, de valor y de gran variedad de recursos, que
demandan formas rentables e innovadoras de procesamiento de la
información para mejorar la comprensión y la toma de decisiones.
Según Gualtieri Big data es la solución al crecimiento exponencial de los
datos, en el momento en que se hace difícil su administración con respecto
al almacenamiento, procesamiento y acceso.
De esto se puede obtener beneficios como.
 “Optimizar el cálculo y la precisión algorítmica para reunir, analizar,
enlazar y comparar conjuntos de grandes datos”.
 “Identificar patrones para la toma de decisiones en los ámbitos
económico, social, técnico y legal”.
Big Data.
U s s Página 6
La mayoría de las definiciones que se pueden encontrar de Big data están
enfocadas al volumen de los datos, al almacenamiento de dicha información,
de esto se puede concluir que el volumen importa pero que también existen
otros atributos importantes de Big data, estos son: “la velocidad, la
veracidad, la variedad y el valor” 11 . Estos cinco aspectos constituyen
una definición comprensiva y además destruyen el mito acerca de que Big data
se trataúnicamente del volumen. A cada uno de estos aspectos se le atribuyen
las siguientes características:
Imagen 1: Beneficios del Uso de Bigdata
Imagen 2: Arquitecura Apache SparkImagen 3: Beneficios del Uso de Bigdata
Imagen 4: Arquitecura Apache Spark
Imagen 5: Arquitectura HIVEImagen 6: Arquitecura Apache SparkImagen 7:
Beneficios del Uso de Bigdata
Imagen 8: Arquitecura Apache SparkImagen 9: Beneficios del Uso de Bigdata
Imagen 10: Arquitecura Apache Spark
Imagen 11: Arquitectura HIVEImagen 12: Arquitecura Apache Spark
Imagen 13: Arquitectura HIVEImagen 14: Arquitecura Apache Spark
Imagen 15: Arquitectura HIVEImagen 16: Arquitecura Apache SparkImagen 17:
Beneficios del Uso de Bigdata
Imagen 18: Arquitecura Apache SparkImagen 19: Beneficios del Uso de Bigdata
Imagen 20: Arquitecura Apache Spark
Imagen 21: Arquitectura HIVEImagen 22: Arquitecura Apache SparkImagen 23:
Beneficios del Uso de Bigdata
Imagen 24: Arquitecura Apache SparkImagen 25: Beneficios del Uso de Bigdata
Big Data.
U s s Página 7
Tabla 1 : Características del Bigdata
Volumen Velocidad Variedad Veracidad Valor
Almacenamiento
En terabytes
Por lotes Estructurado Integridad y
Autenticidad
Estadísticas
Registros Tiempo
Cercano
No
estructurado
Origen y
Reputación
Eventos
Transacciones Tiempo
Real
Multi-factor Disponibilidad Correlaciones
Tablas y
Archivos
Procesos Probabilística Responsabilid
ad
Hipótesis
Imagen 26: Las 5 V del Bigdata
Imagen 27: BigData VS BIImagen 28: Las 5 V del Bigdata
Imagen 29: BigData VS BI
Imagen 30: Niveles de estructura de los datosImagen 31: BigData VS BIImagen 32:
Las 5 V del Bigdata
Imagen 33: BigData VS BIImagen 34: Las 5 V del Bigdata
Imagen 35: BigData VS BI
Imagen 36: Niveles de estructura de los datosImagen 37: BigData VS BI
Imagen 38: Niveles de estructura de los datos
Imagen 39: Arquitectura HaddopImagen 40: Niveles de estructura de los
datosImagen 41: BigData VS BI
Imagen 42: Niveles de estructura de los datosImagen 43: BigData VS BIImagen 44:
Las 5 V del Bigdata
Big Data.
U s s Página 8
4. BI TRADICIONAL VS BIG DATA
Tabla 2: Diferencias Bi Tradicional y Bigdata
DIFERENCIAS BIG DATA BUSINESS INTELLIGENCE
Almacenamiento
de datos:
Big Data almacena los datos en
un sistema de ficheros que puede
encontrarse distribuido por la
nube. Por tanto, tiene capacidad
para cruzar datos de varias
plataformas por ejemplo datos de
una red de información científica
con historiales médicos de un
centro sanitario.
Business Intelligence se
aplica a menor escala. Los
datos se almacenan en un
servidor central, en un
entorno seguro y más
flexible, por ejemplo,
información de las ventas de
una empresa.
Cantidad de
datos:
Big data tiene la capacidad de
analizar grandes volúmenes de
datos, de tal forma que llevan las
funciones de proceso a los datos.
business intelligence toma
los datos y los lleva hasta las
funciones.
Análisis del
kaos:
Big Data tiene la capacidad de
analizar datos que se encuentran
estructurados o no estructurados,
aquellos que no están
almacenados en soportes
tradicionales.
Es capaz de analizar datos
que provienen de diferentes
fuentes y plataformas, una
clara diferencias al business
intelligence.
Características
de los datos:
Big Data tiene la habilidad de
procesar y analizar datos que
provienen de archivos históricos
con datos que se obtienen en
tiempo real.
Si retomamos el ejemplo de
la investigación científica, se
podrán analizar datos
históricos de
comportamientos de
patógenos y datos obtenidos
de las nuevas zepas de un
mismo virus para tratar con
seguridad una epidemia.
Big Data.
U s s Página 9
Imagen 53: BigData VS BI
Big Data.
U s s Página 10
5. CLASIFICACIÓN EN BASE DE LA ESTRUCTURA
5.1. Nivel de estructura de los datos:
La forma en que se organizan los datos para facilitar su procesamiento usando
un computador
- Mayor nivel de estructura → Procesamiento más sencillo
- Menor nivel de estructura → Procesamiento más complejo
Por ejemplo, no es lo mismo el procesamiento y análisis de un texto escrito en
lenguaje humano que uno al que ya se han aplicado un conjunto de reglas
definidas para la estructuración de la información que contiene. ej. modelo
relacional, lenguaje de marcas XML, …
Cuando menor es el nivel de estructura más difícil es su procesamiento
(integración y verificación de la calidad) y, por tanto, más complicada es la
extracción de conocimiento.
En base a su nivel de estructura las fuentes de datos pueden clasificarse en:
- Estructuradas
- Semi estructuradas
- No estructuradas
Big Data.
U s s Página 11
5.1.1. Datos estructurados
Nivel más alto de estructura → Procesamiento eficiente y eficaz.
Los datos se almacenan con una estructura bien definida y que aplica unas
normas muy estrictas.
El ejemplo más claro son las bases de datos relacionales
- La información se almacena en tablas y se definen relaciones entre dichas
tablas.
- Las tablas se componen de filas (tuplas) y columnas (campos o atributos).
Toda la información se almacena de acuerdo al esquema relacional definido
Imagen 54: Niveles de estructura de los datos
Imagen 55: Arquitectura HaddopImagen 56:
Niveles de estructura de los datos
Imagen 57: Arquitectura Haddop
Imagen 58: Proceso MapReduceImagen 59:
Arquitectura HaddopImagen 60: Niveles de
estructura de los datos
Imagen 61: Arquitectura HaddopImagen 62:
Niveles de estructura de los datos
Imagen 63: Arquitectura Haddop
Imagen 64: Proceso MapReduceImagen 65:
Arquitectura Haddop
Imagen 66: Proceso MapReduce
Imagen 67: GridGainImagen 68: Proceso
MapReduceImagen 69: Arquitectura Haddop
Imagen 70: Proceso MapReduceImagen 71:
Arquitectura HaddopImagen 72: Niveles de
estructura de los datos
Imagen 73: Arquitectura HaddopImagen 74:
Niveles de estructura de los datos
Imagen 75: Arquitectura Haddop
Imagen 76: Proceso MapReduceImagen 77:
Arquitectura HaddopImagen 78: Niveles de
estructura de los datos
Big Data.
U s s Página 12
Por lo general, los almacenes de datos (Data Warehouses) usan esta
tecnología como almacenamiento subyacente
Aunque se aplique el modelo multidimensional (que vimos en el tema 2) en
lugar del modelo relacional
Suelen contener metadatos: información sobre los propios datos que ayuda en
su interpretación (ej. descripciones, unidades de medida usadas…)
5.1.2. Datos semi estructuradas
El procesamiento de información estructurada es el más sencillo y, desde hace
tiempo, se consigue realizar de forma eficiente para grandes volúmenes de
datos. Sin embargo, en Big Data, la mayoría de las fuentes externas de las que
disponemos son de las consideradas semi o nada estructuradas.
Los datos se almacenan conforme a conjunto de reglas menos estrictas y más
flexibles.
El nivel de estructura puede variar según su aplicación y, por tanto, también la
dificultad de procesamiento. A medio camino entre datos estructurados y nada
estructurados.
Algunos de los formatos semi estructurados más usados:
- XML, JSON, CSV, Excel.
En algunos los datos se organizan conforme a un esquema o modelo de datos
bien definido.
- XML (DTD y XML Schema)
Suelen contener metadatos.
Algunas de las fuentes que usualmente se distribuyen en estos formatos:
- Open Data, redes sociales, datos de sensores, logs de servidores web
(ejemplo de JSON).
Big Data.
U s s Página 13
5.1.3. Datos No Estructurados
Por último, tenemos los datos no estructurados:
Menor nivel de estructura: No tienen una estructura definida de forma explícita
- Ejemplos: texto (en lenguaje natural), vídeo, audio, imágenes…
- Sí pueden tener algún tipo de estructura implícita: ej. División en párrafos de
un texto, escenas de una película, estribillo de una canción.
Para un computador puede llegar a ser muy difícil de interpretar
- Es frecuente que, lo que es más fácil de interpretar para un humano sea lo
más difícil de interpretar para un computador
El 80% de las fuentes disponibles en Big Data son no estructuradas.
Existen algunas técnicas que permiten aprovechar este tipo de fuentes:
- Procesamiento del lenguaje natural (PLN) → Estructuración
- Minería de datos → Descubrimiento automático de conocimiento implícito en
los datos.
En una aplicación Big Data es frecuente trabajar con fuentes de datos de los 3
tipos como veremos en el módulo 4, la tecnología de almacenamiento y
procesamiento de Big Data centra sus esfuerzos en dar soporte efectivo y
eficiente a las nuevas fuentes semi y no estructuradas, y facilitar la integración
de estas con otras fuentes altamente estructuradas.
Puede ser necesario añadir estructura a las fuentes que no la tienen antes de
aplicar algún proceso de análisis para el descubrimiento de conocimiento
- Mediante procesos ETL.
Big Data.
U s s Página 14
6. BENEFICIOS DEL BIG DATA
Puede proporcionar ideas provenientes de enormes cantidades de datos de
múltiples fuentes que incluyen a aquellos que ya están almacenados en bases
de datos de la empresa, las que provienen de fuentes externas de terceros, de
Internet, redes sociales, etc.
Monitorización y previsión en tiempo real de eventos que pueden afectar el
rendimiento o las operaciones de los negocios.
Capacidad de encontrar, adquirir, extraer, manipular, analizar, conectar y
visualizar datos con diferentes herramientas.
Identificación de información importante que puede mejorar la calidad de la
toma de decisiones.
Capacidad de mitigar riesgos mediante la optimización de decisiones complejas
acerca de eventos no planificados con mayor rapidez.
Identificación de las causas fundamentales de fallos y problemas en tiempo
real.
Comprensión plena del potencial del marketing basado en datos.
Generación de ofertas a clientes basadas en sus hábitos de compra.
Mejora del compromiso del cliente y aumento de su fidelidad.
Reevaluación del portfolio de riesgos de forma rápida.
Personalización de la experiencia del cliente.
Añadiendo valor a las interacciones con los clientes online y offline.
Big Data.
U s s Página 15
7. HERRAMIENTAS PARA IMPLEMENTAR SOLUCIONES DE BIG DATA.
7.1. Hadoop
“Es un framework que permite el procesamiento distribuido de grandes
conjuntos de datos a través de grupos de ordenadores que utilizan modelos de
programación simple. Está diseñado para detectar y controlar los errores en la
capa de aplicación”.
Apache Hadoop tiene dos componentes centrales, el almacenamiento de
archivos llamado Hadoop Distributed File System (HDFS), y la infraestructura
de programación llamada MapReduce.
7.2.MapReduce
MapReduce es un motor computacional que permite una escalabilidad
descomunal a miles de servidores en un cluster Hadoop. Literalmente,
MapReduce se divide en dos términos, “Mapa” y “Reducir”. “Mapa” viene a ser
la conversión de un dataset en otro conjunto de datos al descomponer los
datos y la creación de pares de datos (clave / valor). La tarea de “reducir” es
tomar los datos del “mapa” y combinar los pares clave / valor en pares más
pequeños. Otro framework alternativo dentro del ecosistema Hadoop para
aplicaciones de procesamiento de datos es Apache Tez.
Imagen 81: Arquitectura Haddop
Imagen 82: Proceso MapReduceImagen 83: Arquitectura
Haddop
Imagen 84: Proceso MapReduce
Imagen 85: GridGainImagen 86: Proceso
MapReduceImagen 87: Arquitectura Haddop
Imagen 88: Proceso MapReduceImagen 89: Arquitectura
Haddop
Imagen 90: Proceso MapReduce
Imagen 91: GridGainImagen 92: Proceso MapReduce
Imagen 93: GridGain
Imagen 94: Arquitectura HPCCImagen 95:
GridGainImagen 96: Proceso MapReduce
Imagen 97: GridGainImagen 98: Proceso
MapReduceImagen 99: Arquitectura Haddop
Big Data.
U s s Página 16
7.3. Gridgain
Gridgrain es una herramienta que proporciona métodos dinámicos de
computación y almacenamiento de datos tales como la agrupación dinámica,
procesamiento MapReduce, ejecución de cierre distribuido, balanceo de carga,
tolerancia a fallos, mensajería distribuida y escalabilidad lineal.
Imagen 108: Proceso MapReduce
Imagen 109: GridGainImagen 110: Proceso MapReduce
Imagen 111: GridGain
Imagen 112: Arquitectura HPCCImagen 113: GridGainImagen 114: Proceso
MapReduce
Imagen 115: GridGainImagen 116: Proceso MapReduce
Imagen 117: GridGain
Imagen 118: Arquitectura HPCCImagen 119: GridGain
Imagen 120: Arquitectura HPCC
Imagen 121: Ejemplo de Aplicacion RestImagen 122: Arquitectura HPCCImagen
123: GridGain
Imagen 124: Arquitectura HPCCImagen 125: GridGainImagen 126: Proceso
MapReduce
Imagen 127: GridGainImagen 128: Proceso MapReduce
Imagen 129: GridGain
Imagen 130: Arquitectura HPCCImagen 131: GridGainImagen 132: Proceso
MapReduce
Imagen 133: GridGainImagen 134: Proceso MapReduce
Imagen 135: GridGain
Imagen 136: Arquitectura HPCCImagen 137: GridGain
Imagen 138: Arquitectura HPCC
Imagen 139: Ejemplo de Aplicacion RestImagen 140:
Arquitectura HPCCImagen 141: GridGain
Imagen 142: Arquitectura HPCCImagen 143: GridGain
Imagen 144: Arquitectura HPCC
Big Data.
U s s Página 17
7.4. HPCC
HPCC, siglas de “clustering computacional de alto rendimiento “, es conocido
por ofrecer un rendimiento superior a Hadoop en determinados entornos. Esta
herramienta está disponible tanto en versión gratuita y versión de pago. Tiene
un apoyo activo de la comunidad en todo el mundo.
7.5. Storm
Apache Storm es una herramienta de código libre y abierto. Es fácil de usar y
puede ser integrada con cualquier lenguaje de programación. Ofrece una
interfaz fácil y fiable, permite procesamiento en tiempo real, similar a lo que
Hadoop hace en batch processing (procesamiento por lotes). Es una de las
herramientas más populares y está siendo utilizada por empresas como
Flipboard, Groupon, Twitter, Spotify, Yahoo (Japón), WebMD, Baidu y muchos
más.
Además de las anteriores, hay muchas herramientas de bases de datos /
datawarehouses que facilitan las tareas de manejo de grandes volúmenes de
Imagen 162: Arquitectura HPCC
Imagen 163: Ejemplo de Aplicacion RestImagen 164:
Arquitectura HPCC
Imagen 165: Ejemplo de Aplicacion Restauracion Storm
Imagen 166: Plataforma Hana para BigdataImagen 167:
Ejemplo de Aplicacion RestImagen 168: Arquitectura
HPCC
Imagen 169: Ejemplo de Aplicacion RestImagen 170:
Arquitectura HPCC
Imagen 171: Ejemplo de Aplicacion Restauracion Storm
Imagen 172: Plataforma Hana para BigdataImagen 173:
Ejemplo de Aplicacion Restauracion Storm
Imagen 174: Plataforma Hana para Bigdata
Imagen 175: Arquitectura KafkaImagen 176: Plataforma
Hana para BigdataImagen 177: Ejemplo de Aplicacion
Restauracion Storm
Imagen 178: Plataforma Hana para BigdataImagen 179:
Ejemplo de Aplicacion RestImagen 180: Arquitectura
HPCC
Imagen 181: Ejemplo de Aplicacion RestImagen 182:
Big Data.
U s s Página 18
datos. Algunas de las más populares son MongoDB, CouchDB, Cassandra,
HBase, Neo4j, Riak, Hypertable.
7.6. HANA
La Ley de Moore también se aplica al Big Data, lo que nos conduce a
soluciones más rápidas, más asequibles, y gracias a ello procesadores y más
memoria. Todo tiende al análisis de datos en tiempo real. SAP ha sido el
campeón del enfoque in-memory con su plataforma Hana, pero Microsoft y
Oracle están a punto de introducir opciones en memoria a sus soluciones de
bases de datos. Proveedores de bases de datos enfocados en analítica como
Actium, HP Vertica, y Teradata han introducido opciones para relaciones de
alto acceso RAM a disco, junto con herramientas para colocar datos
específicos en memoria para el análisis ultra-rápido.
Imagen 189: Ejemplo de Aplicación Restauración Storm
Imagen 190: Plataforma Hana para BigdataImagen 191: Ejemplo de
Aplicacion Restauracion Storm
Imagen 192: Plataforma Hana para Bigdata
Imagen 193: Arquitectura KafkaImagen 194: Plataforma Hana para
BigdataImagen 195: Ejemplo de Aplicacion Restauracion Storm
Imagen 196: Plataforma Hana para BigdataImagen 197: Ejemplo de
Aplicacion Restauracion Storm
Imagen 198: Plataforma Hana para Bigdata
Imagen 199: Arquitectura KafkaImagen 200: Plataforma Hana para
Bigdata
Imagen 201: Arquitectura Kafka
Imagen 202: Arquitectura FlumeImagen 203: Arquitectura KafkaImagen
204: Plataforma Hana para Bigdata
Imagen 205: Arquitectura KafkaImagen 206: Plataforma Hana para
BigdataImagen 207: Ejemplo de Aplicacion Restauracion Storm
Imagen 208: Plataforma Hana para BigdataImagen 209: Ejemplo de
Aplicacion Restauracion Storm
Imagen 210: Plataforma Hana para Bigdata
Imagen 211: Arquitectura KafkaImagen 212: Plataforma Hana para
BigdataImagen 213: Ejemplo de Aplicacion Restauracion Storm
Big Data.
U s s Página 19
7.7. SPARK
Apache Spark es un motor de procesamiento de datos a gran escala rápido y
fácil de usar. Se pueden programar aplicaciones usando diferentes lenguajes
como Java, Scala, Python o R. Según las aplicaciones puede llegar a ser 100
veces más rápido que Hadoop MapReduce en memoria o 10 veces más rápido
en disco. Permite combinar SQL, streaming y librerías analíticas avanzadas,
MLlib para machine learning, GraphX y Spark Streaming. Puede funcionar
Imagen 216: Plataforma Hana para Bigdata
Imagen 217: Arquitectura KafkaImagen 218: Plataforma Hana para Bigdata
Imagen 219: Arquitectura Kafka
Imagen 220: Arquitectura FlumeImagen 221: Arquitectura KafkaImagen 222:
Plataforma Hana para Bigdata
Imagen 223: Arquitectura KafkaImagen 224: Plataforma Hana para Bigdata
Imagen 225: Arquitectura Kafka
Imagen 226: Arquitectura FlumeImagen 227: Arquitectura Kafka
Imagen 228: Arquitectura Flume
Imagen 229: Beneficios del Uso de BigdataImagen 230: Arquitectura
FlumeImagen 231: Arquitectura Kafka
Imagen 232: Arquitectura FlumeImagen 233: Arquitectura KafkaImagen 234:
Plataforma Hana para Bigdata
Imagen 235: Arquitectura KafkaImagen 236: Plataforma Hana para Bigdata
Imagen 237: Arquitectura Kafka
Imagen 238: Arquitectura FlumeImagen 239: Arquitectura KafkaImagen 240:
Plataforma Hana para Bigdata
Imagen 241: Arquitectura KafkaImagen 242: Plataforma Hana para Bigdata
Big Data.
U s s Página 20
sobre Hadoop, Mesos, formato standalone, o en cloud. Permite acceder
diversas fuentes de datos como HDFS, Cassandra, HBase y S3.
7.8.HIVE
Apache Hive es una infraestructura datawarehouse para Hadoop. Este
software facilita la consulta y gestión de grandes conjuntos de datos que
residen en almacenamiento distribuido. La funcionalidad principal de Hive
es proporcionar resumenes de datos, consultas y análisis. Es compatible
con el análisis de grandes conjuntos de datos almacenados en HDFS de
Hadoop, así como en el sistema de archivos de Amazon S3. Ofrece un
Imagen 243: Arquitecura Apache Spark
Imagen 244: Arquitectura HIVEImagen 245: Arquitecura Apache Spark
Imagen 246: Arquitectura HIVEImagen 247: Arquitecura Apache Spark
Imagen 248: Arquitectura HIVEImagen 249: Arquitecura Apache Spark
Imagen 250: Arquitectura HIVEImagen 251: Arquitecura Apache Spark
Imagen 252: Arquitectura HIVEImagen 253: Arquitecura Apache Spark
Imagen 254: Arquitectura HIVEImagen 255: Arquitecura Apache Spark
Imagen 256: Arquitectura HIVEImagen 257: Arquitecura Apache Spark
Big Data.
U s s Página 21
mecanismo para proyectar la estructura sobre los datos y consultarlos
utilizando un lenguaje similar a SQL llamado HiveQL.
7.9. KAFKA
Apache Kafka es un sistema de publicación distribuida. Ha sido diseñado para
permitir que un solo grupo de datos pueda servir como la columna vertebral
para una gran organización. Un único broker de Kafka puede manejar cientos
de megabytes en lecturas y escrituras por segundo desde miles de clientes.
Puede ser ampliado de manera elástica y transparente en modo producción.
Algunas de las empresas que usan Kafka para el streaming de datos son
Imagen 258: Arquitectura HIVE
Big Data.
U s s Página 22
LinkedIn, Yahoo, Twitter, Netflix, Square, Spotify, Pinterest, Uber, Goldman
Sachs, Tumblr, Paypal, Box, Airbnb, Cisco, Mozilla, Foursquare.
Imagen 259: Arquitectura Kafka
Imagen 260: Arquitectura FlumeImagen 261: Arquitectura Kafka
Imagen 262: Arquitectura Flume
Imagen 263: Beneficios del Uso de BigdataImagen 264: Arquitectura
FlumeImagen 265: Arquitectura Kafka
Imagen 266: Arquitectura FlumeImagen 267: Arquitectura Kafka
Imagen 268: Arquitectura Flume
Imagen 269: Beneficios del Uso de BigdataImagen 270: Arquitectura
Flume
Imagen 271: Beneficios del Uso de Bigdata
Imagen 272: Arquitecura Apache SparkImagen 273: Beneficios del Uso
de BigdataImagen 274: Arquitectura Flume
Imagen 275: Beneficios del Uso de BigdataImagen 276: Arquitectura
FlumeImagen 277: Arquitectura Kafka
Imagen 278: Arquitectura FlumeImagen 279: Arquitectura Kafka
Imagen 280: Arquitectura Flume
Big Data.
U s s Página 23
7.10. FLUME
Es un servicio distribuido, confiable y disponible para recolectar, agregar y
mover grandes cantidades de datos de registro eficientemente. Cuenta con una
arquitectura simple y flexible basada en transmisión de flujos de datos. Es
robusto y tolerante a fallos con los mecanismos de fiabilidad, conmutación por
error y los mecanismos de recuperación. Se utiliza un modelo de datos
extensible simple que permite una aplicación analítica en línea.
FLUJO DE DATOS
Imagen 286: Arquitectura Flume
Imagen 287: Beneficios del Uso de BigdataImagen 288:
Arquitectura Flume
Imagen 289: Beneficios del Uso de Bigdata
Imagen 290: Arquitecura Apache SparkImagen 291:
Beneficios del Uso de BigdataImagen 292: Arquitectura
Flume
Imagen 293: Beneficios del Uso de BigdataImagen 294:
Arquitectura Flume
Imagen 295: Beneficios del Uso de Bigdata
Imagen 296: Arquitecura Apache SparkImagen 297:
Beneficios del Uso de Bigdata
Imagen 298: Arquitecura Apache Spark
Imagen 299: Arquitectura HIVEImagen 300: Arquitecura Apache
SparkImagen 301: Beneficios del Uso de Bigdata
Imagen 302: Arquitecura Apache SparkImagen 303:
Big Data.
U s s Página 24
8. CONCLUSIONES
Big data es una nueva tendencia para el manejo de grandes volúmenes de
información, utilizado principalmente por grandes empresas, pero gracias a las
nuevas tecnologías y su fácil acceso podrá ser utilizado por cualquier empresa
o institución que desee vincularse al nuevo proceso que se puede lograr en la
gestión de la información.
La estructura de un ambiente Big Data ayuda a mejorar la manipulación de los
datos, optimizando la gestión de la información respecto a tiempo y costo,
logrando obtener mejores resultados en las estadísticas para una buena toma
de decisiones.
La creación de un ambiente Big Data se debe realizar dentro de un cluster, el
cual permita integrar todas las aplicaciones que se van a utilizar, como en este
caso Hadoop, en el cual se almacena la información y las aplicaciones corren
dentro del mismo nodo, evitando conflictos durante la ejecución.
Es importante resaltar que existen muchas maneras para transformar el mismo
modelo relacional al modelo basado en columnas, ya que se pueden tomar
distintos caminos para la unión de los datos, esto depende de la información
que se desee encontrar o saber. Para obtener una adecuada transformación se
deben tener en cuenta las llaves primarias, las cuales se convertirán en las row
key, que permitirá integrar toda la información dentro de una misma columna,
mejorando la manipulación que se darán a los datos.
Big Data.
U s s Página 25
9. REFERENCIAS BIBLIOGRÁFICAS:
 Libro: Introducción al Big Data - Open Course Ware
 Tesis: Diseño Y Desarrollo De Una Guía Para La Implementación De Un Ambiente
Big Data En La Universidad Católica De Colombia
 https://campusvirtual.ull.es/ocw/course/view.php?id=95
 https://www.informaticaparatunegocio.com/blog/beneficios-del-big-data-empresa/
 http://www.tuataratech.com/2016/06/el-futuro-se-escribe-con-b-de-big-data.html
 https://diarium.usal.es/id00707290/2016/03/15/big-data/
 https://johnfaberblog.wordpress.com/2016/07/27/big-data-clasificacion-en-base-
de-la-estructura/
 http://culturacrm.com/big-data/diferencias-big-data-business/
 https://es.slideshare.net/interxionspain/big-data-espaa-q1-2013-prensa

Más contenido relacionado

La actualidad más candente

Base de datos con conclusion
Base de datos con conclusionBase de datos con conclusion
Base de datos con conclusion
Angel kbn
 
Propuesta De Empresa. Estructura Y OrganizacióN Tic
Propuesta De Empresa. Estructura Y OrganizacióN TicPropuesta De Empresa. Estructura Y OrganizacióN Tic
Propuesta De Empresa. Estructura Y OrganizacióN Tic
Oriol Recasens
 
Ejemplo Gestion del Conocimiento
Ejemplo Gestion del ConocimientoEjemplo Gestion del Conocimiento
Ejemplo Gestion del Conocimiento
Karito Fernández
 
TRABAJO BUSINESS INTELLIGENCE
TRABAJO BUSINESS INTELLIGENCETRABAJO BUSINESS INTELLIGENCE
TRABAJO BUSINESS INTELLIGENCE
Rosmelys Ponce
 

La actualidad más candente (20)

Big data presentacion
Big data presentacionBig data presentacion
Big data presentacion
 
Introduccion al análisis de sistemas de información
Introduccion al análisis de sistemas de informaciónIntroduccion al análisis de sistemas de información
Introduccion al análisis de sistemas de información
 
Qué es el Big Data?
Qué es el Big Data?Qué es el Big Data?
Qué es el Big Data?
 
Ventajas y desventajas de los sistemas de informacion
Ventajas y desventajas de los sistemas de informacionVentajas y desventajas de los sistemas de informacion
Ventajas y desventajas de los sistemas de informacion
 
Fundamentos de las bases de datos
Fundamentos de las bases de datosFundamentos de las bases de datos
Fundamentos de las bases de datos
 
Introduccion a los sistemas de informacion
Introduccion a los sistemas de informacionIntroduccion a los sistemas de informacion
Introduccion a los sistemas de informacion
 
Base de datos con conclusion
Base de datos con conclusionBase de datos con conclusion
Base de datos con conclusion
 
Propuesta De Empresa. Estructura Y OrganizacióN Tic
Propuesta De Empresa. Estructura Y OrganizacióN TicPropuesta De Empresa. Estructura Y OrganizacióN Tic
Propuesta De Empresa. Estructura Y OrganizacióN Tic
 
Bases De Datos "Conceptos Basicos"
Bases De Datos "Conceptos Basicos"Bases De Datos "Conceptos Basicos"
Bases De Datos "Conceptos Basicos"
 
ETL
ETLETL
ETL
 
Tipos sistemas de información
Tipos sistemas de informaciónTipos sistemas de información
Tipos sistemas de información
 
Foda de la empresa electronica
Foda de la empresa electronicaFoda de la empresa electronica
Foda de la empresa electronica
 
Los Sistemas De Informacion
Los Sistemas De InformacionLos Sistemas De Informacion
Los Sistemas De Informacion
 
MAPA CONCEPTUAL SISTEMA DE INFORMACION
MAPA CONCEPTUAL SISTEMA DE INFORMACIONMAPA CONCEPTUAL SISTEMA DE INFORMACION
MAPA CONCEPTUAL SISTEMA DE INFORMACION
 
Propuesta de un modelo de analitica de datos
Propuesta de un modelo de analitica de datosPropuesta de un modelo de analitica de datos
Propuesta de un modelo de analitica de datos
 
Proyecto De Base De Datos
Proyecto De Base De DatosProyecto De Base De Datos
Proyecto De Base De Datos
 
Tipos de Sistemas Transaccionales
Tipos de Sistemas TransaccionalesTipos de Sistemas Transaccionales
Tipos de Sistemas Transaccionales
 
Ejemplo Gestion del Conocimiento
Ejemplo Gestion del ConocimientoEjemplo Gestion del Conocimiento
Ejemplo Gestion del Conocimiento
 
Data mart
Data martData mart
Data mart
 
TRABAJO BUSINESS INTELLIGENCE
TRABAJO BUSINESS INTELLIGENCETRABAJO BUSINESS INTELLIGENCE
TRABAJO BUSINESS INTELLIGENCE
 

Similar a Bigdata trabajo de investigacion

Similar a Bigdata trabajo de investigacion (20)

Trabajo de bigadata
Trabajo de bigadataTrabajo de bigadata
Trabajo de bigadata
 
BIG DATA COMPLETO ISBN.pdf
BIG DATA COMPLETO ISBN.pdfBIG DATA COMPLETO ISBN.pdf
BIG DATA COMPLETO ISBN.pdf
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptx
 
Big data
Big dataBig data
Big data
 
Fundamentos.pptx
Fundamentos.pptxFundamentos.pptx
Fundamentos.pptx
 
Código de buenas prácticas en protección de datos para proyectos Big Data
Código de buenas prácticas en protección de datos para proyectos Big DataCódigo de buenas prácticas en protección de datos para proyectos Big Data
Código de buenas prácticas en protección de datos para proyectos Big Data
 
01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx
 
Big data
Big dataBig data
Big data
 
Diapositivas
DiapositivasDiapositivas
Diapositivas
 
Big Data: retos y oportunidades para el turismo
Big Data: retos y oportunidades para el turismoBig Data: retos y oportunidades para el turismo
Big Data: retos y oportunidades para el turismo
 
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleoPonencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
 
Afc module 1 translated
Afc module 1 translatedAfc module 1 translated
Afc module 1 translated
 
Big Data, Big Picture
Big Data, Big PictureBig Data, Big Picture
Big Data, Big Picture
 
¿Qué es el Big Data?
¿Qué es el Big Data?¿Qué es el Big Data?
¿Qué es el Big Data?
 
Presentación big data
Presentación big dataPresentación big data
Presentación big data
 
Big data
Big dataBig data
Big data
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 
Big data
Big dataBig data
Big data
 
Aplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosAplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de Datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 

Más de Ris Fernandez

Más de Ris Fernandez (20)

Constancia
ConstanciaConstancia
Constancia
 
Proyecto de ingenieria movil
Proyecto de ingenieria movilProyecto de ingenieria movil
Proyecto de ingenieria movil
 
Fale portugues vol 1 autor maria harumi de ponce
Fale portugues vol 1 autor maria harumi de ponceFale portugues vol 1 autor maria harumi de ponce
Fale portugues vol 1 autor maria harumi de ponce
 
Novo avenida brasil_1.pdf
Novo avenida brasil_1.pdfNovo avenida brasil_1.pdf
Novo avenida brasil_1.pdf
 
Implementacion de base de datos
Implementacion de base de datosImplementacion de base de datos
Implementacion de base de datos
 
Preguntas desarrolladas sobre inteligencia artificial i
Preguntas desarrolladas sobre inteligencia artificial iPreguntas desarrolladas sobre inteligencia artificial i
Preguntas desarrolladas sobre inteligencia artificial i
 
Proyecto final video_vigilancia_mpch
Proyecto final video_vigilancia_mpchProyecto final video_vigilancia_mpch
Proyecto final video_vigilancia_mpch
 
Vision de los usuarios frente a las RADIACIONES NO IONIZANTES
Vision de los usuarios frente a las RADIACIONES NO IONIZANTESVision de los usuarios frente a las RADIACIONES NO IONIZANTES
Vision de los usuarios frente a las RADIACIONES NO IONIZANTES
 
Recaudación del Sector Telecomunicaciones
Recaudación del Sector TelecomunicacionesRecaudación del Sector Telecomunicaciones
Recaudación del Sector Telecomunicaciones
 
Desarrollo de la Telecomunicaciones , Las Antenas Y la Salud. UNMSM
Desarrollo de la Telecomunicaciones , Las Antenas Y la Salud. UNMSMDesarrollo de la Telecomunicaciones , Las Antenas Y la Salud. UNMSM
Desarrollo de la Telecomunicaciones , Las Antenas Y la Salud. UNMSM
 
Comision de lucha contra delitos aduaneros y la pirateria
Comision de lucha contra delitos aduaneros y la pirateriaComision de lucha contra delitos aduaneros y la pirateria
Comision de lucha contra delitos aduaneros y la pirateria
 
Ilegalidad e informalidad en los servicios de Telecomunicaciones
Ilegalidad e informalidad en los servicios de TelecomunicacionesIlegalidad e informalidad en los servicios de Telecomunicaciones
Ilegalidad e informalidad en los servicios de Telecomunicaciones
 
Exp lambayeque 09 2016
Exp lambayeque 09 2016Exp lambayeque 09 2016
Exp lambayeque 09 2016
 
Evento lambayeque fitel setiembre 2016
Evento lambayeque fitel setiembre 2016Evento lambayeque fitel setiembre 2016
Evento lambayeque fitel setiembre 2016
 
Tutorial de instalacion de pentaho
Tutorial de instalacion de pentahoTutorial de instalacion de pentaho
Tutorial de instalacion de pentaho
 
estructura y normas para el cableado estructurado para una empresa educativa
estructura y normas para el cableado estructurado para una empresa educativaestructura y normas para el cableado estructurado para una empresa educativa
estructura y normas para el cableado estructurado para una empresa educativa
 
Manual de instalacion de Dns-linux-ubuntu
Manual de instalacion de Dns-linux-ubuntuManual de instalacion de Dns-linux-ubuntu
Manual de instalacion de Dns-linux-ubuntu
 
instalacion-y-configuracion-de-un-servidor-dns-bind-en-ubuntu
instalacion-y-configuracion-de-un-servidor-dns-bind-en-ubuntuinstalacion-y-configuracion-de-un-servidor-dns-bind-en-ubuntu
instalacion-y-configuracion-de-un-servidor-dns-bind-en-ubuntu
 
Principales Herramientas de Business Intelligence
Principales Herramientas de Business IntelligencePrincipales Herramientas de Business Intelligence
Principales Herramientas de Business Intelligence
 
Entrenamiento de un carrito usando redes neuronales
Entrenamiento de un carrito usando redes neuronalesEntrenamiento de un carrito usando redes neuronales
Entrenamiento de un carrito usando redes neuronales
 

Último

INFORME de pregrado ingenieria de vias.pdf
INFORME de pregrado ingenieria de vias.pdfINFORME de pregrado ingenieria de vias.pdf
INFORME de pregrado ingenieria de vias.pdf
octaviosalazar18
 
sistema de CLORACIÓN DE AGUA POTABLE gst
sistema de CLORACIÓN DE AGUA POTABLE gstsistema de CLORACIÓN DE AGUA POTABLE gst
sistema de CLORACIÓN DE AGUA POTABLE gst
DavidRojas870673
 
Tipos de Valvulas para uso industrial y comercial
Tipos de Valvulas para uso industrial y comercialTipos de Valvulas para uso industrial y comercial
Tipos de Valvulas para uso industrial y comercial
macsal12345
 

Último (20)

metodos de fitomejoramiento en la aolicacion de plantas
metodos de fitomejoramiento en la aolicacion de plantasmetodos de fitomejoramiento en la aolicacion de plantas
metodos de fitomejoramiento en la aolicacion de plantas
 
INFORME de pregrado ingenieria de vias.pdf
INFORME de pregrado ingenieria de vias.pdfINFORME de pregrado ingenieria de vias.pdf
INFORME de pregrado ingenieria de vias.pdf
 
Six Sigma Process and the dmaic metodo process
Six Sigma Process and the dmaic metodo processSix Sigma Process and the dmaic metodo process
Six Sigma Process and the dmaic metodo process
 
Presentacion de la ganaderia en la región
Presentacion de la ganaderia en la regiónPresentacion de la ganaderia en la región
Presentacion de la ganaderia en la región
 
Análisis de Costos y Presupuestos CAPECO
Análisis de Costos y Presupuestos CAPECOAnálisis de Costos y Presupuestos CAPECO
Análisis de Costos y Presupuestos CAPECO
 
CI164 Materiales de Construcción 202401 - Sesión 03 Propiedades No Mecánicas.pdf
CI164 Materiales de Construcción 202401 - Sesión 03 Propiedades No Mecánicas.pdfCI164 Materiales de Construcción 202401 - Sesión 03 Propiedades No Mecánicas.pdf
CI164 Materiales de Construcción 202401 - Sesión 03 Propiedades No Mecánicas.pdf
 
Estadística Anual y Multianual del Sector Eléctrico Ecuatoriano
Estadística Anual y Multianual del Sector Eléctrico EcuatorianoEstadística Anual y Multianual del Sector Eléctrico Ecuatoriano
Estadística Anual y Multianual del Sector Eléctrico Ecuatoriano
 
sistema de CLORACIÓN DE AGUA POTABLE gst
sistema de CLORACIÓN DE AGUA POTABLE gstsistema de CLORACIÓN DE AGUA POTABLE gst
sistema de CLORACIÓN DE AGUA POTABLE gst
 
FUNCION DE ESTADO EN LA TERMODINAMICA.pdf
FUNCION DE ESTADO EN LA TERMODINAMICA.pdfFUNCION DE ESTADO EN LA TERMODINAMICA.pdf
FUNCION DE ESTADO EN LA TERMODINAMICA.pdf
 
CONEXIONES SERIE, PERALELO EN MÓDULOS FOTOVOLTAICOS.pdf
CONEXIONES SERIE, PERALELO EN MÓDULOS FOTOVOLTAICOS.pdfCONEXIONES SERIE, PERALELO EN MÓDULOS FOTOVOLTAICOS.pdf
CONEXIONES SERIE, PERALELO EN MÓDULOS FOTOVOLTAICOS.pdf
 
Sistema de lubricación para motores de combustión interna
Sistema de lubricación para motores de combustión internaSistema de lubricación para motores de combustión interna
Sistema de lubricación para motores de combustión interna
 
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHTAPORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
APORTES A LA ARQUITECTURA DE WALTER GROPIUS Y FRANK LLOYD WRIGHT
 
2. Cristaloquimica. ingenieria geologica
2. Cristaloquimica. ingenieria geologica2. Cristaloquimica. ingenieria geologica
2. Cristaloquimica. ingenieria geologica
 
Presentación de Redes de alcantarillado y agua potable
Presentación de Redes de alcantarillado y agua potablePresentación de Redes de alcantarillado y agua potable
Presentación de Redes de alcantarillado y agua potable
 
2024 GUIA PRACTICAS MICROBIOLOGIA- UNA 2017 (1).pdf
2024 GUIA PRACTICAS MICROBIOLOGIA- UNA 2017 (1).pdf2024 GUIA PRACTICAS MICROBIOLOGIA- UNA 2017 (1).pdf
2024 GUIA PRACTICAS MICROBIOLOGIA- UNA 2017 (1).pdf
 
Mecatronica Automotriz .pdf
Mecatronica Automotriz              .pdfMecatronica Automotriz              .pdf
Mecatronica Automotriz .pdf
 
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
“Análisis comparativo de viscosidad entre los fluidos de yogurt natural, acei...
 
Tipos de Valvulas para uso industrial y comercial
Tipos de Valvulas para uso industrial y comercialTipos de Valvulas para uso industrial y comercial
Tipos de Valvulas para uso industrial y comercial
 
Aportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
Aportes a la Arquitectura de Le Corbusier y Mies Van der RoheAportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
Aportes a la Arquitectura de Le Corbusier y Mies Van der Rohe
 
Video sustentación GA2- 240201528-AA3-EV01.pptx
Video sustentación GA2- 240201528-AA3-EV01.pptxVideo sustentación GA2- 240201528-AA3-EV01.pptx
Video sustentación GA2- 240201528-AA3-EV01.pptx
 

Bigdata trabajo de investigacion

  • 1. FACULTAD DE INGENIERÍA, ARQUITECTURA Y URBANISMO ESCUELA PROFESIONAL DE INGENIERÍA DE SISTEMAS “BIG DATA” DOCENTE: Mg. Sánchez Guevara Omar Antonio. INTEGRANTES: Becerra Cardenas,Jorge Fernández Román,Ismael. Montalvo Sandoval ,Jose. PIMENTEL – PERÚ 2015
  • 2. Big Data. U s s Página 1 ÍNDICE TRABAJO DE INVESTIGACION .................................................................................... 3 OBJETIVO........................................................................................................................ 3 1. INTRODUCCIÓN ...................................................................................................... 3 2. MARCO TEÓRICO..................................................................................................... 4 3. DEFINICIÓN DE BIG DATA. ..................................................................................... 5 4. BI TRADICIONAL VS BIG DATA............................................................................... 8 5. Clasificación En Base De La Estructura ....................................................... 9 5.1. Nivel de estructura de los datos:................................................................. 10 5.1.1. Datos estructurados............................................................................... 11 5.1.2. Datos semi estructuradas ..................................................................... 12 6. BENEFICIOS DEL BIG DATA ............................................................................... 14 7. HERRAMIENTAS PARA IMPLEMENTAR SOLUCIONES DE BIG DATA. ......... 15 7.1. Hadoop............................................................................................................ 15 7.2. MapReduce..................................................................................................... 15 7.3. Gridgain .......................................................................................................... 16 7.4. HPCC ............................................................................................................... 17 7.5. Storm............................................................................................................... 17 7.6. HANA............................................................................................................... 18 7.7. SPARK............................................................................................................. 19 7.8. HIVE................................................................................................................. 20 7.9. KAFKA............................................................................................................. 21 7.10. FLUME ......................................................................................................... 23 8. CONCLUSIONES ................................................................................................... 24 9. REFERENCIAS BIBLIOGRÁFICAS:..................................................................... 25
  • 3. Big Data. U s s Página 2 Imágenes IMAGEN 1: BENEFICIOS DEL USO DE BIGDATA................................................................... 6 IMAGEN 2: LAS 5 V DEL BIGDATA...................................................................................... 7 IMAGEN 3: BIGDATA VS BI ........................................... ¡ERROR! MARCADOR NO DEFINIDO. IMAGEN 4: NIVELES DE ESTRUCTURA DE LOS DATOS ....................................................... 11 IMAGEN 5: ARQUITECTURA HADDOP ............................................................................... 15 IMAGEN 6: PROCESO MAPREDUCE.................................................................................. 16 IMAGEN 7: GRIDGAIN ...................................................................................................... 16 IMAGEN 8: ARQUITECTURA HPCC................................................................................... 17 IMAGEN 9: EJEMPLO DE APLICACION STORM RESTORATION ........................................... 18 IMAGEN 10: PLATAFORMA HANA PARA BIGDATA ............................................................ 19 IMAGEN 11: ARQUITECURA APACHE SPARK.................................................................... 20 IMAGEN 12: ARQUITECTURA HIVE .................................................................................. 21 IMAGEN 13: ARQUITECTURA KAFKA................................................................................ 22 IMAGEN 14: ARQUITECTURA FLUME ................................................................................ 23 Tablas TABLA 1 : CARACTERÍSTICAS DEL BIGDATA....................................................................... 7 TABLA 2: DIFERENCIAS BI TRADICIONAL Y BIGDATA.......................................................... 8
  • 4. Big Data. U s s Página 3 TRABAJO DE INVESTIGACION OBJETIVO Realizar una investigación profunda sobre el tema asignado y sustentar dicha investigación a través de una exposición. La estructura sugerida para el trabajo de investigación es, grosso modo: 1. INTRODUCCIÓN Con el constante crecimiento de información en cada uno de los aspectos más relevantes mundialmente como sociedad, comercio y ciencia, se vuelve necesario un cambio con respecto al manejo de la información, que hasta hace poco tiempo se venía implementando a partir de bases de datos relacionales. Si bien este esquema funcionaba para ambientes que almacenaban Teras de información con datos puntuales y que a través de consultas SQL se podía buscar la información requerida, se vuelve dispendioso y costoso al momento de analizar un mayor volumen de información, en ambientes donde anualmente se almacenan petas de todo tipo de datos, incluyendo aquí los no estructurados, como archivos de video y audio; un ejemplo de esto es “Google, que recibe a diario trillones de bytes, con el objetivo de ofrecer muchos de los servicios que actualmente se conocen como el mismo motor de búsqueda y Google Earth”. El manejo de grandes cantidades de información conlleva a pensar en la implementación de herramientas que permitan administrar y gestionar este tipo de datos no estructurados y semi-estructurados, en la búsqueda de patrones concurrentes para la toma de decisiones. “Actualmente se pueden encontrar tecnologías como Hadoop, MapReduce y bases de datos NoSQL, que se pueden implementar en la creación de un ambiente Big Data”.
  • 5. Big Data. U s s Página 4 El Big Data en una combinación de tecnologías de gestión de datos que han evolucionado en las últimas décadas. Permite a las compañías almacenar y manipular grandes volúmenes de datos a la velocidad adecuada y en el momento oportuno. Big Data no es una solución aislada; es necesario hacer confluir una estrategia de negocio con una técnica para aprovechar esta tendencia tecnológica. Big Data es una combinación de los 50 años de evolución de la tecnología. Debemos conocer las tecnologías emergentes que usan las compañías (Hadoop, MapReduce, etc.). Las compañías han trabajado durante años para obtener información útil de sus clientes, productos y servicios. Algunos datos son estructurados y están almacenados en bases de datos. Sin embargo, otros, incluyendo documentos, imágenes y vídeos, son desestructurados. Además, las compañías tienen que considerar datos obtenidos de nuevas fuentes, como son los sensores, las redes sociales, las páginas web, etc. 2. MARCO TEÓRICO Big Data ha representado un movimiento revolucionario, en cuanto al manejo de toda la información que hasta hace poco tiempo era poco probable se pudiera analizar, con la inclusión de este concepto se puede pensar en el procesamiento de datos del tipo no estructurado, como video, audio, sistemas GPS y gran número de sensores ubicados en dispositivos móviles, automóviles y equipos industriales entre otros.
  • 6. Big Data. U s s Página 5 3. DEFINICIÓN DE BIG DATA. Según Gartner 7, Big data es una referencia a aquellos sistemas de información que manejan conjuntos de datos de gran volumen, de alta velocidad, de veracidad, de valor y de gran variedad de recursos, que demandan formas rentables e innovadoras de procesamiento de la información para mejorar la comprensión y la toma de decisiones. Según Gualtieri Big data es la solución al crecimiento exponencial de los datos, en el momento en que se hace difícil su administración con respecto al almacenamiento, procesamiento y acceso. De esto se puede obtener beneficios como.  “Optimizar el cálculo y la precisión algorítmica para reunir, analizar, enlazar y comparar conjuntos de grandes datos”.  “Identificar patrones para la toma de decisiones en los ámbitos económico, social, técnico y legal”.
  • 7. Big Data. U s s Página 6 La mayoría de las definiciones que se pueden encontrar de Big data están enfocadas al volumen de los datos, al almacenamiento de dicha información, de esto se puede concluir que el volumen importa pero que también existen otros atributos importantes de Big data, estos son: “la velocidad, la veracidad, la variedad y el valor” 11 . Estos cinco aspectos constituyen una definición comprensiva y además destruyen el mito acerca de que Big data se trataúnicamente del volumen. A cada uno de estos aspectos se le atribuyen las siguientes características: Imagen 1: Beneficios del Uso de Bigdata Imagen 2: Arquitecura Apache SparkImagen 3: Beneficios del Uso de Bigdata Imagen 4: Arquitecura Apache Spark Imagen 5: Arquitectura HIVEImagen 6: Arquitecura Apache SparkImagen 7: Beneficios del Uso de Bigdata Imagen 8: Arquitecura Apache SparkImagen 9: Beneficios del Uso de Bigdata Imagen 10: Arquitecura Apache Spark Imagen 11: Arquitectura HIVEImagen 12: Arquitecura Apache Spark Imagen 13: Arquitectura HIVEImagen 14: Arquitecura Apache Spark Imagen 15: Arquitectura HIVEImagen 16: Arquitecura Apache SparkImagen 17: Beneficios del Uso de Bigdata Imagen 18: Arquitecura Apache SparkImagen 19: Beneficios del Uso de Bigdata Imagen 20: Arquitecura Apache Spark Imagen 21: Arquitectura HIVEImagen 22: Arquitecura Apache SparkImagen 23: Beneficios del Uso de Bigdata Imagen 24: Arquitecura Apache SparkImagen 25: Beneficios del Uso de Bigdata
  • 8. Big Data. U s s Página 7 Tabla 1 : Características del Bigdata Volumen Velocidad Variedad Veracidad Valor Almacenamiento En terabytes Por lotes Estructurado Integridad y Autenticidad Estadísticas Registros Tiempo Cercano No estructurado Origen y Reputación Eventos Transacciones Tiempo Real Multi-factor Disponibilidad Correlaciones Tablas y Archivos Procesos Probabilística Responsabilid ad Hipótesis Imagen 26: Las 5 V del Bigdata Imagen 27: BigData VS BIImagen 28: Las 5 V del Bigdata Imagen 29: BigData VS BI Imagen 30: Niveles de estructura de los datosImagen 31: BigData VS BIImagen 32: Las 5 V del Bigdata Imagen 33: BigData VS BIImagen 34: Las 5 V del Bigdata Imagen 35: BigData VS BI Imagen 36: Niveles de estructura de los datosImagen 37: BigData VS BI Imagen 38: Niveles de estructura de los datos Imagen 39: Arquitectura HaddopImagen 40: Niveles de estructura de los datosImagen 41: BigData VS BI Imagen 42: Niveles de estructura de los datosImagen 43: BigData VS BIImagen 44: Las 5 V del Bigdata
  • 9. Big Data. U s s Página 8 4. BI TRADICIONAL VS BIG DATA Tabla 2: Diferencias Bi Tradicional y Bigdata DIFERENCIAS BIG DATA BUSINESS INTELLIGENCE Almacenamiento de datos: Big Data almacena los datos en un sistema de ficheros que puede encontrarse distribuido por la nube. Por tanto, tiene capacidad para cruzar datos de varias plataformas por ejemplo datos de una red de información científica con historiales médicos de un centro sanitario. Business Intelligence se aplica a menor escala. Los datos se almacenan en un servidor central, en un entorno seguro y más flexible, por ejemplo, información de las ventas de una empresa. Cantidad de datos: Big data tiene la capacidad de analizar grandes volúmenes de datos, de tal forma que llevan las funciones de proceso a los datos. business intelligence toma los datos y los lleva hasta las funciones. Análisis del kaos: Big Data tiene la capacidad de analizar datos que se encuentran estructurados o no estructurados, aquellos que no están almacenados en soportes tradicionales. Es capaz de analizar datos que provienen de diferentes fuentes y plataformas, una clara diferencias al business intelligence. Características de los datos: Big Data tiene la habilidad de procesar y analizar datos que provienen de archivos históricos con datos que se obtienen en tiempo real. Si retomamos el ejemplo de la investigación científica, se podrán analizar datos históricos de comportamientos de patógenos y datos obtenidos de las nuevas zepas de un mismo virus para tratar con seguridad una epidemia.
  • 10. Big Data. U s s Página 9 Imagen 53: BigData VS BI
  • 11. Big Data. U s s Página 10 5. CLASIFICACIÓN EN BASE DE LA ESTRUCTURA 5.1. Nivel de estructura de los datos: La forma en que se organizan los datos para facilitar su procesamiento usando un computador - Mayor nivel de estructura → Procesamiento más sencillo - Menor nivel de estructura → Procesamiento más complejo Por ejemplo, no es lo mismo el procesamiento y análisis de un texto escrito en lenguaje humano que uno al que ya se han aplicado un conjunto de reglas definidas para la estructuración de la información que contiene. ej. modelo relacional, lenguaje de marcas XML, … Cuando menor es el nivel de estructura más difícil es su procesamiento (integración y verificación de la calidad) y, por tanto, más complicada es la extracción de conocimiento. En base a su nivel de estructura las fuentes de datos pueden clasificarse en: - Estructuradas - Semi estructuradas - No estructuradas
  • 12. Big Data. U s s Página 11 5.1.1. Datos estructurados Nivel más alto de estructura → Procesamiento eficiente y eficaz. Los datos se almacenan con una estructura bien definida y que aplica unas normas muy estrictas. El ejemplo más claro son las bases de datos relacionales - La información se almacena en tablas y se definen relaciones entre dichas tablas. - Las tablas se componen de filas (tuplas) y columnas (campos o atributos). Toda la información se almacena de acuerdo al esquema relacional definido Imagen 54: Niveles de estructura de los datos Imagen 55: Arquitectura HaddopImagen 56: Niveles de estructura de los datos Imagen 57: Arquitectura Haddop Imagen 58: Proceso MapReduceImagen 59: Arquitectura HaddopImagen 60: Niveles de estructura de los datos Imagen 61: Arquitectura HaddopImagen 62: Niveles de estructura de los datos Imagen 63: Arquitectura Haddop Imagen 64: Proceso MapReduceImagen 65: Arquitectura Haddop Imagen 66: Proceso MapReduce Imagen 67: GridGainImagen 68: Proceso MapReduceImagen 69: Arquitectura Haddop Imagen 70: Proceso MapReduceImagen 71: Arquitectura HaddopImagen 72: Niveles de estructura de los datos Imagen 73: Arquitectura HaddopImagen 74: Niveles de estructura de los datos Imagen 75: Arquitectura Haddop Imagen 76: Proceso MapReduceImagen 77: Arquitectura HaddopImagen 78: Niveles de estructura de los datos
  • 13. Big Data. U s s Página 12 Por lo general, los almacenes de datos (Data Warehouses) usan esta tecnología como almacenamiento subyacente Aunque se aplique el modelo multidimensional (que vimos en el tema 2) en lugar del modelo relacional Suelen contener metadatos: información sobre los propios datos que ayuda en su interpretación (ej. descripciones, unidades de medida usadas…) 5.1.2. Datos semi estructuradas El procesamiento de información estructurada es el más sencillo y, desde hace tiempo, se consigue realizar de forma eficiente para grandes volúmenes de datos. Sin embargo, en Big Data, la mayoría de las fuentes externas de las que disponemos son de las consideradas semi o nada estructuradas. Los datos se almacenan conforme a conjunto de reglas menos estrictas y más flexibles. El nivel de estructura puede variar según su aplicación y, por tanto, también la dificultad de procesamiento. A medio camino entre datos estructurados y nada estructurados. Algunos de los formatos semi estructurados más usados: - XML, JSON, CSV, Excel. En algunos los datos se organizan conforme a un esquema o modelo de datos bien definido. - XML (DTD y XML Schema) Suelen contener metadatos. Algunas de las fuentes que usualmente se distribuyen en estos formatos: - Open Data, redes sociales, datos de sensores, logs de servidores web (ejemplo de JSON).
  • 14. Big Data. U s s Página 13 5.1.3. Datos No Estructurados Por último, tenemos los datos no estructurados: Menor nivel de estructura: No tienen una estructura definida de forma explícita - Ejemplos: texto (en lenguaje natural), vídeo, audio, imágenes… - Sí pueden tener algún tipo de estructura implícita: ej. División en párrafos de un texto, escenas de una película, estribillo de una canción. Para un computador puede llegar a ser muy difícil de interpretar - Es frecuente que, lo que es más fácil de interpretar para un humano sea lo más difícil de interpretar para un computador El 80% de las fuentes disponibles en Big Data son no estructuradas. Existen algunas técnicas que permiten aprovechar este tipo de fuentes: - Procesamiento del lenguaje natural (PLN) → Estructuración - Minería de datos → Descubrimiento automático de conocimiento implícito en los datos. En una aplicación Big Data es frecuente trabajar con fuentes de datos de los 3 tipos como veremos en el módulo 4, la tecnología de almacenamiento y procesamiento de Big Data centra sus esfuerzos en dar soporte efectivo y eficiente a las nuevas fuentes semi y no estructuradas, y facilitar la integración de estas con otras fuentes altamente estructuradas. Puede ser necesario añadir estructura a las fuentes que no la tienen antes de aplicar algún proceso de análisis para el descubrimiento de conocimiento - Mediante procesos ETL.
  • 15. Big Data. U s s Página 14 6. BENEFICIOS DEL BIG DATA Puede proporcionar ideas provenientes de enormes cantidades de datos de múltiples fuentes que incluyen a aquellos que ya están almacenados en bases de datos de la empresa, las que provienen de fuentes externas de terceros, de Internet, redes sociales, etc. Monitorización y previsión en tiempo real de eventos que pueden afectar el rendimiento o las operaciones de los negocios. Capacidad de encontrar, adquirir, extraer, manipular, analizar, conectar y visualizar datos con diferentes herramientas. Identificación de información importante que puede mejorar la calidad de la toma de decisiones. Capacidad de mitigar riesgos mediante la optimización de decisiones complejas acerca de eventos no planificados con mayor rapidez. Identificación de las causas fundamentales de fallos y problemas en tiempo real. Comprensión plena del potencial del marketing basado en datos. Generación de ofertas a clientes basadas en sus hábitos de compra. Mejora del compromiso del cliente y aumento de su fidelidad. Reevaluación del portfolio de riesgos de forma rápida. Personalización de la experiencia del cliente. Añadiendo valor a las interacciones con los clientes online y offline.
  • 16. Big Data. U s s Página 15 7. HERRAMIENTAS PARA IMPLEMENTAR SOLUCIONES DE BIG DATA. 7.1. Hadoop “Es un framework que permite el procesamiento distribuido de grandes conjuntos de datos a través de grupos de ordenadores que utilizan modelos de programación simple. Está diseñado para detectar y controlar los errores en la capa de aplicación”. Apache Hadoop tiene dos componentes centrales, el almacenamiento de archivos llamado Hadoop Distributed File System (HDFS), y la infraestructura de programación llamada MapReduce. 7.2.MapReduce MapReduce es un motor computacional que permite una escalabilidad descomunal a miles de servidores en un cluster Hadoop. Literalmente, MapReduce se divide en dos términos, “Mapa” y “Reducir”. “Mapa” viene a ser la conversión de un dataset en otro conjunto de datos al descomponer los datos y la creación de pares de datos (clave / valor). La tarea de “reducir” es tomar los datos del “mapa” y combinar los pares clave / valor en pares más pequeños. Otro framework alternativo dentro del ecosistema Hadoop para aplicaciones de procesamiento de datos es Apache Tez. Imagen 81: Arquitectura Haddop Imagen 82: Proceso MapReduceImagen 83: Arquitectura Haddop Imagen 84: Proceso MapReduce Imagen 85: GridGainImagen 86: Proceso MapReduceImagen 87: Arquitectura Haddop Imagen 88: Proceso MapReduceImagen 89: Arquitectura Haddop Imagen 90: Proceso MapReduce Imagen 91: GridGainImagen 92: Proceso MapReduce Imagen 93: GridGain Imagen 94: Arquitectura HPCCImagen 95: GridGainImagen 96: Proceso MapReduce Imagen 97: GridGainImagen 98: Proceso MapReduceImagen 99: Arquitectura Haddop
  • 17. Big Data. U s s Página 16 7.3. Gridgain Gridgrain es una herramienta que proporciona métodos dinámicos de computación y almacenamiento de datos tales como la agrupación dinámica, procesamiento MapReduce, ejecución de cierre distribuido, balanceo de carga, tolerancia a fallos, mensajería distribuida y escalabilidad lineal. Imagen 108: Proceso MapReduce Imagen 109: GridGainImagen 110: Proceso MapReduce Imagen 111: GridGain Imagen 112: Arquitectura HPCCImagen 113: GridGainImagen 114: Proceso MapReduce Imagen 115: GridGainImagen 116: Proceso MapReduce Imagen 117: GridGain Imagen 118: Arquitectura HPCCImagen 119: GridGain Imagen 120: Arquitectura HPCC Imagen 121: Ejemplo de Aplicacion RestImagen 122: Arquitectura HPCCImagen 123: GridGain Imagen 124: Arquitectura HPCCImagen 125: GridGainImagen 126: Proceso MapReduce Imagen 127: GridGainImagen 128: Proceso MapReduce Imagen 129: GridGain Imagen 130: Arquitectura HPCCImagen 131: GridGainImagen 132: Proceso MapReduce Imagen 133: GridGainImagen 134: Proceso MapReduce Imagen 135: GridGain Imagen 136: Arquitectura HPCCImagen 137: GridGain Imagen 138: Arquitectura HPCC Imagen 139: Ejemplo de Aplicacion RestImagen 140: Arquitectura HPCCImagen 141: GridGain Imagen 142: Arquitectura HPCCImagen 143: GridGain Imagen 144: Arquitectura HPCC
  • 18. Big Data. U s s Página 17 7.4. HPCC HPCC, siglas de “clustering computacional de alto rendimiento “, es conocido por ofrecer un rendimiento superior a Hadoop en determinados entornos. Esta herramienta está disponible tanto en versión gratuita y versión de pago. Tiene un apoyo activo de la comunidad en todo el mundo. 7.5. Storm Apache Storm es una herramienta de código libre y abierto. Es fácil de usar y puede ser integrada con cualquier lenguaje de programación. Ofrece una interfaz fácil y fiable, permite procesamiento en tiempo real, similar a lo que Hadoop hace en batch processing (procesamiento por lotes). Es una de las herramientas más populares y está siendo utilizada por empresas como Flipboard, Groupon, Twitter, Spotify, Yahoo (Japón), WebMD, Baidu y muchos más. Además de las anteriores, hay muchas herramientas de bases de datos / datawarehouses que facilitan las tareas de manejo de grandes volúmenes de Imagen 162: Arquitectura HPCC Imagen 163: Ejemplo de Aplicacion RestImagen 164: Arquitectura HPCC Imagen 165: Ejemplo de Aplicacion Restauracion Storm Imagen 166: Plataforma Hana para BigdataImagen 167: Ejemplo de Aplicacion RestImagen 168: Arquitectura HPCC Imagen 169: Ejemplo de Aplicacion RestImagen 170: Arquitectura HPCC Imagen 171: Ejemplo de Aplicacion Restauracion Storm Imagen 172: Plataforma Hana para BigdataImagen 173: Ejemplo de Aplicacion Restauracion Storm Imagen 174: Plataforma Hana para Bigdata Imagen 175: Arquitectura KafkaImagen 176: Plataforma Hana para BigdataImagen 177: Ejemplo de Aplicacion Restauracion Storm Imagen 178: Plataforma Hana para BigdataImagen 179: Ejemplo de Aplicacion RestImagen 180: Arquitectura HPCC Imagen 181: Ejemplo de Aplicacion RestImagen 182:
  • 19. Big Data. U s s Página 18 datos. Algunas de las más populares son MongoDB, CouchDB, Cassandra, HBase, Neo4j, Riak, Hypertable. 7.6. HANA La Ley de Moore también se aplica al Big Data, lo que nos conduce a soluciones más rápidas, más asequibles, y gracias a ello procesadores y más memoria. Todo tiende al análisis de datos en tiempo real. SAP ha sido el campeón del enfoque in-memory con su plataforma Hana, pero Microsoft y Oracle están a punto de introducir opciones en memoria a sus soluciones de bases de datos. Proveedores de bases de datos enfocados en analítica como Actium, HP Vertica, y Teradata han introducido opciones para relaciones de alto acceso RAM a disco, junto con herramientas para colocar datos específicos en memoria para el análisis ultra-rápido. Imagen 189: Ejemplo de Aplicación Restauración Storm Imagen 190: Plataforma Hana para BigdataImagen 191: Ejemplo de Aplicacion Restauracion Storm Imagen 192: Plataforma Hana para Bigdata Imagen 193: Arquitectura KafkaImagen 194: Plataforma Hana para BigdataImagen 195: Ejemplo de Aplicacion Restauracion Storm Imagen 196: Plataforma Hana para BigdataImagen 197: Ejemplo de Aplicacion Restauracion Storm Imagen 198: Plataforma Hana para Bigdata Imagen 199: Arquitectura KafkaImagen 200: Plataforma Hana para Bigdata Imagen 201: Arquitectura Kafka Imagen 202: Arquitectura FlumeImagen 203: Arquitectura KafkaImagen 204: Plataforma Hana para Bigdata Imagen 205: Arquitectura KafkaImagen 206: Plataforma Hana para BigdataImagen 207: Ejemplo de Aplicacion Restauracion Storm Imagen 208: Plataforma Hana para BigdataImagen 209: Ejemplo de Aplicacion Restauracion Storm Imagen 210: Plataforma Hana para Bigdata Imagen 211: Arquitectura KafkaImagen 212: Plataforma Hana para BigdataImagen 213: Ejemplo de Aplicacion Restauracion Storm
  • 20. Big Data. U s s Página 19 7.7. SPARK Apache Spark es un motor de procesamiento de datos a gran escala rápido y fácil de usar. Se pueden programar aplicaciones usando diferentes lenguajes como Java, Scala, Python o R. Según las aplicaciones puede llegar a ser 100 veces más rápido que Hadoop MapReduce en memoria o 10 veces más rápido en disco. Permite combinar SQL, streaming y librerías analíticas avanzadas, MLlib para machine learning, GraphX y Spark Streaming. Puede funcionar Imagen 216: Plataforma Hana para Bigdata Imagen 217: Arquitectura KafkaImagen 218: Plataforma Hana para Bigdata Imagen 219: Arquitectura Kafka Imagen 220: Arquitectura FlumeImagen 221: Arquitectura KafkaImagen 222: Plataforma Hana para Bigdata Imagen 223: Arquitectura KafkaImagen 224: Plataforma Hana para Bigdata Imagen 225: Arquitectura Kafka Imagen 226: Arquitectura FlumeImagen 227: Arquitectura Kafka Imagen 228: Arquitectura Flume Imagen 229: Beneficios del Uso de BigdataImagen 230: Arquitectura FlumeImagen 231: Arquitectura Kafka Imagen 232: Arquitectura FlumeImagen 233: Arquitectura KafkaImagen 234: Plataforma Hana para Bigdata Imagen 235: Arquitectura KafkaImagen 236: Plataforma Hana para Bigdata Imagen 237: Arquitectura Kafka Imagen 238: Arquitectura FlumeImagen 239: Arquitectura KafkaImagen 240: Plataforma Hana para Bigdata Imagen 241: Arquitectura KafkaImagen 242: Plataforma Hana para Bigdata
  • 21. Big Data. U s s Página 20 sobre Hadoop, Mesos, formato standalone, o en cloud. Permite acceder diversas fuentes de datos como HDFS, Cassandra, HBase y S3. 7.8.HIVE Apache Hive es una infraestructura datawarehouse para Hadoop. Este software facilita la consulta y gestión de grandes conjuntos de datos que residen en almacenamiento distribuido. La funcionalidad principal de Hive es proporcionar resumenes de datos, consultas y análisis. Es compatible con el análisis de grandes conjuntos de datos almacenados en HDFS de Hadoop, así como en el sistema de archivos de Amazon S3. Ofrece un Imagen 243: Arquitecura Apache Spark Imagen 244: Arquitectura HIVEImagen 245: Arquitecura Apache Spark Imagen 246: Arquitectura HIVEImagen 247: Arquitecura Apache Spark Imagen 248: Arquitectura HIVEImagen 249: Arquitecura Apache Spark Imagen 250: Arquitectura HIVEImagen 251: Arquitecura Apache Spark Imagen 252: Arquitectura HIVEImagen 253: Arquitecura Apache Spark Imagen 254: Arquitectura HIVEImagen 255: Arquitecura Apache Spark Imagen 256: Arquitectura HIVEImagen 257: Arquitecura Apache Spark
  • 22. Big Data. U s s Página 21 mecanismo para proyectar la estructura sobre los datos y consultarlos utilizando un lenguaje similar a SQL llamado HiveQL. 7.9. KAFKA Apache Kafka es un sistema de publicación distribuida. Ha sido diseñado para permitir que un solo grupo de datos pueda servir como la columna vertebral para una gran organización. Un único broker de Kafka puede manejar cientos de megabytes en lecturas y escrituras por segundo desde miles de clientes. Puede ser ampliado de manera elástica y transparente en modo producción. Algunas de las empresas que usan Kafka para el streaming de datos son Imagen 258: Arquitectura HIVE
  • 23. Big Data. U s s Página 22 LinkedIn, Yahoo, Twitter, Netflix, Square, Spotify, Pinterest, Uber, Goldman Sachs, Tumblr, Paypal, Box, Airbnb, Cisco, Mozilla, Foursquare. Imagen 259: Arquitectura Kafka Imagen 260: Arquitectura FlumeImagen 261: Arquitectura Kafka Imagen 262: Arquitectura Flume Imagen 263: Beneficios del Uso de BigdataImagen 264: Arquitectura FlumeImagen 265: Arquitectura Kafka Imagen 266: Arquitectura FlumeImagen 267: Arquitectura Kafka Imagen 268: Arquitectura Flume Imagen 269: Beneficios del Uso de BigdataImagen 270: Arquitectura Flume Imagen 271: Beneficios del Uso de Bigdata Imagen 272: Arquitecura Apache SparkImagen 273: Beneficios del Uso de BigdataImagen 274: Arquitectura Flume Imagen 275: Beneficios del Uso de BigdataImagen 276: Arquitectura FlumeImagen 277: Arquitectura Kafka Imagen 278: Arquitectura FlumeImagen 279: Arquitectura Kafka Imagen 280: Arquitectura Flume
  • 24. Big Data. U s s Página 23 7.10. FLUME Es un servicio distribuido, confiable y disponible para recolectar, agregar y mover grandes cantidades de datos de registro eficientemente. Cuenta con una arquitectura simple y flexible basada en transmisión de flujos de datos. Es robusto y tolerante a fallos con los mecanismos de fiabilidad, conmutación por error y los mecanismos de recuperación. Se utiliza un modelo de datos extensible simple que permite una aplicación analítica en línea. FLUJO DE DATOS Imagen 286: Arquitectura Flume Imagen 287: Beneficios del Uso de BigdataImagen 288: Arquitectura Flume Imagen 289: Beneficios del Uso de Bigdata Imagen 290: Arquitecura Apache SparkImagen 291: Beneficios del Uso de BigdataImagen 292: Arquitectura Flume Imagen 293: Beneficios del Uso de BigdataImagen 294: Arquitectura Flume Imagen 295: Beneficios del Uso de Bigdata Imagen 296: Arquitecura Apache SparkImagen 297: Beneficios del Uso de Bigdata Imagen 298: Arquitecura Apache Spark Imagen 299: Arquitectura HIVEImagen 300: Arquitecura Apache SparkImagen 301: Beneficios del Uso de Bigdata Imagen 302: Arquitecura Apache SparkImagen 303:
  • 25. Big Data. U s s Página 24 8. CONCLUSIONES Big data es una nueva tendencia para el manejo de grandes volúmenes de información, utilizado principalmente por grandes empresas, pero gracias a las nuevas tecnologías y su fácil acceso podrá ser utilizado por cualquier empresa o institución que desee vincularse al nuevo proceso que se puede lograr en la gestión de la información. La estructura de un ambiente Big Data ayuda a mejorar la manipulación de los datos, optimizando la gestión de la información respecto a tiempo y costo, logrando obtener mejores resultados en las estadísticas para una buena toma de decisiones. La creación de un ambiente Big Data se debe realizar dentro de un cluster, el cual permita integrar todas las aplicaciones que se van a utilizar, como en este caso Hadoop, en el cual se almacena la información y las aplicaciones corren dentro del mismo nodo, evitando conflictos durante la ejecución. Es importante resaltar que existen muchas maneras para transformar el mismo modelo relacional al modelo basado en columnas, ya que se pueden tomar distintos caminos para la unión de los datos, esto depende de la información que se desee encontrar o saber. Para obtener una adecuada transformación se deben tener en cuenta las llaves primarias, las cuales se convertirán en las row key, que permitirá integrar toda la información dentro de una misma columna, mejorando la manipulación que se darán a los datos.
  • 26. Big Data. U s s Página 25 9. REFERENCIAS BIBLIOGRÁFICAS:  Libro: Introducción al Big Data - Open Course Ware  Tesis: Diseño Y Desarrollo De Una Guía Para La Implementación De Un Ambiente Big Data En La Universidad Católica De Colombia  https://campusvirtual.ull.es/ocw/course/view.php?id=95  https://www.informaticaparatunegocio.com/blog/beneficios-del-big-data-empresa/  http://www.tuataratech.com/2016/06/el-futuro-se-escribe-con-b-de-big-data.html  https://diarium.usal.es/id00707290/2016/03/15/big-data/  https://johnfaberblog.wordpress.com/2016/07/27/big-data-clasificacion-en-base- de-la-estructura/  http://culturacrm.com/big-data/diferencias-big-data-business/  https://es.slideshare.net/interxionspain/big-data-espaa-q1-2013-prensa