SlideShare una empresa de Scribd logo
FACULTAD DE INGENIERÍA,
ARQUITECTURA Y URBANISMO
ESCUELA PROFESIONAL DE INGENIERÍA DE
SISTEMAS
“BIG DATA”
DOCENTE:
Mg. Sánchez Guevara Omar Antonio.
INTEGRANTES:
Becerra Cardenas,Jorge
Fernández Román,Ismael.
Montalvo Sandoval ,Jose.
PIMENTEL – PERÚ
2015
Big Data.
U s s Página 1
ÍNDICE
TRABAJO DE INVESTIGACION .................................................................................... 3
OBJETIVO........................................................................................................................ 3
1. INTRODUCCIÓN ...................................................................................................... 3
2. MARCO TEÓRICO..................................................................................................... 4
3. DEFINICIÓN DE BIG DATA. ..................................................................................... 5
4. BI TRADICIONAL VS BIG DATA............................................................................... 8
5. Clasificación En Base De La Estructura ....................................................... 9
5.1. Nivel de estructura de los datos:................................................................. 10
5.1.1. Datos estructurados............................................................................... 11
5.1.2. Datos semi estructuradas ..................................................................... 12
6. BENEFICIOS DEL BIG DATA ............................................................................... 14
7. HERRAMIENTAS PARA IMPLEMENTAR SOLUCIONES DE BIG DATA. ......... 15
7.1. Hadoop............................................................................................................ 15
7.2. MapReduce..................................................................................................... 15
7.3. Gridgain .......................................................................................................... 16
7.4. HPCC ............................................................................................................... 17
7.5. Storm............................................................................................................... 17
7.6. HANA............................................................................................................... 18
7.7. SPARK............................................................................................................. 19
7.8. HIVE................................................................................................................. 20
7.9. KAFKA............................................................................................................. 21
7.10. FLUME ......................................................................................................... 23
8. CONCLUSIONES ................................................................................................... 24
9. REFERENCIAS BIBLIOGRÁFICAS:..................................................................... 25
Big Data.
U s s Página 2
Imágenes
IMAGEN 1: BENEFICIOS DEL USO DE BIGDATA................................................................... 6
IMAGEN 2: LAS 5 V DEL BIGDATA...................................................................................... 7
IMAGEN 3: BIGDATA VS BI ........................................... ¡ERROR! MARCADOR NO DEFINIDO.
IMAGEN 4: NIVELES DE ESTRUCTURA DE LOS DATOS ....................................................... 11
IMAGEN 5: ARQUITECTURA HADDOP ............................................................................... 15
IMAGEN 6: PROCESO MAPREDUCE.................................................................................. 16
IMAGEN 7: GRIDGAIN ...................................................................................................... 16
IMAGEN 8: ARQUITECTURA HPCC................................................................................... 17
IMAGEN 9: EJEMPLO DE APLICACION STORM RESTORATION ........................................... 18
IMAGEN 10: PLATAFORMA HANA PARA BIGDATA ............................................................ 19
IMAGEN 11: ARQUITECURA APACHE SPARK.................................................................... 20
IMAGEN 12: ARQUITECTURA HIVE .................................................................................. 21
IMAGEN 13: ARQUITECTURA KAFKA................................................................................ 22
IMAGEN 14: ARQUITECTURA FLUME ................................................................................ 23
Tablas
TABLA 1 : CARACTERÍSTICAS DEL BIGDATA....................................................................... 7
TABLA 2: DIFERENCIAS BI TRADICIONAL Y BIGDATA.......................................................... 8
Big Data.
U s s Página 3
TRABAJO DE INVESTIGACION
OBJETIVO
Realizar una investigación profunda sobre el tema asignado y sustentar dicha
investigación a través de una exposición.
La estructura sugerida para el trabajo de investigación es, grosso modo:
1. INTRODUCCIÓN
Con el constante crecimiento de información en cada uno de los aspectos más
relevantes mundialmente como sociedad, comercio y ciencia, se vuelve necesario un
cambio con respecto al manejo de la información, que hasta hace poco tiempo se
venía implementando a partir de bases de datos relacionales. Si bien este esquema
funcionaba para ambientes que almacenaban Teras de información con datos
puntuales y que a través de consultas SQL se podía buscar la información requerida,
se vuelve dispendioso y costoso al momento de analizar un mayor volumen de
información, en ambientes donde anualmente se almacenan petas de todo tipo de
datos, incluyendo aquí los no estructurados, como archivos de video y audio; un
ejemplo de esto es “Google, que recibe a diario trillones de bytes, con el objetivo de
ofrecer muchos de los servicios que actualmente se conocen como el mismo motor de
búsqueda y Google Earth”.
El manejo de grandes cantidades de información conlleva a pensar en la
implementación de herramientas que permitan administrar y gestionar este tipo de
datos no estructurados y semi-estructurados, en la búsqueda de patrones
concurrentes para la toma de decisiones. “Actualmente se pueden encontrar
tecnologías como Hadoop, MapReduce y bases de datos NoSQL, que se pueden
implementar en la creación de un ambiente Big Data”.
Big Data.
U s s Página 4
El Big Data en una combinación de tecnologías de gestión de datos que han
evolucionado en las últimas décadas.
Permite a las compañías almacenar y manipular grandes volúmenes de datos a la
velocidad adecuada y en el momento oportuno.
Big Data no es una solución aislada; es necesario hacer confluir una estrategia de
negocio con una técnica para aprovechar esta tendencia tecnológica.
Big Data es una combinación de los 50 años de evolución de la tecnología. Debemos
conocer las tecnologías emergentes que usan las compañías (Hadoop, MapReduce,
etc.). Las compañías han trabajado durante años para obtener información útil de sus
clientes, productos y servicios.
Algunos datos son estructurados y están almacenados en bases de datos. Sin
embargo, otros, incluyendo documentos, imágenes y vídeos, son desestructurados.
Además, las compañías tienen que considerar datos obtenidos de nuevas fuentes,
como son los sensores, las redes sociales, las páginas web, etc.
2. MARCO TEÓRICO
Big Data ha representado un movimiento revolucionario, en cuanto al manejo de toda
la información que hasta hace poco tiempo era poco probable se pudiera analizar, con
la inclusión de este concepto se puede pensar en el procesamiento de datos del tipo
no estructurado, como video, audio, sistemas GPS y gran número de sensores
ubicados en dispositivos móviles, automóviles y equipos industriales entre otros.
Big Data.
U s s Página 5
3. DEFINICIÓN DE BIG DATA.
Según Gartner 7, Big data es una referencia a aquellos sistemas de
información que manejan conjuntos de datos de gran volumen, de alta
velocidad, de veracidad, de valor y de gran variedad de recursos, que
demandan formas rentables e innovadoras de procesamiento de la
información para mejorar la comprensión y la toma de decisiones.
Según Gualtieri Big data es la solución al crecimiento exponencial de los
datos, en el momento en que se hace difícil su administración con respecto
al almacenamiento, procesamiento y acceso.
De esto se puede obtener beneficios como.
 “Optimizar el cálculo y la precisión algorítmica para reunir, analizar,
enlazar y comparar conjuntos de grandes datos”.
 “Identificar patrones para la toma de decisiones en los ámbitos
económico, social, técnico y legal”.
Big Data.
U s s Página 6
La mayoría de las definiciones que se pueden encontrar de Big data están
enfocadas al volumen de los datos, al almacenamiento de dicha información,
de esto se puede concluir que el volumen importa pero que también existen
otros atributos importantes de Big data, estos son: “la velocidad, la
veracidad, la variedad y el valor” 11 . Estos cinco aspectos constituyen
una definición comprensiva y además destruyen el mito acerca de que Big data
se trataúnicamente del volumen. A cada uno de estos aspectos se le atribuyen
las siguientes características:
Imagen 1: Beneficios del Uso de Bigdata
Imagen 2: Arquitecura Apache SparkImagen 3: Beneficios del Uso de Bigdata
Imagen 4: Arquitecura Apache Spark
Imagen 5: Arquitectura HIVEImagen 6: Arquitecura Apache SparkImagen 7:
Beneficios del Uso de Bigdata
Imagen 8: Arquitecura Apache SparkImagen 9: Beneficios del Uso de Bigdata
Imagen 10: Arquitecura Apache Spark
Imagen 11: Arquitectura HIVEImagen 12: Arquitecura Apache Spark
Imagen 13: Arquitectura HIVEImagen 14: Arquitecura Apache Spark
Imagen 15: Arquitectura HIVEImagen 16: Arquitecura Apache SparkImagen 17:
Beneficios del Uso de Bigdata
Imagen 18: Arquitecura Apache SparkImagen 19: Beneficios del Uso de Bigdata
Imagen 20: Arquitecura Apache Spark
Imagen 21: Arquitectura HIVEImagen 22: Arquitecura Apache SparkImagen 23:
Beneficios del Uso de Bigdata
Imagen 24: Arquitecura Apache SparkImagen 25: Beneficios del Uso de Bigdata
Big Data.
U s s Página 7
Tabla 1 : Características del Bigdata
Volumen Velocidad Variedad Veracidad Valor
Almacenamiento
En terabytes
Por lotes Estructurado Integridad y
Autenticidad
Estadísticas
Registros Tiempo
Cercano
No
estructurado
Origen y
Reputación
Eventos
Transacciones Tiempo
Real
Multi-factor Disponibilidad Correlaciones
Tablas y
Archivos
Procesos Probabilística Responsabilid
ad
Hipótesis
Imagen 26: Las 5 V del Bigdata
Imagen 27: BigData VS BIImagen 28: Las 5 V del Bigdata
Imagen 29: BigData VS BI
Imagen 30: Niveles de estructura de los datosImagen 31: BigData VS BIImagen 32:
Las 5 V del Bigdata
Imagen 33: BigData VS BIImagen 34: Las 5 V del Bigdata
Imagen 35: BigData VS BI
Imagen 36: Niveles de estructura de los datosImagen 37: BigData VS BI
Imagen 38: Niveles de estructura de los datos
Imagen 39: Arquitectura HaddopImagen 40: Niveles de estructura de los
datosImagen 41: BigData VS BI
Imagen 42: Niveles de estructura de los datosImagen 43: BigData VS BIImagen 44:
Las 5 V del Bigdata
Big Data.
U s s Página 8
4. BI TRADICIONAL VS BIG DATA
Tabla 2: Diferencias Bi Tradicional y Bigdata
DIFERENCIAS BIG DATA BUSINESS INTELLIGENCE
Almacenamiento
de datos:
Big Data almacena los datos en
un sistema de ficheros que puede
encontrarse distribuido por la
nube. Por tanto, tiene capacidad
para cruzar datos de varias
plataformas por ejemplo datos de
una red de información científica
con historiales médicos de un
centro sanitario.
Business Intelligence se
aplica a menor escala. Los
datos se almacenan en un
servidor central, en un
entorno seguro y más
flexible, por ejemplo,
información de las ventas de
una empresa.
Cantidad de
datos:
Big data tiene la capacidad de
analizar grandes volúmenes de
datos, de tal forma que llevan las
funciones de proceso a los datos.
business intelligence toma
los datos y los lleva hasta las
funciones.
Análisis del
kaos:
Big Data tiene la capacidad de
analizar datos que se encuentran
estructurados o no estructurados,
aquellos que no están
almacenados en soportes
tradicionales.
Es capaz de analizar datos
que provienen de diferentes
fuentes y plataformas, una
clara diferencias al business
intelligence.
Características
de los datos:
Big Data tiene la habilidad de
procesar y analizar datos que
provienen de archivos históricos
con datos que se obtienen en
tiempo real.
Si retomamos el ejemplo de
la investigación científica, se
podrán analizar datos
históricos de
comportamientos de
patógenos y datos obtenidos
de las nuevas zepas de un
mismo virus para tratar con
seguridad una epidemia.
Big Data.
U s s Página 9
Imagen 53: BigData VS BI
Big Data.
U s s Página 10
5. CLASIFICACIÓN EN BASE DE LA ESTRUCTURA
5.1. Nivel de estructura de los datos:
La forma en que se organizan los datos para facilitar su procesamiento usando
un computador
- Mayor nivel de estructura → Procesamiento más sencillo
- Menor nivel de estructura → Procesamiento más complejo
Por ejemplo, no es lo mismo el procesamiento y análisis de un texto escrito en
lenguaje humano que uno al que ya se han aplicado un conjunto de reglas
definidas para la estructuración de la información que contiene. ej. modelo
relacional, lenguaje de marcas XML, …
Cuando menor es el nivel de estructura más difícil es su procesamiento
(integración y verificación de la calidad) y, por tanto, más complicada es la
extracción de conocimiento.
En base a su nivel de estructura las fuentes de datos pueden clasificarse en:
- Estructuradas
- Semi estructuradas
- No estructuradas
Big Data.
U s s Página 11
5.1.1. Datos estructurados
Nivel más alto de estructura → Procesamiento eficiente y eficaz.
Los datos se almacenan con una estructura bien definida y que aplica unas
normas muy estrictas.
El ejemplo más claro son las bases de datos relacionales
- La información se almacena en tablas y se definen relaciones entre dichas
tablas.
- Las tablas se componen de filas (tuplas) y columnas (campos o atributos).
Toda la información se almacena de acuerdo al esquema relacional definido
Imagen 54: Niveles de estructura de los datos
Imagen 55: Arquitectura HaddopImagen 56:
Niveles de estructura de los datos
Imagen 57: Arquitectura Haddop
Imagen 58: Proceso MapReduceImagen 59:
Arquitectura HaddopImagen 60: Niveles de
estructura de los datos
Imagen 61: Arquitectura HaddopImagen 62:
Niveles de estructura de los datos
Imagen 63: Arquitectura Haddop
Imagen 64: Proceso MapReduceImagen 65:
Arquitectura Haddop
Imagen 66: Proceso MapReduce
Imagen 67: GridGainImagen 68: Proceso
MapReduceImagen 69: Arquitectura Haddop
Imagen 70: Proceso MapReduceImagen 71:
Arquitectura HaddopImagen 72: Niveles de
estructura de los datos
Imagen 73: Arquitectura HaddopImagen 74:
Niveles de estructura de los datos
Imagen 75: Arquitectura Haddop
Imagen 76: Proceso MapReduceImagen 77:
Arquitectura HaddopImagen 78: Niveles de
estructura de los datos
Big Data.
U s s Página 12
Por lo general, los almacenes de datos (Data Warehouses) usan esta
tecnología como almacenamiento subyacente
Aunque se aplique el modelo multidimensional (que vimos en el tema 2) en
lugar del modelo relacional
Suelen contener metadatos: información sobre los propios datos que ayuda en
su interpretación (ej. descripciones, unidades de medida usadas…)
5.1.2. Datos semi estructuradas
El procesamiento de información estructurada es el más sencillo y, desde hace
tiempo, se consigue realizar de forma eficiente para grandes volúmenes de
datos. Sin embargo, en Big Data, la mayoría de las fuentes externas de las que
disponemos son de las consideradas semi o nada estructuradas.
Los datos se almacenan conforme a conjunto de reglas menos estrictas y más
flexibles.
El nivel de estructura puede variar según su aplicación y, por tanto, también la
dificultad de procesamiento. A medio camino entre datos estructurados y nada
estructurados.
Algunos de los formatos semi estructurados más usados:
- XML, JSON, CSV, Excel.
En algunos los datos se organizan conforme a un esquema o modelo de datos
bien definido.
- XML (DTD y XML Schema)
Suelen contener metadatos.
Algunas de las fuentes que usualmente se distribuyen en estos formatos:
- Open Data, redes sociales, datos de sensores, logs de servidores web
(ejemplo de JSON).
Big Data.
U s s Página 13
5.1.3. Datos No Estructurados
Por último, tenemos los datos no estructurados:
Menor nivel de estructura: No tienen una estructura definida de forma explícita
- Ejemplos: texto (en lenguaje natural), vídeo, audio, imágenes…
- Sí pueden tener algún tipo de estructura implícita: ej. División en párrafos de
un texto, escenas de una película, estribillo de una canción.
Para un computador puede llegar a ser muy difícil de interpretar
- Es frecuente que, lo que es más fácil de interpretar para un humano sea lo
más difícil de interpretar para un computador
El 80% de las fuentes disponibles en Big Data son no estructuradas.
Existen algunas técnicas que permiten aprovechar este tipo de fuentes:
- Procesamiento del lenguaje natural (PLN) → Estructuración
- Minería de datos → Descubrimiento automático de conocimiento implícito en
los datos.
En una aplicación Big Data es frecuente trabajar con fuentes de datos de los 3
tipos como veremos en el módulo 4, la tecnología de almacenamiento y
procesamiento de Big Data centra sus esfuerzos en dar soporte efectivo y
eficiente a las nuevas fuentes semi y no estructuradas, y facilitar la integración
de estas con otras fuentes altamente estructuradas.
Puede ser necesario añadir estructura a las fuentes que no la tienen antes de
aplicar algún proceso de análisis para el descubrimiento de conocimiento
- Mediante procesos ETL.
Big Data.
U s s Página 14
6. BENEFICIOS DEL BIG DATA
Puede proporcionar ideas provenientes de enormes cantidades de datos de
múltiples fuentes que incluyen a aquellos que ya están almacenados en bases
de datos de la empresa, las que provienen de fuentes externas de terceros, de
Internet, redes sociales, etc.
Monitorización y previsión en tiempo real de eventos que pueden afectar el
rendimiento o las operaciones de los negocios.
Capacidad de encontrar, adquirir, extraer, manipular, analizar, conectar y
visualizar datos con diferentes herramientas.
Identificación de información importante que puede mejorar la calidad de la
toma de decisiones.
Capacidad de mitigar riesgos mediante la optimización de decisiones complejas
acerca de eventos no planificados con mayor rapidez.
Identificación de las causas fundamentales de fallos y problemas en tiempo
real.
Comprensión plena del potencial del marketing basado en datos.
Generación de ofertas a clientes basadas en sus hábitos de compra.
Mejora del compromiso del cliente y aumento de su fidelidad.
Reevaluación del portfolio de riesgos de forma rápida.
Personalización de la experiencia del cliente.
Añadiendo valor a las interacciones con los clientes online y offline.
Big Data.
U s s Página 15
7. HERRAMIENTAS PARA IMPLEMENTAR SOLUCIONES DE BIG DATA.
7.1. Hadoop
“Es un framework que permite el procesamiento distribuido de grandes
conjuntos de datos a través de grupos de ordenadores que utilizan modelos de
programación simple. Está diseñado para detectar y controlar los errores en la
capa de aplicación”.
Apache Hadoop tiene dos componentes centrales, el almacenamiento de
archivos llamado Hadoop Distributed File System (HDFS), y la infraestructura
de programación llamada MapReduce.
7.2.MapReduce
MapReduce es un motor computacional que permite una escalabilidad
descomunal a miles de servidores en un cluster Hadoop. Literalmente,
MapReduce se divide en dos términos, “Mapa” y “Reducir”. “Mapa” viene a ser
la conversión de un dataset en otro conjunto de datos al descomponer los
datos y la creación de pares de datos (clave / valor). La tarea de “reducir” es
tomar los datos del “mapa” y combinar los pares clave / valor en pares más
pequeños. Otro framework alternativo dentro del ecosistema Hadoop para
aplicaciones de procesamiento de datos es Apache Tez.
Imagen 81: Arquitectura Haddop
Imagen 82: Proceso MapReduceImagen 83: Arquitectura
Haddop
Imagen 84: Proceso MapReduce
Imagen 85: GridGainImagen 86: Proceso
MapReduceImagen 87: Arquitectura Haddop
Imagen 88: Proceso MapReduceImagen 89: Arquitectura
Haddop
Imagen 90: Proceso MapReduce
Imagen 91: GridGainImagen 92: Proceso MapReduce
Imagen 93: GridGain
Imagen 94: Arquitectura HPCCImagen 95:
GridGainImagen 96: Proceso MapReduce
Imagen 97: GridGainImagen 98: Proceso
MapReduceImagen 99: Arquitectura Haddop
Big Data.
U s s Página 16
7.3. Gridgain
Gridgrain es una herramienta que proporciona métodos dinámicos de
computación y almacenamiento de datos tales como la agrupación dinámica,
procesamiento MapReduce, ejecución de cierre distribuido, balanceo de carga,
tolerancia a fallos, mensajería distribuida y escalabilidad lineal.
Imagen 108: Proceso MapReduce
Imagen 109: GridGainImagen 110: Proceso MapReduce
Imagen 111: GridGain
Imagen 112: Arquitectura HPCCImagen 113: GridGainImagen 114: Proceso
MapReduce
Imagen 115: GridGainImagen 116: Proceso MapReduce
Imagen 117: GridGain
Imagen 118: Arquitectura HPCCImagen 119: GridGain
Imagen 120: Arquitectura HPCC
Imagen 121: Ejemplo de Aplicacion RestImagen 122: Arquitectura HPCCImagen
123: GridGain
Imagen 124: Arquitectura HPCCImagen 125: GridGainImagen 126: Proceso
MapReduce
Imagen 127: GridGainImagen 128: Proceso MapReduce
Imagen 129: GridGain
Imagen 130: Arquitectura HPCCImagen 131: GridGainImagen 132: Proceso
MapReduce
Imagen 133: GridGainImagen 134: Proceso MapReduce
Imagen 135: GridGain
Imagen 136: Arquitectura HPCCImagen 137: GridGain
Imagen 138: Arquitectura HPCC
Imagen 139: Ejemplo de Aplicacion RestImagen 140:
Arquitectura HPCCImagen 141: GridGain
Imagen 142: Arquitectura HPCCImagen 143: GridGain
Imagen 144: Arquitectura HPCC
Big Data.
U s s Página 17
7.4. HPCC
HPCC, siglas de “clustering computacional de alto rendimiento “, es conocido
por ofrecer un rendimiento superior a Hadoop en determinados entornos. Esta
herramienta está disponible tanto en versión gratuita y versión de pago. Tiene
un apoyo activo de la comunidad en todo el mundo.
7.5. Storm
Apache Storm es una herramienta de código libre y abierto. Es fácil de usar y
puede ser integrada con cualquier lenguaje de programación. Ofrece una
interfaz fácil y fiable, permite procesamiento en tiempo real, similar a lo que
Hadoop hace en batch processing (procesamiento por lotes). Es una de las
herramientas más populares y está siendo utilizada por empresas como
Flipboard, Groupon, Twitter, Spotify, Yahoo (Japón), WebMD, Baidu y muchos
más.
Además de las anteriores, hay muchas herramientas de bases de datos /
datawarehouses que facilitan las tareas de manejo de grandes volúmenes de
Imagen 162: Arquitectura HPCC
Imagen 163: Ejemplo de Aplicacion RestImagen 164:
Arquitectura HPCC
Imagen 165: Ejemplo de Aplicacion Restauracion Storm
Imagen 166: Plataforma Hana para BigdataImagen 167:
Ejemplo de Aplicacion RestImagen 168: Arquitectura
HPCC
Imagen 169: Ejemplo de Aplicacion RestImagen 170:
Arquitectura HPCC
Imagen 171: Ejemplo de Aplicacion Restauracion Storm
Imagen 172: Plataforma Hana para BigdataImagen 173:
Ejemplo de Aplicacion Restauracion Storm
Imagen 174: Plataforma Hana para Bigdata
Imagen 175: Arquitectura KafkaImagen 176: Plataforma
Hana para BigdataImagen 177: Ejemplo de Aplicacion
Restauracion Storm
Imagen 178: Plataforma Hana para BigdataImagen 179:
Ejemplo de Aplicacion RestImagen 180: Arquitectura
HPCC
Imagen 181: Ejemplo de Aplicacion RestImagen 182:
Big Data.
U s s Página 18
datos. Algunas de las más populares son MongoDB, CouchDB, Cassandra,
HBase, Neo4j, Riak, Hypertable.
7.6. HANA
La Ley de Moore también se aplica al Big Data, lo que nos conduce a
soluciones más rápidas, más asequibles, y gracias a ello procesadores y más
memoria. Todo tiende al análisis de datos en tiempo real. SAP ha sido el
campeón del enfoque in-memory con su plataforma Hana, pero Microsoft y
Oracle están a punto de introducir opciones en memoria a sus soluciones de
bases de datos. Proveedores de bases de datos enfocados en analítica como
Actium, HP Vertica, y Teradata han introducido opciones para relaciones de
alto acceso RAM a disco, junto con herramientas para colocar datos
específicos en memoria para el análisis ultra-rápido.
Imagen 189: Ejemplo de Aplicación Restauración Storm
Imagen 190: Plataforma Hana para BigdataImagen 191: Ejemplo de
Aplicacion Restauracion Storm
Imagen 192: Plataforma Hana para Bigdata
Imagen 193: Arquitectura KafkaImagen 194: Plataforma Hana para
BigdataImagen 195: Ejemplo de Aplicacion Restauracion Storm
Imagen 196: Plataforma Hana para BigdataImagen 197: Ejemplo de
Aplicacion Restauracion Storm
Imagen 198: Plataforma Hana para Bigdata
Imagen 199: Arquitectura KafkaImagen 200: Plataforma Hana para
Bigdata
Imagen 201: Arquitectura Kafka
Imagen 202: Arquitectura FlumeImagen 203: Arquitectura KafkaImagen
204: Plataforma Hana para Bigdata
Imagen 205: Arquitectura KafkaImagen 206: Plataforma Hana para
BigdataImagen 207: Ejemplo de Aplicacion Restauracion Storm
Imagen 208: Plataforma Hana para BigdataImagen 209: Ejemplo de
Aplicacion Restauracion Storm
Imagen 210: Plataforma Hana para Bigdata
Imagen 211: Arquitectura KafkaImagen 212: Plataforma Hana para
BigdataImagen 213: Ejemplo de Aplicacion Restauracion Storm
Big Data.
U s s Página 19
7.7. SPARK
Apache Spark es un motor de procesamiento de datos a gran escala rápido y
fácil de usar. Se pueden programar aplicaciones usando diferentes lenguajes
como Java, Scala, Python o R. Según las aplicaciones puede llegar a ser 100
veces más rápido que Hadoop MapReduce en memoria o 10 veces más rápido
en disco. Permite combinar SQL, streaming y librerías analíticas avanzadas,
MLlib para machine learning, GraphX y Spark Streaming. Puede funcionar
Imagen 216: Plataforma Hana para Bigdata
Imagen 217: Arquitectura KafkaImagen 218: Plataforma Hana para Bigdata
Imagen 219: Arquitectura Kafka
Imagen 220: Arquitectura FlumeImagen 221: Arquitectura KafkaImagen 222:
Plataforma Hana para Bigdata
Imagen 223: Arquitectura KafkaImagen 224: Plataforma Hana para Bigdata
Imagen 225: Arquitectura Kafka
Imagen 226: Arquitectura FlumeImagen 227: Arquitectura Kafka
Imagen 228: Arquitectura Flume
Imagen 229: Beneficios del Uso de BigdataImagen 230: Arquitectura
FlumeImagen 231: Arquitectura Kafka
Imagen 232: Arquitectura FlumeImagen 233: Arquitectura KafkaImagen 234:
Plataforma Hana para Bigdata
Imagen 235: Arquitectura KafkaImagen 236: Plataforma Hana para Bigdata
Imagen 237: Arquitectura Kafka
Imagen 238: Arquitectura FlumeImagen 239: Arquitectura KafkaImagen 240:
Plataforma Hana para Bigdata
Imagen 241: Arquitectura KafkaImagen 242: Plataforma Hana para Bigdata
Big Data.
U s s Página 20
sobre Hadoop, Mesos, formato standalone, o en cloud. Permite acceder
diversas fuentes de datos como HDFS, Cassandra, HBase y S3.
7.8.HIVE
Apache Hive es una infraestructura datawarehouse para Hadoop. Este
software facilita la consulta y gestión de grandes conjuntos de datos que
residen en almacenamiento distribuido. La funcionalidad principal de Hive
es proporcionar resumenes de datos, consultas y análisis. Es compatible
con el análisis de grandes conjuntos de datos almacenados en HDFS de
Hadoop, así como en el sistema de archivos de Amazon S3. Ofrece un
Imagen 243: Arquitecura Apache Spark
Imagen 244: Arquitectura HIVEImagen 245: Arquitecura Apache Spark
Imagen 246: Arquitectura HIVEImagen 247: Arquitecura Apache Spark
Imagen 248: Arquitectura HIVEImagen 249: Arquitecura Apache Spark
Imagen 250: Arquitectura HIVEImagen 251: Arquitecura Apache Spark
Imagen 252: Arquitectura HIVEImagen 253: Arquitecura Apache Spark
Imagen 254: Arquitectura HIVEImagen 255: Arquitecura Apache Spark
Imagen 256: Arquitectura HIVEImagen 257: Arquitecura Apache Spark
Big Data.
U s s Página 21
mecanismo para proyectar la estructura sobre los datos y consultarlos
utilizando un lenguaje similar a SQL llamado HiveQL.
7.9. KAFKA
Apache Kafka es un sistema de publicación distribuida. Ha sido diseñado para
permitir que un solo grupo de datos pueda servir como la columna vertebral
para una gran organización. Un único broker de Kafka puede manejar cientos
de megabytes en lecturas y escrituras por segundo desde miles de clientes.
Puede ser ampliado de manera elástica y transparente en modo producción.
Algunas de las empresas que usan Kafka para el streaming de datos son
Imagen 258: Arquitectura HIVE
Big Data.
U s s Página 22
LinkedIn, Yahoo, Twitter, Netflix, Square, Spotify, Pinterest, Uber, Goldman
Sachs, Tumblr, Paypal, Box, Airbnb, Cisco, Mozilla, Foursquare.
Imagen 259: Arquitectura Kafka
Imagen 260: Arquitectura FlumeImagen 261: Arquitectura Kafka
Imagen 262: Arquitectura Flume
Imagen 263: Beneficios del Uso de BigdataImagen 264: Arquitectura
FlumeImagen 265: Arquitectura Kafka
Imagen 266: Arquitectura FlumeImagen 267: Arquitectura Kafka
Imagen 268: Arquitectura Flume
Imagen 269: Beneficios del Uso de BigdataImagen 270: Arquitectura
Flume
Imagen 271: Beneficios del Uso de Bigdata
Imagen 272: Arquitecura Apache SparkImagen 273: Beneficios del Uso
de BigdataImagen 274: Arquitectura Flume
Imagen 275: Beneficios del Uso de BigdataImagen 276: Arquitectura
FlumeImagen 277: Arquitectura Kafka
Imagen 278: Arquitectura FlumeImagen 279: Arquitectura Kafka
Imagen 280: Arquitectura Flume
Big Data.
U s s Página 23
7.10. FLUME
Es un servicio distribuido, confiable y disponible para recolectar, agregar y
mover grandes cantidades de datos de registro eficientemente. Cuenta con una
arquitectura simple y flexible basada en transmisión de flujos de datos. Es
robusto y tolerante a fallos con los mecanismos de fiabilidad, conmutación por
error y los mecanismos de recuperación. Se utiliza un modelo de datos
extensible simple que permite una aplicación analítica en línea.
FLUJO DE DATOS
Imagen 286: Arquitectura Flume
Imagen 287: Beneficios del Uso de BigdataImagen 288:
Arquitectura Flume
Imagen 289: Beneficios del Uso de Bigdata
Imagen 290: Arquitecura Apache SparkImagen 291:
Beneficios del Uso de BigdataImagen 292: Arquitectura
Flume
Imagen 293: Beneficios del Uso de BigdataImagen 294:
Arquitectura Flume
Imagen 295: Beneficios del Uso de Bigdata
Imagen 296: Arquitecura Apache SparkImagen 297:
Beneficios del Uso de Bigdata
Imagen 298: Arquitecura Apache Spark
Imagen 299: Arquitectura HIVEImagen 300: Arquitecura Apache
SparkImagen 301: Beneficios del Uso de Bigdata
Imagen 302: Arquitecura Apache SparkImagen 303:
Big Data.
U s s Página 24
8. CONCLUSIONES
Big data es una nueva tendencia para el manejo de grandes volúmenes de
información, utilizado principalmente por grandes empresas, pero gracias a las
nuevas tecnologías y su fácil acceso podrá ser utilizado por cualquier empresa
o institución que desee vincularse al nuevo proceso que se puede lograr en la
gestión de la información.
La estructura de un ambiente Big Data ayuda a mejorar la manipulación de los
datos, optimizando la gestión de la información respecto a tiempo y costo,
logrando obtener mejores resultados en las estadísticas para una buena toma
de decisiones.
La creación de un ambiente Big Data se debe realizar dentro de un cluster, el
cual permita integrar todas las aplicaciones que se van a utilizar, como en este
caso Hadoop, en el cual se almacena la información y las aplicaciones corren
dentro del mismo nodo, evitando conflictos durante la ejecución.
Es importante resaltar que existen muchas maneras para transformar el mismo
modelo relacional al modelo basado en columnas, ya que se pueden tomar
distintos caminos para la unión de los datos, esto depende de la información
que se desee encontrar o saber. Para obtener una adecuada transformación se
deben tener en cuenta las llaves primarias, las cuales se convertirán en las row
key, que permitirá integrar toda la información dentro de una misma columna,
mejorando la manipulación que se darán a los datos.
Big Data.
U s s Página 25
9. REFERENCIAS BIBLIOGRÁFICAS:
 Libro: Introducción al Big Data - Open Course Ware
 Tesis: Diseño Y Desarrollo De Una Guía Para La Implementación De Un Ambiente
Big Data En La Universidad Católica De Colombia
 https://campusvirtual.ull.es/ocw/course/view.php?id=95
 https://www.informaticaparatunegocio.com/blog/beneficios-del-big-data-empresa/
 http://www.tuataratech.com/2016/06/el-futuro-se-escribe-con-b-de-big-data.html
 https://diarium.usal.es/id00707290/2016/03/15/big-data/
 https://johnfaberblog.wordpress.com/2016/07/27/big-data-clasificacion-en-base-
de-la-estructura/
 http://culturacrm.com/big-data/diferencias-big-data-business/
 https://es.slideshare.net/interxionspain/big-data-espaa-q1-2013-prensa

Más contenido relacionado

La actualidad más candente

Fundamentos de los sistemas de información
Fundamentos de los sistemas de informaciónFundamentos de los sistemas de información
Fundamentos de los sistemas de informaciónAngela Inciarte
 
Mapa conceptual big data
Mapa conceptual big dataMapa conceptual big data
Mapa conceptual big data
Héctor Medina
 
TRABAJO BUSINESS INTELLIGENCE
TRABAJO BUSINESS INTELLIGENCETRABAJO BUSINESS INTELLIGENCE
TRABAJO BUSINESS INTELLIGENCERosmelys Ponce
 
Base de datos con conclusion
Base de datos con conclusionBase de datos con conclusion
Base de datos con conclusionAngel kbn
 
Componentes de Business Intelligence
Componentes de Business IntelligenceComponentes de Business Intelligence
Componentes de Business Intelligence
Carlos Escobar
 
TIPOS DE BASE DE DATOS
TIPOS DE BASE DE DATOSTIPOS DE BASE DE DATOS
TIPOS DE BASE DE DATOS
UNIVERSIDAD NACIONAL DEL CALLAO
 
MAPA CONCEPTUAL SISTEMA DE INFORMACION
MAPA CONCEPTUAL SISTEMA DE INFORMACIONMAPA CONCEPTUAL SISTEMA DE INFORMACION
MAPA CONCEPTUAL SISTEMA DE INFORMACION
jacquelinerojas2701
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negocios
lobi7o
 
El DBA y sus funciones
El DBA y sus funcionesEl DBA y sus funciones
El DBA y sus funciones
kevinchontarivera
 
Ensayo sobre bases de datos
Ensayo sobre bases de datos  Ensayo sobre bases de datos
Ensayo sobre bases de datos
liliananaa
 
Bases de datos jerarquicas
Bases de datos jerarquicasBases de datos jerarquicas
Bases de datos jerarquicas
Alejandro Salazar
 
ciclo de vida de sistema de informacion
ciclo de vida de sistema de informacionciclo de vida de sistema de informacion
ciclo de vida de sistema de informacionManuel Medina
 
Fase de implementación de sistemas de información
Fase de implementación de sistemas de informaciónFase de implementación de sistemas de información
Fase de implementación de sistemas de informaciónNAHAMA19
 
Componentes de sgbd
Componentes de sgbdComponentes de sgbd
Componentes de sgbd
dalilaramontello
 
Diferencia entre dato e informacion
Diferencia entre dato e informacionDiferencia entre dato e informacion
Diferencia entre dato e informacionwarrior92
 
Base de datos tienda de abarrotes
Base de datos tienda de abarrotesBase de datos tienda de abarrotes
Base de datos tienda de abarrotes
Emmanuel Ávila Sandoval
 
Funciones de un administrador de base de datos
Funciones de un administrador de base de datosFunciones de un administrador de base de datos
Funciones de un administrador de base de datos
Rodolfo Kuman Chi
 
Base de datos para la farmacia "José"
Base de datos para la farmacia "José"Base de datos para la farmacia "José"
Base de datos para la farmacia "José"
BrandonDanielUgazSal1
 
Base de datos para la farmacia "José"
Base de datos para la farmacia "José"Base de datos para la farmacia "José"
Base de datos para la farmacia "José"
BrandonDanielUgazSal1
 

La actualidad más candente (20)

Fundamentos de los sistemas de información
Fundamentos de los sistemas de informaciónFundamentos de los sistemas de información
Fundamentos de los sistemas de información
 
Mapa conceptual big data
Mapa conceptual big dataMapa conceptual big data
Mapa conceptual big data
 
TRABAJO BUSINESS INTELLIGENCE
TRABAJO BUSINESS INTELLIGENCETRABAJO BUSINESS INTELLIGENCE
TRABAJO BUSINESS INTELLIGENCE
 
Base de datos con conclusion
Base de datos con conclusionBase de datos con conclusion
Base de datos con conclusion
 
Componentes de Business Intelligence
Componentes de Business IntelligenceComponentes de Business Intelligence
Componentes de Business Intelligence
 
TIPOS DE BASE DE DATOS
TIPOS DE BASE DE DATOSTIPOS DE BASE DE DATOS
TIPOS DE BASE DE DATOS
 
MAPA CONCEPTUAL SISTEMA DE INFORMACION
MAPA CONCEPTUAL SISTEMA DE INFORMACIONMAPA CONCEPTUAL SISTEMA DE INFORMACION
MAPA CONCEPTUAL SISTEMA DE INFORMACION
 
Cuadro comparativo sgbd
Cuadro comparativo sgbdCuadro comparativo sgbd
Cuadro comparativo sgbd
 
Inteligencia de negocios
Inteligencia de negociosInteligencia de negocios
Inteligencia de negocios
 
El DBA y sus funciones
El DBA y sus funcionesEl DBA y sus funciones
El DBA y sus funciones
 
Ensayo sobre bases de datos
Ensayo sobre bases de datos  Ensayo sobre bases de datos
Ensayo sobre bases de datos
 
Bases de datos jerarquicas
Bases de datos jerarquicasBases de datos jerarquicas
Bases de datos jerarquicas
 
ciclo de vida de sistema de informacion
ciclo de vida de sistema de informacionciclo de vida de sistema de informacion
ciclo de vida de sistema de informacion
 
Fase de implementación de sistemas de información
Fase de implementación de sistemas de informaciónFase de implementación de sistemas de información
Fase de implementación de sistemas de información
 
Componentes de sgbd
Componentes de sgbdComponentes de sgbd
Componentes de sgbd
 
Diferencia entre dato e informacion
Diferencia entre dato e informacionDiferencia entre dato e informacion
Diferencia entre dato e informacion
 
Base de datos tienda de abarrotes
Base de datos tienda de abarrotesBase de datos tienda de abarrotes
Base de datos tienda de abarrotes
 
Funciones de un administrador de base de datos
Funciones de un administrador de base de datosFunciones de un administrador de base de datos
Funciones de un administrador de base de datos
 
Base de datos para la farmacia "José"
Base de datos para la farmacia "José"Base de datos para la farmacia "José"
Base de datos para la farmacia "José"
 
Base de datos para la farmacia "José"
Base de datos para la farmacia "José"Base de datos para la farmacia "José"
Base de datos para la farmacia "José"
 

Similar a Bigdata trabajo de investigacion

Trabajo de bigadata
Trabajo de bigadataTrabajo de bigadata
Trabajo de bigadata
Ris Fernandez
 
BIG DATA COMPLETO ISBN.pdf
BIG DATA COMPLETO ISBN.pdfBIG DATA COMPLETO ISBN.pdf
BIG DATA COMPLETO ISBN.pdf
Dr.Ing. Uriel
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptx
JavierNavarrete43
 
Big data
Big dataBig data
Código de buenas prácticas en protección de datos para proyectos Big Data
Código de buenas prácticas en protección de datos para proyectos Big DataCódigo de buenas prácticas en protección de datos para proyectos Big Data
Código de buenas prácticas en protección de datos para proyectos Big Data
Alfredo Vela Zancada
 
01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx
JuanCarlosRomanPerez1
 
Big data
Big dataBig data
Big Data: retos y oportunidades para el turismo
Big Data: retos y oportunidades para el turismoBig Data: retos y oportunidades para el turismo
Big Data: retos y oportunidades para el turismo
Gonzalo De Mattia Yenaropulos
 
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleoPonencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
CICE
 
Afc module 1 translated
Afc module 1 translatedAfc module 1 translated
Afc module 1 translated
SoniaNaiba
 
Big Data, Big Picture
Big Data, Big PictureBig Data, Big Picture
Big Data, Big Picture
EvaluandoSoftware
 
Presentación big data
Presentación big dataPresentación big data
Presentación big data
Leyda Maria Alzate Gomez
 
Big data
Big dataBig data
Big data
marianaflorez20
 
BIG DATA
BIG DATABIG DATA
Big data
Big dataBig data
Big data
Juan Anaya
 
Aplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosAplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de Datos
Luis Fernando Aguas Bucheli
 

Similar a Bigdata trabajo de investigacion (20)

Trabajo de bigadata
Trabajo de bigadataTrabajo de bigadata
Trabajo de bigadata
 
BIG DATA COMPLETO ISBN.pdf
BIG DATA COMPLETO ISBN.pdfBIG DATA COMPLETO ISBN.pdf
BIG DATA COMPLETO ISBN.pdf
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptx
 
Big data
Big dataBig data
Big data
 
Fundamentos.pptx
Fundamentos.pptxFundamentos.pptx
Fundamentos.pptx
 
Código de buenas prácticas en protección de datos para proyectos Big Data
Código de buenas prácticas en protección de datos para proyectos Big DataCódigo de buenas prácticas en protección de datos para proyectos Big Data
Código de buenas prácticas en protección de datos para proyectos Big Data
 
01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx
 
Big data
Big dataBig data
Big data
 
Diapositivas
DiapositivasDiapositivas
Diapositivas
 
Big Data: retos y oportunidades para el turismo
Big Data: retos y oportunidades para el turismoBig Data: retos y oportunidades para el turismo
Big Data: retos y oportunidades para el turismo
 
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleoPonencia B2C  Antonio Alonso. Big Data. Nuevas oportunidades de empleo
Ponencia B2C Antonio Alonso. Big Data. Nuevas oportunidades de empleo
 
Afc module 1 translated
Afc module 1 translatedAfc module 1 translated
Afc module 1 translated
 
Big Data, Big Picture
Big Data, Big PictureBig Data, Big Picture
Big Data, Big Picture
 
¿Qué es el Big Data?
¿Qué es el Big Data?¿Qué es el Big Data?
¿Qué es el Big Data?
 
Presentación big data
Presentación big dataPresentación big data
Presentación big data
 
Big data
Big dataBig data
Big data
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 
Big data
Big dataBig data
Big data
 
Aplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosAplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de Datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 

Más de Ris Fernandez

Constancia
ConstanciaConstancia
Constancia
Ris Fernandez
 
Proyecto de ingenieria movil
Proyecto de ingenieria movilProyecto de ingenieria movil
Proyecto de ingenieria movil
Ris Fernandez
 
Fale portugues vol 1 autor maria harumi de ponce
Fale portugues vol 1 autor maria harumi de ponceFale portugues vol 1 autor maria harumi de ponce
Fale portugues vol 1 autor maria harumi de ponce
Ris Fernandez
 
Novo avenida brasil_1.pdf
Novo avenida brasil_1.pdfNovo avenida brasil_1.pdf
Novo avenida brasil_1.pdf
Ris Fernandez
 
Implementacion de base de datos
Implementacion de base de datosImplementacion de base de datos
Implementacion de base de datos
Ris Fernandez
 
Preguntas desarrolladas sobre inteligencia artificial i
Preguntas desarrolladas sobre inteligencia artificial iPreguntas desarrolladas sobre inteligencia artificial i
Preguntas desarrolladas sobre inteligencia artificial i
Ris Fernandez
 
Proyecto final video_vigilancia_mpch
Proyecto final video_vigilancia_mpchProyecto final video_vigilancia_mpch
Proyecto final video_vigilancia_mpch
Ris Fernandez
 
Vision de los usuarios frente a las RADIACIONES NO IONIZANTES
Vision de los usuarios frente a las RADIACIONES NO IONIZANTESVision de los usuarios frente a las RADIACIONES NO IONIZANTES
Vision de los usuarios frente a las RADIACIONES NO IONIZANTES
Ris Fernandez
 
Recaudación del Sector Telecomunicaciones
Recaudación del Sector TelecomunicacionesRecaudación del Sector Telecomunicaciones
Recaudación del Sector Telecomunicaciones
Ris Fernandez
 
Desarrollo de la Telecomunicaciones , Las Antenas Y la Salud. UNMSM
Desarrollo de la Telecomunicaciones , Las Antenas Y la Salud. UNMSMDesarrollo de la Telecomunicaciones , Las Antenas Y la Salud. UNMSM
Desarrollo de la Telecomunicaciones , Las Antenas Y la Salud. UNMSM
Ris Fernandez
 
Comision de lucha contra delitos aduaneros y la pirateria
Comision de lucha contra delitos aduaneros y la pirateriaComision de lucha contra delitos aduaneros y la pirateria
Comision de lucha contra delitos aduaneros y la pirateria
Ris Fernandez
 
Ilegalidad e informalidad en los servicios de Telecomunicaciones
Ilegalidad e informalidad en los servicios de TelecomunicacionesIlegalidad e informalidad en los servicios de Telecomunicaciones
Ilegalidad e informalidad en los servicios de Telecomunicaciones
Ris Fernandez
 
Exp lambayeque 09 2016
Exp lambayeque 09 2016Exp lambayeque 09 2016
Exp lambayeque 09 2016
Ris Fernandez
 
Evento lambayeque fitel setiembre 2016
Evento lambayeque fitel setiembre 2016Evento lambayeque fitel setiembre 2016
Evento lambayeque fitel setiembre 2016
Ris Fernandez
 
Tutorial de instalacion de pentaho
Tutorial de instalacion de pentahoTutorial de instalacion de pentaho
Tutorial de instalacion de pentaho
Ris Fernandez
 
estructura y normas para el cableado estructurado para una empresa educativa
estructura y normas para el cableado estructurado para una empresa educativaestructura y normas para el cableado estructurado para una empresa educativa
estructura y normas para el cableado estructurado para una empresa educativa
Ris Fernandez
 
Manual de instalacion de Dns-linux-ubuntu
Manual de instalacion de Dns-linux-ubuntuManual de instalacion de Dns-linux-ubuntu
Manual de instalacion de Dns-linux-ubuntu
Ris Fernandez
 
instalacion-y-configuracion-de-un-servidor-dns-bind-en-ubuntu
instalacion-y-configuracion-de-un-servidor-dns-bind-en-ubuntuinstalacion-y-configuracion-de-un-servidor-dns-bind-en-ubuntu
instalacion-y-configuracion-de-un-servidor-dns-bind-en-ubuntu
Ris Fernandez
 
Principales Herramientas de Business Intelligence
Principales Herramientas de Business IntelligencePrincipales Herramientas de Business Intelligence
Principales Herramientas de Business Intelligence
Ris Fernandez
 
Entrenamiento de un carrito usando redes neuronales
Entrenamiento de un carrito usando redes neuronalesEntrenamiento de un carrito usando redes neuronales
Entrenamiento de un carrito usando redes neuronales
Ris Fernandez
 

Más de Ris Fernandez (20)

Constancia
ConstanciaConstancia
Constancia
 
Proyecto de ingenieria movil
Proyecto de ingenieria movilProyecto de ingenieria movil
Proyecto de ingenieria movil
 
Fale portugues vol 1 autor maria harumi de ponce
Fale portugues vol 1 autor maria harumi de ponceFale portugues vol 1 autor maria harumi de ponce
Fale portugues vol 1 autor maria harumi de ponce
 
Novo avenida brasil_1.pdf
Novo avenida brasil_1.pdfNovo avenida brasil_1.pdf
Novo avenida brasil_1.pdf
 
Implementacion de base de datos
Implementacion de base de datosImplementacion de base de datos
Implementacion de base de datos
 
Preguntas desarrolladas sobre inteligencia artificial i
Preguntas desarrolladas sobre inteligencia artificial iPreguntas desarrolladas sobre inteligencia artificial i
Preguntas desarrolladas sobre inteligencia artificial i
 
Proyecto final video_vigilancia_mpch
Proyecto final video_vigilancia_mpchProyecto final video_vigilancia_mpch
Proyecto final video_vigilancia_mpch
 
Vision de los usuarios frente a las RADIACIONES NO IONIZANTES
Vision de los usuarios frente a las RADIACIONES NO IONIZANTESVision de los usuarios frente a las RADIACIONES NO IONIZANTES
Vision de los usuarios frente a las RADIACIONES NO IONIZANTES
 
Recaudación del Sector Telecomunicaciones
Recaudación del Sector TelecomunicacionesRecaudación del Sector Telecomunicaciones
Recaudación del Sector Telecomunicaciones
 
Desarrollo de la Telecomunicaciones , Las Antenas Y la Salud. UNMSM
Desarrollo de la Telecomunicaciones , Las Antenas Y la Salud. UNMSMDesarrollo de la Telecomunicaciones , Las Antenas Y la Salud. UNMSM
Desarrollo de la Telecomunicaciones , Las Antenas Y la Salud. UNMSM
 
Comision de lucha contra delitos aduaneros y la pirateria
Comision de lucha contra delitos aduaneros y la pirateriaComision de lucha contra delitos aduaneros y la pirateria
Comision de lucha contra delitos aduaneros y la pirateria
 
Ilegalidad e informalidad en los servicios de Telecomunicaciones
Ilegalidad e informalidad en los servicios de TelecomunicacionesIlegalidad e informalidad en los servicios de Telecomunicaciones
Ilegalidad e informalidad en los servicios de Telecomunicaciones
 
Exp lambayeque 09 2016
Exp lambayeque 09 2016Exp lambayeque 09 2016
Exp lambayeque 09 2016
 
Evento lambayeque fitel setiembre 2016
Evento lambayeque fitel setiembre 2016Evento lambayeque fitel setiembre 2016
Evento lambayeque fitel setiembre 2016
 
Tutorial de instalacion de pentaho
Tutorial de instalacion de pentahoTutorial de instalacion de pentaho
Tutorial de instalacion de pentaho
 
estructura y normas para el cableado estructurado para una empresa educativa
estructura y normas para el cableado estructurado para una empresa educativaestructura y normas para el cableado estructurado para una empresa educativa
estructura y normas para el cableado estructurado para una empresa educativa
 
Manual de instalacion de Dns-linux-ubuntu
Manual de instalacion de Dns-linux-ubuntuManual de instalacion de Dns-linux-ubuntu
Manual de instalacion de Dns-linux-ubuntu
 
instalacion-y-configuracion-de-un-servidor-dns-bind-en-ubuntu
instalacion-y-configuracion-de-un-servidor-dns-bind-en-ubuntuinstalacion-y-configuracion-de-un-servidor-dns-bind-en-ubuntu
instalacion-y-configuracion-de-un-servidor-dns-bind-en-ubuntu
 
Principales Herramientas de Business Intelligence
Principales Herramientas de Business IntelligencePrincipales Herramientas de Business Intelligence
Principales Herramientas de Business Intelligence
 
Entrenamiento de un carrito usando redes neuronales
Entrenamiento de un carrito usando redes neuronalesEntrenamiento de un carrito usando redes neuronales
Entrenamiento de un carrito usando redes neuronales
 

Último

choro ciclo de vida anatomía y fisiología
choro ciclo de vida anatomía y fisiologíachoro ciclo de vida anatomía y fisiología
choro ciclo de vida anatomía y fisiología
elvis2000x
 
PRESENTACION REUNION DEL COMITE DE SEGURIDAD
PRESENTACION REUNION DEL COMITE DE SEGURIDADPRESENTACION REUNION DEL COMITE DE SEGURIDAD
PRESENTACION REUNION DEL COMITE DE SEGURIDAD
mirellamilagrosvf
 
Bash Script Programacion en la consola.pptx
Bash Script Programacion en la consola.pptxBash Script Programacion en la consola.pptx
Bash Script Programacion en la consola.pptx
SantosCatalinoOrozco
 
Plan de Desarrollo Urbano de la Municipalidad Provincial de Ilo
Plan de Desarrollo Urbano de la Municipalidad Provincial de IloPlan de Desarrollo Urbano de la Municipalidad Provincial de Ilo
Plan de Desarrollo Urbano de la Municipalidad Provincial de Ilo
AlbertoRiveraPrado
 
Medicina Peruana en el siglo XX y XXI- Julio Gabriel Pereda Sanchez.pptx
Medicina Peruana en el siglo XX y XXI- Julio Gabriel  Pereda Sanchez.pptxMedicina Peruana en el siglo XX y XXI- Julio Gabriel  Pereda Sanchez.pptx
Medicina Peruana en el siglo XX y XXI- Julio Gabriel Pereda Sanchez.pptx
gabrielperedasanchez
 
Análisis Combinatorio ,EJERCICIOS Y PROBLEMAS RESUELTOS
Análisis Combinatorio ,EJERCICIOS Y PROBLEMAS RESUELTOSAnálisis Combinatorio ,EJERCICIOS Y PROBLEMAS RESUELTOS
Análisis Combinatorio ,EJERCICIOS Y PROBLEMAS RESUELTOS
ppame8010
 
libro conabilidad financiera, 5ta edicion.pdf
libro conabilidad financiera, 5ta edicion.pdflibro conabilidad financiera, 5ta edicion.pdf
libro conabilidad financiera, 5ta edicion.pdf
MiriamAquino27
 
Las Fuentes de Alimentacion Conmutadas (Switching).pdf
Las Fuentes de Alimentacion Conmutadas (Switching).pdfLas Fuentes de Alimentacion Conmutadas (Switching).pdf
Las Fuentes de Alimentacion Conmutadas (Switching).pdf
NicolasGramajo1
 
tema-6.4-calculo-de-la-potencia-requerida-para-transporte-de-solidos-.pptx
tema-6.4-calculo-de-la-potencia-requerida-para-transporte-de-solidos-.pptxtema-6.4-calculo-de-la-potencia-requerida-para-transporte-de-solidos-.pptx
tema-6.4-calculo-de-la-potencia-requerida-para-transporte-de-solidos-.pptx
DianaSG6
 
Análisis de Sensibilidad clases de investigacion de operaciones
Análisis de Sensibilidad clases de investigacion de operacionesAnálisis de Sensibilidad clases de investigacion de operaciones
Análisis de Sensibilidad clases de investigacion de operaciones
SamuelHuapalla
 
TEMA 11. FLUIDOS-HIDROSTATICA.TEORIApptx
TEMA 11.  FLUIDOS-HIDROSTATICA.TEORIApptxTEMA 11.  FLUIDOS-HIDROSTATICA.TEORIApptx
TEMA 11. FLUIDOS-HIDROSTATICA.TEORIApptx
maitecuba2006
 
Una solucion saturada contiene la cantidad máxima de un soluto que se disuel...
Una solucion saturada contiene la cantidad máxima de un  soluto que se disuel...Una solucion saturada contiene la cantidad máxima de un  soluto que se disuel...
Una solucion saturada contiene la cantidad máxima de un soluto que se disuel...
leonpool521
 
Vehiculo para niños con paralisis cerebral
Vehiculo para niños con paralisis cerebralVehiculo para niños con paralisis cerebral
Vehiculo para niños con paralisis cerebral
everchanging2020
 
Edafología - Presentacion Orden Histosoles
Edafología - Presentacion Orden HistosolesEdafología - Presentacion Orden Histosoles
Edafología - Presentacion Orden Histosoles
FacundoPortela1
 
Dialnet-EnsenanzaDeLaModelacionMedianteEcuacionesDiferenci-9304821.pdf
Dialnet-EnsenanzaDeLaModelacionMedianteEcuacionesDiferenci-9304821.pdfDialnet-EnsenanzaDeLaModelacionMedianteEcuacionesDiferenci-9304821.pdf
Dialnet-EnsenanzaDeLaModelacionMedianteEcuacionesDiferenci-9304821.pdf
fernanroq11702
 
Mapa de carreteras de Colombia 2022 INVIAS
Mapa de carreteras de Colombia 2022 INVIASMapa de carreteras de Colombia 2022 INVIAS
Mapa de carreteras de Colombia 2022 INVIAS
AlfonsoRosalesFonsec
 
Distribución Muestral de Diferencia de Medias
Distribución Muestral de Diferencia de MediasDistribución Muestral de Diferencia de Medias
Distribución Muestral de Diferencia de Medias
arielemelec005
 
PLAN DE TRABAJO DE REFUERZO ESCOLAR 2024.pdf
PLAN DE TRABAJO DE REFUERZO ESCOLAR 2024.pdfPLAN DE TRABAJO DE REFUERZO ESCOLAR 2024.pdf
PLAN DE TRABAJO DE REFUERZO ESCOLAR 2024.pdf
MariaCortezRuiz
 
Siemens----Software---Simatic----HMI.pdf
Siemens----Software---Simatic----HMI.pdfSiemens----Software---Simatic----HMI.pdf
Siemens----Software---Simatic----HMI.pdf
RonaldRozoMora
 
Sistema de disposición sanitarias – UBS composteras 2 PARTE.pptx
Sistema de disposición sanitarias – UBS composteras 2 PARTE.pptxSistema de disposición sanitarias – UBS composteras 2 PARTE.pptx
Sistema de disposición sanitarias – UBS composteras 2 PARTE.pptx
RobertRamos84
 

Último (20)

choro ciclo de vida anatomía y fisiología
choro ciclo de vida anatomía y fisiologíachoro ciclo de vida anatomía y fisiología
choro ciclo de vida anatomía y fisiología
 
PRESENTACION REUNION DEL COMITE DE SEGURIDAD
PRESENTACION REUNION DEL COMITE DE SEGURIDADPRESENTACION REUNION DEL COMITE DE SEGURIDAD
PRESENTACION REUNION DEL COMITE DE SEGURIDAD
 
Bash Script Programacion en la consola.pptx
Bash Script Programacion en la consola.pptxBash Script Programacion en la consola.pptx
Bash Script Programacion en la consola.pptx
 
Plan de Desarrollo Urbano de la Municipalidad Provincial de Ilo
Plan de Desarrollo Urbano de la Municipalidad Provincial de IloPlan de Desarrollo Urbano de la Municipalidad Provincial de Ilo
Plan de Desarrollo Urbano de la Municipalidad Provincial de Ilo
 
Medicina Peruana en el siglo XX y XXI- Julio Gabriel Pereda Sanchez.pptx
Medicina Peruana en el siglo XX y XXI- Julio Gabriel  Pereda Sanchez.pptxMedicina Peruana en el siglo XX y XXI- Julio Gabriel  Pereda Sanchez.pptx
Medicina Peruana en el siglo XX y XXI- Julio Gabriel Pereda Sanchez.pptx
 
Análisis Combinatorio ,EJERCICIOS Y PROBLEMAS RESUELTOS
Análisis Combinatorio ,EJERCICIOS Y PROBLEMAS RESUELTOSAnálisis Combinatorio ,EJERCICIOS Y PROBLEMAS RESUELTOS
Análisis Combinatorio ,EJERCICIOS Y PROBLEMAS RESUELTOS
 
libro conabilidad financiera, 5ta edicion.pdf
libro conabilidad financiera, 5ta edicion.pdflibro conabilidad financiera, 5ta edicion.pdf
libro conabilidad financiera, 5ta edicion.pdf
 
Las Fuentes de Alimentacion Conmutadas (Switching).pdf
Las Fuentes de Alimentacion Conmutadas (Switching).pdfLas Fuentes de Alimentacion Conmutadas (Switching).pdf
Las Fuentes de Alimentacion Conmutadas (Switching).pdf
 
tema-6.4-calculo-de-la-potencia-requerida-para-transporte-de-solidos-.pptx
tema-6.4-calculo-de-la-potencia-requerida-para-transporte-de-solidos-.pptxtema-6.4-calculo-de-la-potencia-requerida-para-transporte-de-solidos-.pptx
tema-6.4-calculo-de-la-potencia-requerida-para-transporte-de-solidos-.pptx
 
Análisis de Sensibilidad clases de investigacion de operaciones
Análisis de Sensibilidad clases de investigacion de operacionesAnálisis de Sensibilidad clases de investigacion de operaciones
Análisis de Sensibilidad clases de investigacion de operaciones
 
TEMA 11. FLUIDOS-HIDROSTATICA.TEORIApptx
TEMA 11.  FLUIDOS-HIDROSTATICA.TEORIApptxTEMA 11.  FLUIDOS-HIDROSTATICA.TEORIApptx
TEMA 11. FLUIDOS-HIDROSTATICA.TEORIApptx
 
Una solucion saturada contiene la cantidad máxima de un soluto que se disuel...
Una solucion saturada contiene la cantidad máxima de un  soluto que se disuel...Una solucion saturada contiene la cantidad máxima de un  soluto que se disuel...
Una solucion saturada contiene la cantidad máxima de un soluto que se disuel...
 
Vehiculo para niños con paralisis cerebral
Vehiculo para niños con paralisis cerebralVehiculo para niños con paralisis cerebral
Vehiculo para niños con paralisis cerebral
 
Edafología - Presentacion Orden Histosoles
Edafología - Presentacion Orden HistosolesEdafología - Presentacion Orden Histosoles
Edafología - Presentacion Orden Histosoles
 
Dialnet-EnsenanzaDeLaModelacionMedianteEcuacionesDiferenci-9304821.pdf
Dialnet-EnsenanzaDeLaModelacionMedianteEcuacionesDiferenci-9304821.pdfDialnet-EnsenanzaDeLaModelacionMedianteEcuacionesDiferenci-9304821.pdf
Dialnet-EnsenanzaDeLaModelacionMedianteEcuacionesDiferenci-9304821.pdf
 
Mapa de carreteras de Colombia 2022 INVIAS
Mapa de carreteras de Colombia 2022 INVIASMapa de carreteras de Colombia 2022 INVIAS
Mapa de carreteras de Colombia 2022 INVIAS
 
Distribución Muestral de Diferencia de Medias
Distribución Muestral de Diferencia de MediasDistribución Muestral de Diferencia de Medias
Distribución Muestral de Diferencia de Medias
 
PLAN DE TRABAJO DE REFUERZO ESCOLAR 2024.pdf
PLAN DE TRABAJO DE REFUERZO ESCOLAR 2024.pdfPLAN DE TRABAJO DE REFUERZO ESCOLAR 2024.pdf
PLAN DE TRABAJO DE REFUERZO ESCOLAR 2024.pdf
 
Siemens----Software---Simatic----HMI.pdf
Siemens----Software---Simatic----HMI.pdfSiemens----Software---Simatic----HMI.pdf
Siemens----Software---Simatic----HMI.pdf
 
Sistema de disposición sanitarias – UBS composteras 2 PARTE.pptx
Sistema de disposición sanitarias – UBS composteras 2 PARTE.pptxSistema de disposición sanitarias – UBS composteras 2 PARTE.pptx
Sistema de disposición sanitarias – UBS composteras 2 PARTE.pptx
 

Bigdata trabajo de investigacion

  • 1. FACULTAD DE INGENIERÍA, ARQUITECTURA Y URBANISMO ESCUELA PROFESIONAL DE INGENIERÍA DE SISTEMAS “BIG DATA” DOCENTE: Mg. Sánchez Guevara Omar Antonio. INTEGRANTES: Becerra Cardenas,Jorge Fernández Román,Ismael. Montalvo Sandoval ,Jose. PIMENTEL – PERÚ 2015
  • 2. Big Data. U s s Página 1 ÍNDICE TRABAJO DE INVESTIGACION .................................................................................... 3 OBJETIVO........................................................................................................................ 3 1. INTRODUCCIÓN ...................................................................................................... 3 2. MARCO TEÓRICO..................................................................................................... 4 3. DEFINICIÓN DE BIG DATA. ..................................................................................... 5 4. BI TRADICIONAL VS BIG DATA............................................................................... 8 5. Clasificación En Base De La Estructura ....................................................... 9 5.1. Nivel de estructura de los datos:................................................................. 10 5.1.1. Datos estructurados............................................................................... 11 5.1.2. Datos semi estructuradas ..................................................................... 12 6. BENEFICIOS DEL BIG DATA ............................................................................... 14 7. HERRAMIENTAS PARA IMPLEMENTAR SOLUCIONES DE BIG DATA. ......... 15 7.1. Hadoop............................................................................................................ 15 7.2. MapReduce..................................................................................................... 15 7.3. Gridgain .......................................................................................................... 16 7.4. HPCC ............................................................................................................... 17 7.5. Storm............................................................................................................... 17 7.6. HANA............................................................................................................... 18 7.7. SPARK............................................................................................................. 19 7.8. HIVE................................................................................................................. 20 7.9. KAFKA............................................................................................................. 21 7.10. FLUME ......................................................................................................... 23 8. CONCLUSIONES ................................................................................................... 24 9. REFERENCIAS BIBLIOGRÁFICAS:..................................................................... 25
  • 3. Big Data. U s s Página 2 Imágenes IMAGEN 1: BENEFICIOS DEL USO DE BIGDATA................................................................... 6 IMAGEN 2: LAS 5 V DEL BIGDATA...................................................................................... 7 IMAGEN 3: BIGDATA VS BI ........................................... ¡ERROR! MARCADOR NO DEFINIDO. IMAGEN 4: NIVELES DE ESTRUCTURA DE LOS DATOS ....................................................... 11 IMAGEN 5: ARQUITECTURA HADDOP ............................................................................... 15 IMAGEN 6: PROCESO MAPREDUCE.................................................................................. 16 IMAGEN 7: GRIDGAIN ...................................................................................................... 16 IMAGEN 8: ARQUITECTURA HPCC................................................................................... 17 IMAGEN 9: EJEMPLO DE APLICACION STORM RESTORATION ........................................... 18 IMAGEN 10: PLATAFORMA HANA PARA BIGDATA ............................................................ 19 IMAGEN 11: ARQUITECURA APACHE SPARK.................................................................... 20 IMAGEN 12: ARQUITECTURA HIVE .................................................................................. 21 IMAGEN 13: ARQUITECTURA KAFKA................................................................................ 22 IMAGEN 14: ARQUITECTURA FLUME ................................................................................ 23 Tablas TABLA 1 : CARACTERÍSTICAS DEL BIGDATA....................................................................... 7 TABLA 2: DIFERENCIAS BI TRADICIONAL Y BIGDATA.......................................................... 8
  • 4. Big Data. U s s Página 3 TRABAJO DE INVESTIGACION OBJETIVO Realizar una investigación profunda sobre el tema asignado y sustentar dicha investigación a través de una exposición. La estructura sugerida para el trabajo de investigación es, grosso modo: 1. INTRODUCCIÓN Con el constante crecimiento de información en cada uno de los aspectos más relevantes mundialmente como sociedad, comercio y ciencia, se vuelve necesario un cambio con respecto al manejo de la información, que hasta hace poco tiempo se venía implementando a partir de bases de datos relacionales. Si bien este esquema funcionaba para ambientes que almacenaban Teras de información con datos puntuales y que a través de consultas SQL se podía buscar la información requerida, se vuelve dispendioso y costoso al momento de analizar un mayor volumen de información, en ambientes donde anualmente se almacenan petas de todo tipo de datos, incluyendo aquí los no estructurados, como archivos de video y audio; un ejemplo de esto es “Google, que recibe a diario trillones de bytes, con el objetivo de ofrecer muchos de los servicios que actualmente se conocen como el mismo motor de búsqueda y Google Earth”. El manejo de grandes cantidades de información conlleva a pensar en la implementación de herramientas que permitan administrar y gestionar este tipo de datos no estructurados y semi-estructurados, en la búsqueda de patrones concurrentes para la toma de decisiones. “Actualmente se pueden encontrar tecnologías como Hadoop, MapReduce y bases de datos NoSQL, que se pueden implementar en la creación de un ambiente Big Data”.
  • 5. Big Data. U s s Página 4 El Big Data en una combinación de tecnologías de gestión de datos que han evolucionado en las últimas décadas. Permite a las compañías almacenar y manipular grandes volúmenes de datos a la velocidad adecuada y en el momento oportuno. Big Data no es una solución aislada; es necesario hacer confluir una estrategia de negocio con una técnica para aprovechar esta tendencia tecnológica. Big Data es una combinación de los 50 años de evolución de la tecnología. Debemos conocer las tecnologías emergentes que usan las compañías (Hadoop, MapReduce, etc.). Las compañías han trabajado durante años para obtener información útil de sus clientes, productos y servicios. Algunos datos son estructurados y están almacenados en bases de datos. Sin embargo, otros, incluyendo documentos, imágenes y vídeos, son desestructurados. Además, las compañías tienen que considerar datos obtenidos de nuevas fuentes, como son los sensores, las redes sociales, las páginas web, etc. 2. MARCO TEÓRICO Big Data ha representado un movimiento revolucionario, en cuanto al manejo de toda la información que hasta hace poco tiempo era poco probable se pudiera analizar, con la inclusión de este concepto se puede pensar en el procesamiento de datos del tipo no estructurado, como video, audio, sistemas GPS y gran número de sensores ubicados en dispositivos móviles, automóviles y equipos industriales entre otros.
  • 6. Big Data. U s s Página 5 3. DEFINICIÓN DE BIG DATA. Según Gartner 7, Big data es una referencia a aquellos sistemas de información que manejan conjuntos de datos de gran volumen, de alta velocidad, de veracidad, de valor y de gran variedad de recursos, que demandan formas rentables e innovadoras de procesamiento de la información para mejorar la comprensión y la toma de decisiones. Según Gualtieri Big data es la solución al crecimiento exponencial de los datos, en el momento en que se hace difícil su administración con respecto al almacenamiento, procesamiento y acceso. De esto se puede obtener beneficios como.  “Optimizar el cálculo y la precisión algorítmica para reunir, analizar, enlazar y comparar conjuntos de grandes datos”.  “Identificar patrones para la toma de decisiones en los ámbitos económico, social, técnico y legal”.
  • 7. Big Data. U s s Página 6 La mayoría de las definiciones que se pueden encontrar de Big data están enfocadas al volumen de los datos, al almacenamiento de dicha información, de esto se puede concluir que el volumen importa pero que también existen otros atributos importantes de Big data, estos son: “la velocidad, la veracidad, la variedad y el valor” 11 . Estos cinco aspectos constituyen una definición comprensiva y además destruyen el mito acerca de que Big data se trataúnicamente del volumen. A cada uno de estos aspectos se le atribuyen las siguientes características: Imagen 1: Beneficios del Uso de Bigdata Imagen 2: Arquitecura Apache SparkImagen 3: Beneficios del Uso de Bigdata Imagen 4: Arquitecura Apache Spark Imagen 5: Arquitectura HIVEImagen 6: Arquitecura Apache SparkImagen 7: Beneficios del Uso de Bigdata Imagen 8: Arquitecura Apache SparkImagen 9: Beneficios del Uso de Bigdata Imagen 10: Arquitecura Apache Spark Imagen 11: Arquitectura HIVEImagen 12: Arquitecura Apache Spark Imagen 13: Arquitectura HIVEImagen 14: Arquitecura Apache Spark Imagen 15: Arquitectura HIVEImagen 16: Arquitecura Apache SparkImagen 17: Beneficios del Uso de Bigdata Imagen 18: Arquitecura Apache SparkImagen 19: Beneficios del Uso de Bigdata Imagen 20: Arquitecura Apache Spark Imagen 21: Arquitectura HIVEImagen 22: Arquitecura Apache SparkImagen 23: Beneficios del Uso de Bigdata Imagen 24: Arquitecura Apache SparkImagen 25: Beneficios del Uso de Bigdata
  • 8. Big Data. U s s Página 7 Tabla 1 : Características del Bigdata Volumen Velocidad Variedad Veracidad Valor Almacenamiento En terabytes Por lotes Estructurado Integridad y Autenticidad Estadísticas Registros Tiempo Cercano No estructurado Origen y Reputación Eventos Transacciones Tiempo Real Multi-factor Disponibilidad Correlaciones Tablas y Archivos Procesos Probabilística Responsabilid ad Hipótesis Imagen 26: Las 5 V del Bigdata Imagen 27: BigData VS BIImagen 28: Las 5 V del Bigdata Imagen 29: BigData VS BI Imagen 30: Niveles de estructura de los datosImagen 31: BigData VS BIImagen 32: Las 5 V del Bigdata Imagen 33: BigData VS BIImagen 34: Las 5 V del Bigdata Imagen 35: BigData VS BI Imagen 36: Niveles de estructura de los datosImagen 37: BigData VS BI Imagen 38: Niveles de estructura de los datos Imagen 39: Arquitectura HaddopImagen 40: Niveles de estructura de los datosImagen 41: BigData VS BI Imagen 42: Niveles de estructura de los datosImagen 43: BigData VS BIImagen 44: Las 5 V del Bigdata
  • 9. Big Data. U s s Página 8 4. BI TRADICIONAL VS BIG DATA Tabla 2: Diferencias Bi Tradicional y Bigdata DIFERENCIAS BIG DATA BUSINESS INTELLIGENCE Almacenamiento de datos: Big Data almacena los datos en un sistema de ficheros que puede encontrarse distribuido por la nube. Por tanto, tiene capacidad para cruzar datos de varias plataformas por ejemplo datos de una red de información científica con historiales médicos de un centro sanitario. Business Intelligence se aplica a menor escala. Los datos se almacenan en un servidor central, en un entorno seguro y más flexible, por ejemplo, información de las ventas de una empresa. Cantidad de datos: Big data tiene la capacidad de analizar grandes volúmenes de datos, de tal forma que llevan las funciones de proceso a los datos. business intelligence toma los datos y los lleva hasta las funciones. Análisis del kaos: Big Data tiene la capacidad de analizar datos que se encuentran estructurados o no estructurados, aquellos que no están almacenados en soportes tradicionales. Es capaz de analizar datos que provienen de diferentes fuentes y plataformas, una clara diferencias al business intelligence. Características de los datos: Big Data tiene la habilidad de procesar y analizar datos que provienen de archivos históricos con datos que se obtienen en tiempo real. Si retomamos el ejemplo de la investigación científica, se podrán analizar datos históricos de comportamientos de patógenos y datos obtenidos de las nuevas zepas de un mismo virus para tratar con seguridad una epidemia.
  • 10. Big Data. U s s Página 9 Imagen 53: BigData VS BI
  • 11. Big Data. U s s Página 10 5. CLASIFICACIÓN EN BASE DE LA ESTRUCTURA 5.1. Nivel de estructura de los datos: La forma en que se organizan los datos para facilitar su procesamiento usando un computador - Mayor nivel de estructura → Procesamiento más sencillo - Menor nivel de estructura → Procesamiento más complejo Por ejemplo, no es lo mismo el procesamiento y análisis de un texto escrito en lenguaje humano que uno al que ya se han aplicado un conjunto de reglas definidas para la estructuración de la información que contiene. ej. modelo relacional, lenguaje de marcas XML, … Cuando menor es el nivel de estructura más difícil es su procesamiento (integración y verificación de la calidad) y, por tanto, más complicada es la extracción de conocimiento. En base a su nivel de estructura las fuentes de datos pueden clasificarse en: - Estructuradas - Semi estructuradas - No estructuradas
  • 12. Big Data. U s s Página 11 5.1.1. Datos estructurados Nivel más alto de estructura → Procesamiento eficiente y eficaz. Los datos se almacenan con una estructura bien definida y que aplica unas normas muy estrictas. El ejemplo más claro son las bases de datos relacionales - La información se almacena en tablas y se definen relaciones entre dichas tablas. - Las tablas se componen de filas (tuplas) y columnas (campos o atributos). Toda la información se almacena de acuerdo al esquema relacional definido Imagen 54: Niveles de estructura de los datos Imagen 55: Arquitectura HaddopImagen 56: Niveles de estructura de los datos Imagen 57: Arquitectura Haddop Imagen 58: Proceso MapReduceImagen 59: Arquitectura HaddopImagen 60: Niveles de estructura de los datos Imagen 61: Arquitectura HaddopImagen 62: Niveles de estructura de los datos Imagen 63: Arquitectura Haddop Imagen 64: Proceso MapReduceImagen 65: Arquitectura Haddop Imagen 66: Proceso MapReduce Imagen 67: GridGainImagen 68: Proceso MapReduceImagen 69: Arquitectura Haddop Imagen 70: Proceso MapReduceImagen 71: Arquitectura HaddopImagen 72: Niveles de estructura de los datos Imagen 73: Arquitectura HaddopImagen 74: Niveles de estructura de los datos Imagen 75: Arquitectura Haddop Imagen 76: Proceso MapReduceImagen 77: Arquitectura HaddopImagen 78: Niveles de estructura de los datos
  • 13. Big Data. U s s Página 12 Por lo general, los almacenes de datos (Data Warehouses) usan esta tecnología como almacenamiento subyacente Aunque se aplique el modelo multidimensional (que vimos en el tema 2) en lugar del modelo relacional Suelen contener metadatos: información sobre los propios datos que ayuda en su interpretación (ej. descripciones, unidades de medida usadas…) 5.1.2. Datos semi estructuradas El procesamiento de información estructurada es el más sencillo y, desde hace tiempo, se consigue realizar de forma eficiente para grandes volúmenes de datos. Sin embargo, en Big Data, la mayoría de las fuentes externas de las que disponemos son de las consideradas semi o nada estructuradas. Los datos se almacenan conforme a conjunto de reglas menos estrictas y más flexibles. El nivel de estructura puede variar según su aplicación y, por tanto, también la dificultad de procesamiento. A medio camino entre datos estructurados y nada estructurados. Algunos de los formatos semi estructurados más usados: - XML, JSON, CSV, Excel. En algunos los datos se organizan conforme a un esquema o modelo de datos bien definido. - XML (DTD y XML Schema) Suelen contener metadatos. Algunas de las fuentes que usualmente se distribuyen en estos formatos: - Open Data, redes sociales, datos de sensores, logs de servidores web (ejemplo de JSON).
  • 14. Big Data. U s s Página 13 5.1.3. Datos No Estructurados Por último, tenemos los datos no estructurados: Menor nivel de estructura: No tienen una estructura definida de forma explícita - Ejemplos: texto (en lenguaje natural), vídeo, audio, imágenes… - Sí pueden tener algún tipo de estructura implícita: ej. División en párrafos de un texto, escenas de una película, estribillo de una canción. Para un computador puede llegar a ser muy difícil de interpretar - Es frecuente que, lo que es más fácil de interpretar para un humano sea lo más difícil de interpretar para un computador El 80% de las fuentes disponibles en Big Data son no estructuradas. Existen algunas técnicas que permiten aprovechar este tipo de fuentes: - Procesamiento del lenguaje natural (PLN) → Estructuración - Minería de datos → Descubrimiento automático de conocimiento implícito en los datos. En una aplicación Big Data es frecuente trabajar con fuentes de datos de los 3 tipos como veremos en el módulo 4, la tecnología de almacenamiento y procesamiento de Big Data centra sus esfuerzos en dar soporte efectivo y eficiente a las nuevas fuentes semi y no estructuradas, y facilitar la integración de estas con otras fuentes altamente estructuradas. Puede ser necesario añadir estructura a las fuentes que no la tienen antes de aplicar algún proceso de análisis para el descubrimiento de conocimiento - Mediante procesos ETL.
  • 15. Big Data. U s s Página 14 6. BENEFICIOS DEL BIG DATA Puede proporcionar ideas provenientes de enormes cantidades de datos de múltiples fuentes que incluyen a aquellos que ya están almacenados en bases de datos de la empresa, las que provienen de fuentes externas de terceros, de Internet, redes sociales, etc. Monitorización y previsión en tiempo real de eventos que pueden afectar el rendimiento o las operaciones de los negocios. Capacidad de encontrar, adquirir, extraer, manipular, analizar, conectar y visualizar datos con diferentes herramientas. Identificación de información importante que puede mejorar la calidad de la toma de decisiones. Capacidad de mitigar riesgos mediante la optimización de decisiones complejas acerca de eventos no planificados con mayor rapidez. Identificación de las causas fundamentales de fallos y problemas en tiempo real. Comprensión plena del potencial del marketing basado en datos. Generación de ofertas a clientes basadas en sus hábitos de compra. Mejora del compromiso del cliente y aumento de su fidelidad. Reevaluación del portfolio de riesgos de forma rápida. Personalización de la experiencia del cliente. Añadiendo valor a las interacciones con los clientes online y offline.
  • 16. Big Data. U s s Página 15 7. HERRAMIENTAS PARA IMPLEMENTAR SOLUCIONES DE BIG DATA. 7.1. Hadoop “Es un framework que permite el procesamiento distribuido de grandes conjuntos de datos a través de grupos de ordenadores que utilizan modelos de programación simple. Está diseñado para detectar y controlar los errores en la capa de aplicación”. Apache Hadoop tiene dos componentes centrales, el almacenamiento de archivos llamado Hadoop Distributed File System (HDFS), y la infraestructura de programación llamada MapReduce. 7.2.MapReduce MapReduce es un motor computacional que permite una escalabilidad descomunal a miles de servidores en un cluster Hadoop. Literalmente, MapReduce se divide en dos términos, “Mapa” y “Reducir”. “Mapa” viene a ser la conversión de un dataset en otro conjunto de datos al descomponer los datos y la creación de pares de datos (clave / valor). La tarea de “reducir” es tomar los datos del “mapa” y combinar los pares clave / valor en pares más pequeños. Otro framework alternativo dentro del ecosistema Hadoop para aplicaciones de procesamiento de datos es Apache Tez. Imagen 81: Arquitectura Haddop Imagen 82: Proceso MapReduceImagen 83: Arquitectura Haddop Imagen 84: Proceso MapReduce Imagen 85: GridGainImagen 86: Proceso MapReduceImagen 87: Arquitectura Haddop Imagen 88: Proceso MapReduceImagen 89: Arquitectura Haddop Imagen 90: Proceso MapReduce Imagen 91: GridGainImagen 92: Proceso MapReduce Imagen 93: GridGain Imagen 94: Arquitectura HPCCImagen 95: GridGainImagen 96: Proceso MapReduce Imagen 97: GridGainImagen 98: Proceso MapReduceImagen 99: Arquitectura Haddop
  • 17. Big Data. U s s Página 16 7.3. Gridgain Gridgrain es una herramienta que proporciona métodos dinámicos de computación y almacenamiento de datos tales como la agrupación dinámica, procesamiento MapReduce, ejecución de cierre distribuido, balanceo de carga, tolerancia a fallos, mensajería distribuida y escalabilidad lineal. Imagen 108: Proceso MapReduce Imagen 109: GridGainImagen 110: Proceso MapReduce Imagen 111: GridGain Imagen 112: Arquitectura HPCCImagen 113: GridGainImagen 114: Proceso MapReduce Imagen 115: GridGainImagen 116: Proceso MapReduce Imagen 117: GridGain Imagen 118: Arquitectura HPCCImagen 119: GridGain Imagen 120: Arquitectura HPCC Imagen 121: Ejemplo de Aplicacion RestImagen 122: Arquitectura HPCCImagen 123: GridGain Imagen 124: Arquitectura HPCCImagen 125: GridGainImagen 126: Proceso MapReduce Imagen 127: GridGainImagen 128: Proceso MapReduce Imagen 129: GridGain Imagen 130: Arquitectura HPCCImagen 131: GridGainImagen 132: Proceso MapReduce Imagen 133: GridGainImagen 134: Proceso MapReduce Imagen 135: GridGain Imagen 136: Arquitectura HPCCImagen 137: GridGain Imagen 138: Arquitectura HPCC Imagen 139: Ejemplo de Aplicacion RestImagen 140: Arquitectura HPCCImagen 141: GridGain Imagen 142: Arquitectura HPCCImagen 143: GridGain Imagen 144: Arquitectura HPCC
  • 18. Big Data. U s s Página 17 7.4. HPCC HPCC, siglas de “clustering computacional de alto rendimiento “, es conocido por ofrecer un rendimiento superior a Hadoop en determinados entornos. Esta herramienta está disponible tanto en versión gratuita y versión de pago. Tiene un apoyo activo de la comunidad en todo el mundo. 7.5. Storm Apache Storm es una herramienta de código libre y abierto. Es fácil de usar y puede ser integrada con cualquier lenguaje de programación. Ofrece una interfaz fácil y fiable, permite procesamiento en tiempo real, similar a lo que Hadoop hace en batch processing (procesamiento por lotes). Es una de las herramientas más populares y está siendo utilizada por empresas como Flipboard, Groupon, Twitter, Spotify, Yahoo (Japón), WebMD, Baidu y muchos más. Además de las anteriores, hay muchas herramientas de bases de datos / datawarehouses que facilitan las tareas de manejo de grandes volúmenes de Imagen 162: Arquitectura HPCC Imagen 163: Ejemplo de Aplicacion RestImagen 164: Arquitectura HPCC Imagen 165: Ejemplo de Aplicacion Restauracion Storm Imagen 166: Plataforma Hana para BigdataImagen 167: Ejemplo de Aplicacion RestImagen 168: Arquitectura HPCC Imagen 169: Ejemplo de Aplicacion RestImagen 170: Arquitectura HPCC Imagen 171: Ejemplo de Aplicacion Restauracion Storm Imagen 172: Plataforma Hana para BigdataImagen 173: Ejemplo de Aplicacion Restauracion Storm Imagen 174: Plataforma Hana para Bigdata Imagen 175: Arquitectura KafkaImagen 176: Plataforma Hana para BigdataImagen 177: Ejemplo de Aplicacion Restauracion Storm Imagen 178: Plataforma Hana para BigdataImagen 179: Ejemplo de Aplicacion RestImagen 180: Arquitectura HPCC Imagen 181: Ejemplo de Aplicacion RestImagen 182:
  • 19. Big Data. U s s Página 18 datos. Algunas de las más populares son MongoDB, CouchDB, Cassandra, HBase, Neo4j, Riak, Hypertable. 7.6. HANA La Ley de Moore también se aplica al Big Data, lo que nos conduce a soluciones más rápidas, más asequibles, y gracias a ello procesadores y más memoria. Todo tiende al análisis de datos en tiempo real. SAP ha sido el campeón del enfoque in-memory con su plataforma Hana, pero Microsoft y Oracle están a punto de introducir opciones en memoria a sus soluciones de bases de datos. Proveedores de bases de datos enfocados en analítica como Actium, HP Vertica, y Teradata han introducido opciones para relaciones de alto acceso RAM a disco, junto con herramientas para colocar datos específicos en memoria para el análisis ultra-rápido. Imagen 189: Ejemplo de Aplicación Restauración Storm Imagen 190: Plataforma Hana para BigdataImagen 191: Ejemplo de Aplicacion Restauracion Storm Imagen 192: Plataforma Hana para Bigdata Imagen 193: Arquitectura KafkaImagen 194: Plataforma Hana para BigdataImagen 195: Ejemplo de Aplicacion Restauracion Storm Imagen 196: Plataforma Hana para BigdataImagen 197: Ejemplo de Aplicacion Restauracion Storm Imagen 198: Plataforma Hana para Bigdata Imagen 199: Arquitectura KafkaImagen 200: Plataforma Hana para Bigdata Imagen 201: Arquitectura Kafka Imagen 202: Arquitectura FlumeImagen 203: Arquitectura KafkaImagen 204: Plataforma Hana para Bigdata Imagen 205: Arquitectura KafkaImagen 206: Plataforma Hana para BigdataImagen 207: Ejemplo de Aplicacion Restauracion Storm Imagen 208: Plataforma Hana para BigdataImagen 209: Ejemplo de Aplicacion Restauracion Storm Imagen 210: Plataforma Hana para Bigdata Imagen 211: Arquitectura KafkaImagen 212: Plataforma Hana para BigdataImagen 213: Ejemplo de Aplicacion Restauracion Storm
  • 20. Big Data. U s s Página 19 7.7. SPARK Apache Spark es un motor de procesamiento de datos a gran escala rápido y fácil de usar. Se pueden programar aplicaciones usando diferentes lenguajes como Java, Scala, Python o R. Según las aplicaciones puede llegar a ser 100 veces más rápido que Hadoop MapReduce en memoria o 10 veces más rápido en disco. Permite combinar SQL, streaming y librerías analíticas avanzadas, MLlib para machine learning, GraphX y Spark Streaming. Puede funcionar Imagen 216: Plataforma Hana para Bigdata Imagen 217: Arquitectura KafkaImagen 218: Plataforma Hana para Bigdata Imagen 219: Arquitectura Kafka Imagen 220: Arquitectura FlumeImagen 221: Arquitectura KafkaImagen 222: Plataforma Hana para Bigdata Imagen 223: Arquitectura KafkaImagen 224: Plataforma Hana para Bigdata Imagen 225: Arquitectura Kafka Imagen 226: Arquitectura FlumeImagen 227: Arquitectura Kafka Imagen 228: Arquitectura Flume Imagen 229: Beneficios del Uso de BigdataImagen 230: Arquitectura FlumeImagen 231: Arquitectura Kafka Imagen 232: Arquitectura FlumeImagen 233: Arquitectura KafkaImagen 234: Plataforma Hana para Bigdata Imagen 235: Arquitectura KafkaImagen 236: Plataforma Hana para Bigdata Imagen 237: Arquitectura Kafka Imagen 238: Arquitectura FlumeImagen 239: Arquitectura KafkaImagen 240: Plataforma Hana para Bigdata Imagen 241: Arquitectura KafkaImagen 242: Plataforma Hana para Bigdata
  • 21. Big Data. U s s Página 20 sobre Hadoop, Mesos, formato standalone, o en cloud. Permite acceder diversas fuentes de datos como HDFS, Cassandra, HBase y S3. 7.8.HIVE Apache Hive es una infraestructura datawarehouse para Hadoop. Este software facilita la consulta y gestión de grandes conjuntos de datos que residen en almacenamiento distribuido. La funcionalidad principal de Hive es proporcionar resumenes de datos, consultas y análisis. Es compatible con el análisis de grandes conjuntos de datos almacenados en HDFS de Hadoop, así como en el sistema de archivos de Amazon S3. Ofrece un Imagen 243: Arquitecura Apache Spark Imagen 244: Arquitectura HIVEImagen 245: Arquitecura Apache Spark Imagen 246: Arquitectura HIVEImagen 247: Arquitecura Apache Spark Imagen 248: Arquitectura HIVEImagen 249: Arquitecura Apache Spark Imagen 250: Arquitectura HIVEImagen 251: Arquitecura Apache Spark Imagen 252: Arquitectura HIVEImagen 253: Arquitecura Apache Spark Imagen 254: Arquitectura HIVEImagen 255: Arquitecura Apache Spark Imagen 256: Arquitectura HIVEImagen 257: Arquitecura Apache Spark
  • 22. Big Data. U s s Página 21 mecanismo para proyectar la estructura sobre los datos y consultarlos utilizando un lenguaje similar a SQL llamado HiveQL. 7.9. KAFKA Apache Kafka es un sistema de publicación distribuida. Ha sido diseñado para permitir que un solo grupo de datos pueda servir como la columna vertebral para una gran organización. Un único broker de Kafka puede manejar cientos de megabytes en lecturas y escrituras por segundo desde miles de clientes. Puede ser ampliado de manera elástica y transparente en modo producción. Algunas de las empresas que usan Kafka para el streaming de datos son Imagen 258: Arquitectura HIVE
  • 23. Big Data. U s s Página 22 LinkedIn, Yahoo, Twitter, Netflix, Square, Spotify, Pinterest, Uber, Goldman Sachs, Tumblr, Paypal, Box, Airbnb, Cisco, Mozilla, Foursquare. Imagen 259: Arquitectura Kafka Imagen 260: Arquitectura FlumeImagen 261: Arquitectura Kafka Imagen 262: Arquitectura Flume Imagen 263: Beneficios del Uso de BigdataImagen 264: Arquitectura FlumeImagen 265: Arquitectura Kafka Imagen 266: Arquitectura FlumeImagen 267: Arquitectura Kafka Imagen 268: Arquitectura Flume Imagen 269: Beneficios del Uso de BigdataImagen 270: Arquitectura Flume Imagen 271: Beneficios del Uso de Bigdata Imagen 272: Arquitecura Apache SparkImagen 273: Beneficios del Uso de BigdataImagen 274: Arquitectura Flume Imagen 275: Beneficios del Uso de BigdataImagen 276: Arquitectura FlumeImagen 277: Arquitectura Kafka Imagen 278: Arquitectura FlumeImagen 279: Arquitectura Kafka Imagen 280: Arquitectura Flume
  • 24. Big Data. U s s Página 23 7.10. FLUME Es un servicio distribuido, confiable y disponible para recolectar, agregar y mover grandes cantidades de datos de registro eficientemente. Cuenta con una arquitectura simple y flexible basada en transmisión de flujos de datos. Es robusto y tolerante a fallos con los mecanismos de fiabilidad, conmutación por error y los mecanismos de recuperación. Se utiliza un modelo de datos extensible simple que permite una aplicación analítica en línea. FLUJO DE DATOS Imagen 286: Arquitectura Flume Imagen 287: Beneficios del Uso de BigdataImagen 288: Arquitectura Flume Imagen 289: Beneficios del Uso de Bigdata Imagen 290: Arquitecura Apache SparkImagen 291: Beneficios del Uso de BigdataImagen 292: Arquitectura Flume Imagen 293: Beneficios del Uso de BigdataImagen 294: Arquitectura Flume Imagen 295: Beneficios del Uso de Bigdata Imagen 296: Arquitecura Apache SparkImagen 297: Beneficios del Uso de Bigdata Imagen 298: Arquitecura Apache Spark Imagen 299: Arquitectura HIVEImagen 300: Arquitecura Apache SparkImagen 301: Beneficios del Uso de Bigdata Imagen 302: Arquitecura Apache SparkImagen 303:
  • 25. Big Data. U s s Página 24 8. CONCLUSIONES Big data es una nueva tendencia para el manejo de grandes volúmenes de información, utilizado principalmente por grandes empresas, pero gracias a las nuevas tecnologías y su fácil acceso podrá ser utilizado por cualquier empresa o institución que desee vincularse al nuevo proceso que se puede lograr en la gestión de la información. La estructura de un ambiente Big Data ayuda a mejorar la manipulación de los datos, optimizando la gestión de la información respecto a tiempo y costo, logrando obtener mejores resultados en las estadísticas para una buena toma de decisiones. La creación de un ambiente Big Data se debe realizar dentro de un cluster, el cual permita integrar todas las aplicaciones que se van a utilizar, como en este caso Hadoop, en el cual se almacena la información y las aplicaciones corren dentro del mismo nodo, evitando conflictos durante la ejecución. Es importante resaltar que existen muchas maneras para transformar el mismo modelo relacional al modelo basado en columnas, ya que se pueden tomar distintos caminos para la unión de los datos, esto depende de la información que se desee encontrar o saber. Para obtener una adecuada transformación se deben tener en cuenta las llaves primarias, las cuales se convertirán en las row key, que permitirá integrar toda la información dentro de una misma columna, mejorando la manipulación que se darán a los datos.
  • 26. Big Data. U s s Página 25 9. REFERENCIAS BIBLIOGRÁFICAS:  Libro: Introducción al Big Data - Open Course Ware  Tesis: Diseño Y Desarrollo De Una Guía Para La Implementación De Un Ambiente Big Data En La Universidad Católica De Colombia  https://campusvirtual.ull.es/ocw/course/view.php?id=95  https://www.informaticaparatunegocio.com/blog/beneficios-del-big-data-empresa/  http://www.tuataratech.com/2016/06/el-futuro-se-escribe-con-b-de-big-data.html  https://diarium.usal.es/id00707290/2016/03/15/big-data/  https://johnfaberblog.wordpress.com/2016/07/27/big-data-clasificacion-en-base- de-la-estructura/  http://culturacrm.com/big-data/diferencias-big-data-business/  https://es.slideshare.net/interxionspain/big-data-espaa-q1-2013-prensa