Bigdata trabajo de investigacion

FACULTAD DE INGENIERÍA,
ARQUITECTURA Y URBANISMO
ESCUELA PROFESIONAL DE INGENIERÍA DE
SISTEMAS
“BIG DATA”
DOCENTE:
Mg. Sánchez Guevara Omar Antonio.
INTEGRANTES:
Becerra Cardenas,Jorge
Fernández Román,Ismael.
Montalvo Sandoval ,Jose.
PIMENTEL – PERÚ
2015

Big Data.
U s s Página 1
ÍNDICE
TRABAJO DE INVESTIGACION .................................................................................... 3
OBJETIVO........................................................................................................................ 3
1. INTRODUCCIÓN ...................................................................................................... 3
2. MARCO TEÓRICO..................................................................................................... 4
3. DEFINICIÓN DE BIG DATA. ..................................................................................... 5
4. BI TRADICIONAL VS BIG DATA............................................................................... 8
5. Clasificación En Base De La Estructura ....................................................... 9
5.1. Nivel de estructura de los datos:................................................................. 10
5.1.1. Datos estructurados............................................................................... 11
5.1.2. Datos semi estructuradas ..................................................................... 12
6. BENEFICIOS DEL BIG DATA ............................................................................... 14
7. HERRAMIENTAS PARA IMPLEMENTAR SOLUCIONES DE BIG DATA. ......... 15
7.1. Hadoop............................................................................................................ 15
7.2. MapReduce..................................................................................................... 15
7.3. Gridgain .......................................................................................................... 16
7.4. HPCC ............................................................................................................... 17
7.5. Storm............................................................................................................... 17
7.6. HANA............................................................................................................... 18
7.7. SPARK............................................................................................................. 19
7.8. HIVE................................................................................................................. 20
7.9. KAFKA............................................................................................................. 21
7.10. FLUME ......................................................................................................... 23
8. CONCLUSIONES ................................................................................................... 24
9. REFERENCIAS BIBLIOGRÁFICAS:..................................................................... 25

Big Data.
U s s Página 2
Imágenes
IMAGEN 1: BENEFICIOS DEL USO DE BIGDATA................................................................... 6
IMAGEN 2: LAS 5 V DEL BIGDATA...................................................................................... 7
IMAGEN 3: BIGDATA VS BI ........................................... ¡ERROR! MARCADOR NO DEFINIDO.
IMAGEN 4: NIVELES DE ESTRUCTURA DE LOS DATOS ....................................................... 11
IMAGEN 5: ARQUITECTURA HADDOP ............................................................................... 15
IMAGEN 6: PROCESO MAPREDUCE.................................................................................. 16
IMAGEN 7: GRIDGAIN ...................................................................................................... 16
IMAGEN 8: ARQUITECTURA HPCC................................................................................... 17
IMAGEN 9: EJEMPLO DE APLICACION STORM RESTORATION ........................................... 18
IMAGEN 10: PLATAFORMA HANA PARA BIGDATA ............................................................ 19
IMAGEN 11: ARQUITECURA APACHE SPARK.................................................................... 20
IMAGEN 12: ARQUITECTURA HIVE .................................................................................. 21
IMAGEN 13: ARQUITECTURA KAFKA................................................................................ 22
IMAGEN 14: ARQUITECTURA FLUME ................................................................................ 23
Tablas
TABLA 1 : CARACTERÍSTICAS DEL BIGDATA....................................................................... 7
TABLA 2: DIFERENCIAS BI TRADICIONAL Y BIGDATA.......................................................... 8

Big Data.
U s s Página 3
TRABAJO DE INVESTIGACION
OBJETIVO
Realizar una investigación profunda sobre el tema asignado y sustentar dicha
investigación a través de una exposición.
La estructura sugerida para el trabajo de investigación es, grosso modo:
1. INTRODUCCIÓN
Con el constante crecimiento de información en cada uno de los aspectos más
relevantes mundialmente como sociedad, comercio y ciencia, se vuelve necesario un
cambio con respecto al manejo de la información, que hasta hace poco tiempo se
venía implementando a partir de bases de datos relacionales. Si bien este esquema
funcionaba para ambientes que almacenaban Teras de información con datos
puntuales y que a través de consultas SQL se podía buscar la información requerida,
se vuelve dispendioso y costoso al momento de analizar un mayor volumen de
información, en ambientes donde anualmente se almacenan petas de todo tipo de
datos, incluyendo aquí los no estructurados, como archivos de video y audio; un
ejemplo de esto es “Google, que recibe a diario trillones de bytes, con el objetivo de
ofrecer muchos de los servicios que actualmente se conocen como el mismo motor de
búsqueda y Google Earth”.
El manejo de grandes cantidades de información conlleva a pensar en la
implementación de herramientas que permitan administrar y gestionar este tipo de
datos no estructurados y semi-estructurados, en la búsqueda de patrones
concurrentes para la toma de decisiones. “Actualmente se pueden encontrar
tecnologías como Hadoop, MapReduce y bases de datos NoSQL, que se pueden
implementar en la creación de un ambiente Big Data”.

Big Data.
U s s Página 4
El Big Data en una combinación de tecnologías de gestión de datos que han
evolucionado en las últimas décadas.
Permite a las compañías almacenar y manipular grandes volúmenes de datos a la
velocidad adecuada y en el momento oportuno.
Big Data no es una solución aislada; es necesario hacer confluir una estrategia de
negocio con una técnica para aprovechar esta tendencia tecnológica.
Big Data es una combinación de los 50 años de evolución de la tecnología. Debemos
conocer las tecnologías emergentes que usan las compañías (Hadoop, MapReduce,
etc.). Las compañías han trabajado durante años para obtener información útil de sus
clientes, productos y servicios.
Algunos datos son estructurados y están almacenados en bases de datos. Sin
embargo, otros, incluyendo documentos, imágenes y vídeos, son desestructurados.
Además, las compañías tienen que considerar datos obtenidos de nuevas fuentes,
como son los sensores, las redes sociales, las páginas web, etc.
2. MARCO TEÓRICO
Big Data ha representado un movimiento revolucionario, en cuanto al manejo de toda
la información que hasta hace poco tiempo era poco probable se pudiera analizar, con
la inclusión de este concepto se puede pensar en el procesamiento de datos del tipo
no estructurado, como video, audio, sistemas GPS y gran número de sensores
ubicados en dispositivos móviles, automóviles y equipos industriales entre otros.

Big Data.
U s s Página 5
3. DEFINICIÓN DE BIG DATA.
Según Gartner 7, Big data es una referencia a aquellos sistemas de
información que manejan conjuntos de datos de gran volumen, de alta
velocidad, de veracidad, de valor y de gran variedad de recursos, que
demandan formas rentables e innovadoras de procesamiento de la
información para mejorar la comprensión y la toma de decisiones.
Según Gualtieri Big data es la solución al crecimiento exponencial de los
datos, en el momento en que se hace difícil su administración con respecto
al almacenamiento, procesamiento y acceso.
De esto se puede obtener beneficios como.
 “Optimizar el cálculo y la precisión algorítmica para reunir, analizar,
enlazar y comparar conjuntos de grandes datos”.
 “Identificar patrones para la toma de decisiones en los ámbitos
económico, social, técnico y legal”.

Big Data.
U s s Página 6
La mayoría de las definiciones que se pueden encontrar de Big data están
enfocadas al volumen de los datos, al almacenamiento de dicha información,
de esto se puede concluir que el volumen importa pero que también existen
otros atributos importantes de Big data, estos son: “la velocidad, la
veracidad, la variedad y el valor” 11 . Estos cinco aspectos constituyen
una definición comprensiva y además destruyen el mito acerca de que Big data
se trataúnicamente del volumen. A cada uno de estos aspectos se le atribuyen
las siguientes características:
Imagen 1: Beneficios del Uso de Bigdata
Imagen 2: Arquitecura Apache SparkImagen 3: Beneficios del Uso de Bigdata
Imagen 4: Arquitecura Apache Spark
Imagen 5: Arquitectura HIVEImagen 6: Arquitecura Apache SparkImagen 7:
Beneficios del Uso de Bigdata
Imagen 11: Arquitectura HIVEImagen 12: Arquitecura Apache Spark

Big Data.
U s s Página 7
Tabla 1 : Características del Bigdata
Volumen Velocidad Variedad Veracidad Valor
Almacenamiento
En terabytes
Por lotes Estructurado Integridad y
Autenticidad
Estadísticas
Registros Tiempo
Cercano
No
estructurado
Origen y
Reputación
Eventos
Transacciones Tiempo
Real
Multi-factor Disponibilidad Correlaciones
Tablas y
Archivos
Procesos Probabilística Responsabilid
ad
Hipótesis
Imagen 26: Las 5 V del Bigdata
Imagen 27: BigData VS BIImagen 28: Las 5 V del Bigdata
Imagen 29: BigData VS BI
Imagen 30: Niveles de estructura de los datosImagen 31: BigData VS BIImagen 32:
Las 5 V del Bigdata
Imagen 33: BigData VS BIImagen 34: Las 5 V del Bigdata
Imagen 36: Niveles de estructura de los datosImagen 37: BigData VS BI
Imagen 38: Niveles de estructura de los datos
Imagen 39: Arquitectura HaddopImagen 40: Niveles de estructura de los
datosImagen 41: BigData VS BI
Imagen 42: Niveles de estructura de los datosImagen 43: BigData VS BIImagen 44:
Las 5 V del Bigdata

Big Data.
U s s Página 8
4. BI TRADICIONAL VS BIG DATA
Tabla 2: Diferencias Bi Tradicional y Bigdata
DIFERENCIAS BIG DATA BUSINESS INTELLIGENCE
Almacenamiento
de datos:
Big Data almacena los datos en
un sistema de ficheros que puede
encontrarse distribuido por la
nube. Por tanto, tiene capacidad
para cruzar datos de varias
plataformas por ejemplo datos de
una red de información científica
con historiales médicos de un
centro sanitario.
Business Intelligence se
aplica a menor escala. Los
datos se almacenan en un
servidor central, en un
entorno seguro y más
flexible, por ejemplo,
información de las ventas de
una empresa.
Cantidad de
datos:
Big data tiene la capacidad de
analizar grandes volúmenes de
datos, de tal forma que llevan las
funciones de proceso a los datos.
business intelligence toma
los datos y los lleva hasta las
funciones.
Análisis del
kaos:
Big Data tiene la capacidad de
analizar datos que se encuentran
estructurados o no estructurados,
aquellos que no están
almacenados en soportes
tradicionales.
Es capaz de analizar datos
que provienen de diferentes
fuentes y plataformas, una
clara diferencias al business
intelligence.
Características
de los datos:
Big Data tiene la habilidad de
procesar y analizar datos que
provienen de archivos históricos
con datos que se obtienen en
tiempo real.
Si retomamos el ejemplo de
la investigación científica, se
podrán analizar datos
históricos de
comportamientos de
patógenos y datos obtenidos
de las nuevas zepas de un
mismo virus para tratar con
seguridad una epidemia.

Big Data.
U s s Página 9

Big Data.
U s s Página 10
5. CLASIFICACIÓN EN BASE DE LA ESTRUCTURA
5.1. Nivel de estructura de los datos:
La forma en que se organizan los datos para facilitar su procesamiento usando
un computador
- Mayor nivel de estructura → Procesamiento más sencillo
- Menor nivel de estructura → Procesamiento más complejo
Por ejemplo, no es lo mismo el procesamiento y análisis de un texto escrito en
lenguaje humano que uno al que ya se han aplicado un conjunto de reglas
definidas para la estructuración de la información que contiene. ej. modelo
relacional, lenguaje de marcas XML, …
Cuando menor es el nivel de estructura más difícil es su procesamiento
(integración y verificación de la calidad) y, por tanto, más complicada es la
extracción de conocimiento.
En base a su nivel de estructura las fuentes de datos pueden clasificarse en:
- Estructuradas
- Semi estructuradas
- No estructuradas

Big Data.
U s s Página 11
5.1.1. Datos estructurados
Nivel más alto de estructura → Procesamiento eficiente y eficaz.
Los datos se almacenan con una estructura bien definida y que aplica unas
normas muy estrictas.
El ejemplo más claro son las bases de datos relacionales
- La información se almacena en tablas y se definen relaciones entre dichas
tablas.
- Las tablas se componen de filas (tuplas) y columnas (campos o atributos).
Toda la información se almacena de acuerdo al esquema relacional definido
Imagen 54: Niveles de estructura de los datos
Imagen 55: Arquitectura HaddopImagen 56:
Niveles de estructura de los datos
Imagen 57: Arquitectura Haddop
Imagen 58: Proceso MapReduceImagen 59:
Arquitectura HaddopImagen 60: Niveles de
estructura de los datos
Arquitectura Haddop
Imagen 66: Proceso MapReduce
Imagen 67: GridGainImagen 68: Proceso
MapReduceImagen 69: Arquitectura Haddop

Big Data.
U s s Página 12
Por lo general, los almacenes de datos (Data Warehouses) usan esta
tecnología como almacenamiento subyacente
Aunque se aplique el modelo multidimensional (que vimos en el tema 2) en
lugar del modelo relacional
Suelen contener metadatos: información sobre los propios datos que ayuda en
su interpretación (ej. descripciones, unidades de medida usadas…)
5.1.2. Datos semi estructuradas
El procesamiento de información estructurada es el más sencillo y, desde hace
tiempo, se consigue realizar de forma eficiente para grandes volúmenes de
datos. Sin embargo, en Big Data, la mayoría de las fuentes externas de las que
disponemos son de las consideradas semi o nada estructuradas.
Los datos se almacenan conforme a conjunto de reglas menos estrictas y más
flexibles.
El nivel de estructura puede variar según su aplicación y, por tanto, también la
dificultad de procesamiento. A medio camino entre datos estructurados y nada
estructurados.
Algunos de los formatos semi estructurados más usados:
- XML, JSON, CSV, Excel.
En algunos los datos se organizan conforme a un esquema o modelo de datos
bien definido.
- XML (DTD y XML Schema)
Suelen contener metadatos.
Algunas de las fuentes que usualmente se distribuyen en estos formatos:
- Open Data, redes sociales, datos de sensores, logs de servidores web
(ejemplo de JSON).

Big Data.
U s s Página 13
5.1.3. Datos No Estructurados
Por último, tenemos los datos no estructurados:
Menor nivel de estructura: No tienen una estructura definida de forma explícita
- Ejemplos: texto (en lenguaje natural), vídeo, audio, imágenes…
- Sí pueden tener algún tipo de estructura implícita: ej. División en párrafos de
un texto, escenas de una película, estribillo de una canción.
Para un computador puede llegar a ser muy difícil de interpretar
- Es frecuente que, lo que es más fácil de interpretar para un humano sea lo
más difícil de interpretar para un computador
El 80% de las fuentes disponibles en Big Data son no estructuradas.
Existen algunas técnicas que permiten aprovechar este tipo de fuentes:
- Procesamiento del lenguaje natural (PLN) → Estructuración
- Minería de datos → Descubrimiento automático de conocimiento implícito en
los datos.
En una aplicación Big Data es frecuente trabajar con fuentes de datos de los 3
tipos como veremos en el módulo 4, la tecnología de almacenamiento y
procesamiento de Big Data centra sus esfuerzos en dar soporte efectivo y
eficiente a las nuevas fuentes semi y no estructuradas, y facilitar la integración
de estas con otras fuentes altamente estructuradas.
Puede ser necesario añadir estructura a las fuentes que no la tienen antes de
aplicar algún proceso de análisis para el descubrimiento de conocimiento
- Mediante procesos ETL.

Big Data.
U s s Página 14
6. BENEFICIOS DEL BIG DATA
Puede proporcionar ideas provenientes de enormes cantidades de datos de
múltiples fuentes que incluyen a aquellos que ya están almacenados en bases
de datos de la empresa, las que provienen de fuentes externas de terceros, de
Internet, redes sociales, etc.
Monitorización y previsión en tiempo real de eventos que pueden afectar el
rendimiento o las operaciones de los negocios.
Capacidad de encontrar, adquirir, extraer, manipular, analizar, conectar y
visualizar datos con diferentes herramientas.
Identificación de información importante que puede mejorar la calidad de la
toma de decisiones.
Capacidad de mitigar riesgos mediante la optimización de decisiones complejas
acerca de eventos no planificados con mayor rapidez.
Identificación de las causas fundamentales de fallos y problemas en tiempo
real.
Comprensión plena del potencial del marketing basado en datos.
Generación de ofertas a clientes basadas en sus hábitos de compra.
Mejora del compromiso del cliente y aumento de su fidelidad.
Reevaluación del portfolio de riesgos de forma rápida.
Personalización de la experiencia del cliente.
Añadiendo valor a las interacciones con los clientes online y offline.

Big Data.
U s s Página 15
7. HERRAMIENTAS PARA IMPLEMENTAR SOLUCIONES DE BIG DATA.
7.1. Hadoop
“Es un framework que permite el procesamiento distribuido de grandes
conjuntos de datos a través de grupos de ordenadores que utilizan modelos de
programación simple. Está diseñado para detectar y controlar los errores en la
capa de aplicación”.
Apache Hadoop tiene dos componentes centrales, el almacenamiento de
archivos llamado Hadoop Distributed File System (HDFS), y la infraestructura
de programación llamada MapReduce.
7.2.MapReduce
MapReduce es un motor computacional que permite una escalabilidad
descomunal a miles de servidores en un cluster Hadoop. Literalmente,
MapReduce se divide en dos términos, “Mapa” y “Reducir”. “Mapa” viene a ser
la conversión de un dataset en otro conjunto de datos al descomponer los
datos y la creación de pares de datos (clave / valor). La tarea de “reducir” es
tomar los datos del “mapa” y combinar los pares clave / valor en pares más
pequeños. Otro framework alternativo dentro del ecosistema Hadoop para
aplicaciones de procesamiento de datos es Apache Tez.
Imagen 82: Proceso MapReduceImagen 83: Arquitectura
Haddop
Imagen 88: Proceso MapReduceImagen 89: Arquitectura
Haddop
Imagen 91: GridGainImagen 92: Proceso MapReduce
Imagen 93: GridGain
Imagen 94: Arquitectura HPCCImagen 95:
GridGainImagen 96: Proceso MapReduce

Big Data.
U s s Página 16
7.3. Gridgain
Gridgrain es una herramienta que proporciona métodos dinámicos de
computación y almacenamiento de datos tales como la agrupación dinámica,
procesamiento MapReduce, ejecución de cierre distribuido, balanceo de carga,
tolerancia a fallos, mensajería distribuida y escalabilidad lineal.
Imagen 111: GridGain
Imagen 112: Arquitectura HPCCImagen 113: GridGainImagen 114: Proceso
MapReduce
Imagen 118: Arquitectura HPCCImagen 119: GridGain
Imagen 120: Arquitectura HPCC
Imagen 121: Ejemplo de Aplicacion RestImagen 122: Arquitectura HPCCImagen
123: GridGain
MapReduce
MapReduce
Imagen 139: Ejemplo de Aplicacion RestImagen 140:
Arquitectura HPCCImagen 141: GridGain

Big Data.
U s s Página 17
7.4. HPCC
HPCC, siglas de “clustering computacional de alto rendimiento “, es conocido
por ofrecer un rendimiento superior a Hadoop en determinados entornos. Esta
herramienta está disponible tanto en versión gratuita y versión de pago. Tiene
un apoyo activo de la comunidad en todo el mundo.
7.5. Storm
Apache Storm es una herramienta de código libre y abierto. Es fácil de usar y
puede ser integrada con cualquier lenguaje de programación. Ofrece una
interfaz fácil y fiable, permite procesamiento en tiempo real, similar a lo que
Hadoop hace en batch processing (procesamiento por lotes). Es una de las
herramientas más populares y está siendo utilizada por empresas como
Flipboard, Groupon, Twitter, Spotify, Yahoo (Japón), WebMD, Baidu y muchos
más.
Además de las anteriores, hay muchas herramientas de bases de datos /
datawarehouses que facilitan las tareas de manejo de grandes volúmenes de
Arquitectura HPCC
Imagen 165: Ejemplo de Aplicacion Restauracion Storm
Imagen 166: Plataforma Hana para BigdataImagen 167:
Ejemplo de Aplicacion RestImagen 168: Arquitectura
HPCC
Arquitectura HPCC
Imagen 171: Ejemplo de Aplicacion Restauracion Storm
Ejemplo de Aplicacion Restauracion Storm
Imagen 174: Plataforma Hana para Bigdata
Imagen 175: Arquitectura KafkaImagen 176: Plataforma
Hana para BigdataImagen 177: Ejemplo de Aplicacion
Restauracion Storm
Ejemplo de Aplicacion RestImagen 180: Arquitectura
HPCC

Big Data.
U s s Página 18
datos. Algunas de las más populares son MongoDB, CouchDB, Cassandra,
HBase, Neo4j, Riak, Hypertable.
7.6. HANA
La Ley de Moore también se aplica al Big Data, lo que nos conduce a
soluciones más rápidas, más asequibles, y gracias a ello procesadores y más
memoria. Todo tiende al análisis de datos en tiempo real. SAP ha sido el
campeón del enfoque in-memory con su plataforma Hana, pero Microsoft y
Oracle están a punto de introducir opciones en memoria a sus soluciones de
bases de datos. Proveedores de bases de datos enfocados en analítica como
Actium, HP Vertica, y Teradata han introducido opciones para relaciones de
alto acceso RAM a disco, junto con herramientas para colocar datos
específicos en memoria para el análisis ultra-rápido.
Imagen 189: Ejemplo de Aplicación Restauración Storm
Imagen 190: Plataforma Hana para BigdataImagen 191: Ejemplo de
Aplicacion Restauracion Storm
Imagen 193: Arquitectura KafkaImagen 194: Plataforma Hana para
BigdataImagen 195: Ejemplo de Aplicacion Restauracion Storm
Bigdata
Imagen 201: Arquitectura Kafka
Imagen 202: Arquitectura FlumeImagen 203: Arquitectura KafkaImagen
204: Plataforma Hana para Bigdata

Big Data.
U s s Página 19
7.7. SPARK
Apache Spark es un motor de procesamiento de datos a gran escala rápido y
fácil de usar. Se pueden programar aplicaciones usando diferentes lenguajes
como Java, Scala, Python o R. Según las aplicaciones puede llegar a ser 100
veces más rápido que Hadoop MapReduce en memoria o 10 veces más rápido
en disco. Permite combinar SQL, streaming y librerías analíticas avanzadas,
MLlib para machine learning, GraphX y Spark Streaming. Puede funcionar
Imagen 217: Arquitectura KafkaImagen 218: Plataforma Hana para Bigdata
Imagen 220: Arquitectura FlumeImagen 221: Arquitectura KafkaImagen 222:
Plataforma Hana para Bigdata
Imagen 226: Arquitectura FlumeImagen 227: Arquitectura Kafka
Imagen 228: Arquitectura Flume
Imagen 229: Beneficios del Uso de BigdataImagen 230: Arquitectura
FlumeImagen 231: Arquitectura Kafka

Big Data.
U s s Página 20
sobre Hadoop, Mesos, formato standalone, o en cloud. Permite acceder
diversas fuentes de datos como HDFS, Cassandra, HBase y S3.
7.8.HIVE
Apache Hive es una infraestructura datawarehouse para Hadoop. Este
software facilita la consulta y gestión de grandes conjuntos de datos que
residen en almacenamiento distribuido. La funcionalidad principal de Hive
es proporcionar resumenes de datos, consultas y análisis. Es compatible
con el análisis de grandes conjuntos de datos almacenados en HDFS de
Hadoop, así como en el sistema de archivos de Amazon S3. Ofrece un

Big Data.
U s s Página 21
mecanismo para proyectar la estructura sobre los datos y consultarlos
utilizando un lenguaje similar a SQL llamado HiveQL.
7.9. KAFKA
Apache Kafka es un sistema de publicación distribuida. Ha sido diseñado para
permitir que un solo grupo de datos pueda servir como la columna vertebral
para una gran organización. Un único broker de Kafka puede manejar cientos
de megabytes en lecturas y escrituras por segundo desde miles de clientes.
Puede ser ampliado de manera elástica y transparente en modo producción.
Algunas de las empresas que usan Kafka para el streaming de datos son
Imagen 258: Arquitectura HIVE

Big Data.
U s s Página 22
LinkedIn, Yahoo, Twitter, Netflix, Square, Spotify, Pinterest, Uber, Goldman
Sachs, Tumblr, Paypal, Box, Airbnb, Cisco, Mozilla, Foursquare.
Flume
Imagen 272: Arquitecura Apache SparkImagen 273: Beneficios del Uso
de BigdataImagen 274: Arquitectura Flume

Big Data.
U s s Página 23
7.10. FLUME
Es un servicio distribuido, confiable y disponible para recolectar, agregar y
mover grandes cantidades de datos de registro eficientemente. Cuenta con una
arquitectura simple y flexible basada en transmisión de flujos de datos. Es
robusto y tolerante a fallos con los mecanismos de fiabilidad, conmutación por
error y los mecanismos de recuperación. Se utiliza un modelo de datos
extensible simple que permite una aplicación analítica en línea.
FLUJO DE DATOS
Imagen 287: Beneficios del Uso de BigdataImagen 288:
Arquitectura Flume
Imagen 290: Arquitecura Apache SparkImagen 291:
Beneficios del Uso de BigdataImagen 292: Arquitectura
Flume
Imagen 293: Beneficios del Uso de BigdataImagen 294:
Arquitectura Flume
Imagen 299: Arquitectura HIVEImagen 300: Arquitecura Apache
SparkImagen 301: Beneficios del Uso de Bigdata

Big Data.
U s s Página 24
8. CONCLUSIONES
Big data es una nueva tendencia para el manejo de grandes volúmenes de
información, utilizado principalmente por grandes empresas, pero gracias a las
nuevas tecnologías y su fácil acceso podrá ser utilizado por cualquier empresa
o institución que desee vincularse al nuevo proceso que se puede lograr en la
gestión de la información.
La estructura de un ambiente Big Data ayuda a mejorar la manipulación de los
datos, optimizando la gestión de la información respecto a tiempo y costo,
logrando obtener mejores resultados en las estadísticas para una buena toma
de decisiones.
La creación de un ambiente Big Data se debe realizar dentro de un cluster, el
cual permita integrar todas las aplicaciones que se van a utilizar, como en este
caso Hadoop, en el cual se almacena la información y las aplicaciones corren
dentro del mismo nodo, evitando conflictos durante la ejecución.
Es importante resaltar que existen muchas maneras para transformar el mismo
modelo relacional al modelo basado en columnas, ya que se pueden tomar
distintos caminos para la unión de los datos, esto depende de la información
que se desee encontrar o saber. Para obtener una adecuada transformación se
deben tener en cuenta las llaves primarias, las cuales se convertirán en las row
key, que permitirá integrar toda la información dentro de una misma columna,
mejorando la manipulación que se darán a los datos.

Big Data.
U s s Página 25
9. REFERENCIAS BIBLIOGRÁFICAS:
 Libro: Introducción al Big Data - Open Course Ware
 Tesis: Diseño Y Desarrollo De Una Guía Para La Implementación De Un Ambiente
Big Data En La Universidad Católica De Colombia
 https://campusvirtual.ull.es/ocw/course/view.php?id=95
 https://www.informaticaparatunegocio.com/blog/beneficios-del-big-data-empresa/
 http://www.tuataratech.com/2016/06/el-futuro-se-escribe-con-b-de-big-data.html
 https://diarium.usal.es/id00707290/2016/03/15/big-data/
 https://johnfaberblog.wordpress.com/2016/07/27/big-data-clasificacion-en-base-
de-la-estructura/
 http://culturacrm.com/big-data/diferencias-big-data-business/
 https://es.slideshare.net/interxionspain/big-data-espaa-q1-2013-prensa

Bigdata trabajo de investigacion

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Bigdata trabajo de investigacion

Similar a Bigdata trabajo de investigacion (20)

Más de Ris Fernandez

Más de Ris Fernandez (20)

Último

Último (20)

Bigdata trabajo de investigacion