2. Qué es Big Data
Big Data describe conjuntos de datos tan grandes que se convierte en difíciles de
manejar con las herramientas de bases de datos tradicionales a un costo
razonable.
En términos generales podríamos referirnos a Big Data como a la tendencia en el
avance de la tecnología que ha abierto las puertas hacia un nuevo enfoque de
entendimiento y toma de decisiones, la cual es utilizada para describir enormes
cantidades de datos (estructurados, no estructurados y semi estructurados) que
tomaría demasiado tiempo y sería muy costoso cargarlos a un base de datos
relacional para su análisis.
El concepto de Big Data aplica para toda aquella información que no puede ser
procesada o analizada utilizando procesos o herramientas tradicionales. Sin
embargo, Big Data no se refiere a alguna cantidad de información en específico,
ya que es usualmente utilizado cuando se habla en términos de petabytes y
exabytes de datos.
En términos de datos:
Gigabyte = 109 = 1,000,000,000 Terabyte = 1012 = 1,000,000,000,000 Petabyte
= 1015 = 1,000,000,000,000,000 Exabyte = 1018 = 1,000,000,000,000,000,000
3. Qué es Big Data
Además del gran volumen de información, la misma también existe en una
gran variedad de datos que pueden ser representados de diversas maneras en
todo el mundo, por ejemplo de dispositivos móviles, audio, video, sistemas GPS,
incontables sensores digitales en equipos industriales, automóviles, medidores
eléctricos, veletas, anemómetros, etc., los cuales pueden medir y comunicar el
posicionamiento, movimiento, vibración, temperatura, humedad y hasta los
cambios químicos que sufre el aire, de tal forma que las aplicaciones que analizan
estos datos requieren que la velocidad de respuesta sea lo demasiado rápida
para lograr obtener la información correcta en el momento preciso. Y toda la
información que se procese debe poseer además validez (información verídica o
verificable). Estas son las características principales de una oportunidad para Big
Data.
Estas son las 3 V de BigData: Volumen, Variedad, Velocidad a las que hemos
adicionado una V más que es que la información debe ser además Válida. Estas
características en su conjunto proporcionan el verdadero valor de la información
que es el conocimiento
Volumen + Variedad + Velocidad + Valor = Conocimiento
5. Qué es Big Data
La información crece exponencialmente. 1GB de información almacenado puede
generar 1PB de información en tránsito.
6. Campos de Aplicación de Big Data
La exigencia tecnológica de un Big Data es alta dado el gran volumen de
información, la velocidad de evolución y volatilidad de ésta y la complejidad al
combinar gran variedad de tipologías de datos no estructurados.
Las principales plataformas Big Data incluyen aplicaciones de Búsqueda y
exploración de datos (data discovery), organización de la información,
procedimientos de inteligencia y establecimiento de reglas de operación,
conectores con aplicaciones comerciales, herramientas de análisis y capas de
presentación
7. Campos de Aplicación de Big Data
La siguiente figura muestra ejemplos de uso de tecnología Big Data en
aplicaciones del mundo real.
8. Campos de Aplicación de Big Data
El siguiente texto describe el uso de Big Data por parte de la Agencia Tributaria
española:
Los sistemas de control de la Agencia Tributaria se dividen en ‘extensivos’, que suponen un
análisis automatizado para el conjunto de contribuyentes (como en la renta), e ‘intensivos’,
donde ‘se selecciona a los que son más probables de hacer fraude’ y ‘cumplen condiciones que
se consideran más favorables a que se cometan los peores fraudes’. La última forma comprende
acciones como ‘ir al lugar y ver trabajadores’.
El uso de sistemas de análisis de la AEAT se ha ido intensificando desde 2008 ‘pero
últimamente más’ ya que ‘cada vez tenemos más datos, la realidad es más compleja y la
tecnología cada vez permite más’.
Zújar, tras una primera versión en 1993, ha permitido a la Agencia elaborar un excell con 173
conceptos con datos de los ciudadanos como ‘inmuebles’, ‘vehículos’, ‘relaciones’ y
‘transacciones’.
‘Esa información’ de Zújar ‘se carga y se cruza con las facturas’ de los contribuyentes mediante
el programa Prometeo. Esto permite, por ejemplo, ver si hay diferencias, entre el IVA que declaró
un ciudadano y el que se le imputó.
Para casos en los que el contribuyente no quiera colaborar, el programa Buscón analiza la
información contenida en discos duras y papeles, que será devuelta al usuario de forma
ordenada a través de un generador de informes.
Si la Agencia decide compartir la información analizada con alguna entidad puede utilizar, de manera responsable
y controlada, Genio, que define los intercambios de datos. Por último, la AEAT cuenta con Teseo para observar las
relaciones existentes entre los contribuyentes, a modo de mapa de red social
10. Capas de BigData
IBM propone un esquema de clasificación de capas para una solución BigData.
11. OpenSource Hadoop
Open Source
Desarrollado originalmente por Yahoo
Administrado por Apache Software Foundation
Diseñado para trabajar con petabytes de datos
Pensado para implementarse con hardware económico
Ofrece alta disponibilidad
Escala horizontalmente
Muchas tecnologías de desarrollo están basadas en Hadoop
Buena aceptación en el mercado
Curva de aprendizaje elevada
No es una base de datos
No es una aplicación en tiempo real
The Apache Hadoop software library is a
framework
that allows for the distributed processing
of large data sets across clusters of
computers using a simple programming
model
12. Qué es Hadoop?
La biblioteca de software Apache Hadoop es un framework que permite el
procesamiento distribuido de grandes conjuntos de datos a través de grupos de
computadores que utilizan modelos de programación simples. Hadoop está
diseñado para escalar desde un servidor individual hasta miles de máquinas en
cluster, cada una con capacidad de procesamiento y almacenamiento local. En
lugar de confiar en el hardware para ofrecer alta disponibilidad, la biblioteca en
sí está diseñada para detectar y controlar los errores en la capa de aplicación,
por lo que la entrega de un servicio de alta disponibilidad como controlador de
un cluster (grupo) de computadoras, cada una de las cuales pueden ser
propensos a las fallas.
Hadoop es básicamente procesamiento paralelo en forma masiva construido
sobre un algoritmo de programación distribuida.
Se basa en el paradigma de procesamiento económico: La información se
procesa donde se encuentra.
13. Cómo funcionaHadoop?
La clave de Hadoop es MapReduce, en la arquitectura de desarrollo los
programadores deben "romper" el trabajo en distintos segmentos que deben
cumplir las siguientes características:
Autónomos
Digeribles
Se debe poder procesar en forma independiente
Con la posibilidad de recuperarse a fallas en cualquier punto del proceso.
14. MapReduce
MapReduce es un framework (modelo de programación) utilizado por Google para
dar soporte a la computación paralela sobre grandes colecciones de datos en grupos
de computadoras y al commodity computing. El nombre del framework está inspirado
en los nombres de dos importantes métodos, macros, o funciones en programación
funcional: Map y Reduce.
Las funciones Map y Reduce se aplican sobre pares de datos (clave, valor).
Map toma como entrada un par (clave,valor) y devuelve una lista de pares
(clave2,valor2)
Esta operación se realiza en paralelo para cada par de datos de entrada.
Luego el framework MapReduce (como Hadoop MapReduce) agrupa todos los pares
generados con la misma clave de todas las listas, creando una lista por cada una de
las claves generadas.
Reduce se realiza en paralelo tomando como entrada cada lista de las obtenidas en
el Map y produciendo una colección de valores
17. Cloudera
Es la empresa lider en desarrollo de tecnología BigData con productos OpenSource.
Su producto estrella es de código abierto, el mismo que es denominado CDH
(Cloudera Distribution incluyendo Apache Hadoop), e incluye un conjunto de
productos open source (Apache Hive, Apache Avro, Apache HBase, etc) que se
combinan para formar la plataforma Hadoop
Cuenta en sus filas con el arquitecto diseñador de Hadoop, Dougg Cutting, el mismo
que es una autoridad en el ámbito de tecnologías asociadas a BigData.
Cloudera ha logrado alianzas importantes con grandes compañías como HP, DELL,
Cisco para el desarrollo y fortalecimiento de la plataforma Hadoop.
Son los impulsadores del proyecto Impala, el mismo que permite hacer una
conjunción entre el análisis de datos estructurados y no estructurados, así como
consultas en tiempo real reforzando el potencial y poder de BigData.
21. Cloudera - Impala
Impala es un motor open source de queries SQL interactivas para analizar
datos almacenados en Hadoop en tiempo real.
Las principales características de Impala son:
Rápida: permite ejecutar queries SQL en Hadoop en segundos
Flexible: permite hacer queries sobre datos sin procesar o formatos
Hadoop
Integrado en Hadoop
Abierta
Extensible: certificado en aplicaciones BI como SAP, Microstrategy
22. Cloudera - Impala
La siguiente figura muestra la arquitectura de alto nivel de Impala:
23. Latinus – Arquitectura de referencia Big Data
La siguiente figura muestra la arquitectura propuesta de Latinus para
implementaciones de Big Data