Big Data: La era y oportunidades

Big Data.
Más que un BUZZWORD, un
universo de oportunidades.
Jhony Valderrama

{nombre, edad, carrera, área de interés}

Contenido
• Parte 1. La Era del Big Data.
• Parte 2. Infraestructura del Big Data.
• Parte 3. Analítica del Big Data.

Contenido
• Parte 1. La Era del Big Data.
– ¿En qué punto estamos?.
– Que es Big Data.
– Fuentes de Grandes Volúmenes de Datos.
– El Almacén del Big Data.
– Sectores Estratégicos del Big Data.
– La Analítica y Los científicos de Datos.
– Cloud Computing.

BigData:
“¿Enqué punto
estamos?”
Big Data ya no es una promesa ni una tendencia. Big Data
está aquí y está provocando cambios profundos en diversas
industrias. Desde el punto de vista tecnológico ya existen
sectores empresariales que han adoptado de forma masiva
proyectos y productos. El análisis de todos los datos
disponibles está convirtiéndose en un elemento de
disrupción.

¿Qué es BigData?
“Big Data se refiere a los conjuntos de datos
cuyo tamaño está mas allá de las
capacidades de las herramientas típicas de
software de bases de datos para capturar,
almacenar, gestionar y analizar”.
– Mckinsey Global Institute. 2011.

Semi-Estructurados
NoEstructurados
Estructurados
Datos que tienen bien
definidos su longitud y
su formato, como las
fechas, los números o
las cadenas de
caracteres.
Se almacenan en
tablas. Un ejemplo
son las bases de datos
relacionales y las
hojas de cálculo.
Tipos
de
Datos
Datos que no se limitan a campos
determinados, pero que contiene
marcadores para separar los diferentes
elementos.
Es una información poco regular como
para ser gestionada de una forma
estándar. Un ejemplo es el HTML, el
XML o el JSON.
Datos en el formato tal y como
fueron recolectados, carecen de
un formato específico. No se
pueden almacenar dentro de una
tabla ya que no se puede
desgranar su información a tipos
básicos de datos.
Algunos ejemplos son los PDF,
documentos multimedia, e-mails
o documentos de texto.

Fuentes de Grandes Volúmenes de Datos.
• Datos personales.
• Datos de la web.
• Datos de los medios sociales (redes sociales, blogs, wikis).
• Datos del IoT.
• Datos de interconexión de maquinas, M2M.
• Datos industriales.
• Datos de la industria del automóvil.
• Datos de redes de telecomunicaciones.
• Datos de medios de comunicación (prensa, radio, TV, cine).
• Datos de sensores.
• Datos de videojuegos.
• Datos de GPS.
• Datos de telefonía celular (texto, datos, audio, fotos, video).
• Etc, etc………………………………………………………………….etc.

Características del
Big Data: Las 5
V’s
1. VOLUMEN:
• Terabytes, Registros, Transacciones, Tablas, Archivos.
2. VELOCIDAD:
• Por Lotes, Tiempo Próximo, Tiempo Real, Flujos.
3. VARIEDAD:
• Datos Estructurados, Semi-Estructurados, NO estructurados.
4. VERACIDAD:
• Viabilidad, Precisión, Confiabilidad.
5. VALOR:
• Costo, Rentabilidad, Eficiencia.

Fuente: A.T.Kearney | Big Data and the Creative Destruction of Today’s Business Models

El científico de
datos o data
scientist.
La nueva
profesión
SEXY del siglo
XXI.

• Es una persona con habilidades
“serias” en:
– Ciencias de la computación.
– Analítica.
– Matemáticas.
– Estadística.
– Generación de tendencias.
• Además debe:
– Comprender los problemas del
negocio.
– Transformar el problema.
– Ejecutar un plan.
– Dar una solución de negocios.

Líneas de Generación
y/o Aplicación del
Conocimiento

Aplicaciones del Big Data
• La reelección de Obama
– Tras su primer mandato, el presidente de los EEUU, Barack
Obama, decidió utilizar Big Data para su reelección en 2012.
– Un centenar de personas trabajaron en el departamento de analítica
de la campaña.
– 50 estaban fijos en las oficinas centrales, otros 30 se movilizaron a lo
largo y ancho de las distintas sedes del país, y 20 estaban única y
exclusivamente centrados en la interpretación de los datos recibidos.
– Tras un primer análisis, los esfuerzos de la campaña se enfocaron en
tres aspectos: registro (recoger datos de los votantes convencidos),
persuasión (dirigirse a los dudosos de una forma eficaz) y voto del
electorado (asegurarse de que los partidarios fueran a ejercer el voto
sí o sí).
– Por primera vez, los tres equipos más importantes de las campañas
electorales: el de campo, el digital y el de comunicación, trabajaron
con una estrategia unificada con los respectivos datos de cada uno.

• Juegos de pelota y millones de datos
– Moneyball: Rompiendo las reglas (2011).
– Ocurrió en la pretemporada de 2002 en Oakland Athletics
de las Grandes Ligas de Béisbol de los Estados Unidos. El
gerente deportivo Billy Beane, revolucionó la historia del
club y posiblemente del deporte en general tras fichar a
un joven economista, Peter Brand, que traía nuevas ideas.
– Juntos contrataron jugadores infravalorados, pero
económicamente rentables, con un criterio de selección
muy diferente. La intuición y sapiencia de los ojeadores es
sustituida por las conclusiones de los análisis de
estadísticas y números acumulados a la hora de establecer
las necesidades del equipo y los jugadores que mejor se
adaptan a éstas.

• El Language, Interaction and Computation Laboratory (CLIC) en
conjunto con la Universidad de Trento en Italia, son un grupo de
investigadores cuyo interés es el estudio de la comunicación verbal
y no verbal tanto con métodos computacionales como cognitivos.
• Lineberger Comprehensive Cancer Center - Bioinformatics
Group utiliza Hadoop y HBase para analizar datos producidos por
los investigadores de The Cancer Genome Atlas(TCGA) para
soportar las investigaciones relacionadas con el cáncer.
• El PSG College of Technology, India, analiza múltiples secuencias de
proteínas para determinar los enlaces evolutivos y predecir
estructuras moleculares. La naturaleza del algoritmo y el
paralelismo computacional de Hadoop mejora la velocidad y
exactitud de estas secuencias.

Consideraciones
• Requisitos previos.
– Elaborar una estrategia, financiación $, tiempo.
• Adquisición de datos.
– Donde consigo los datos, la calidad, ej. Kaggle.
• Privacidad.
– La intimidad de las personas.
• Seguridad.
– Que tan seguro es donde proceso los datos.
• Limitaciones de la infraestructura.
– Puedo procesar 1 TB de datos en una Raspberry Pi?

Contenido
• Parte 2. Infraestructura del Big Data.
– Comparación Arquitecturas.
– Recolección de Datos.
– Almacenamiento.
– Procesamiento.

Vs.
Arq. tradicional Arq. Big data
• Centralidad  mainframe, cpd
• BBDD relacionales
• Datos estructurados
• Alm. Convencional:
-Silos de información
-Datawarehouse
• Alta escalabilidad (Scale-Out)
• Procesamiento paralelo
• Mismo espacio almacen. y
procesadoBaja latencia
• Datos no estructurados y est.
• By-pass de datos (no silos)
• NoSQL
Comparación Arquitecturas

Comparación Arquitecturas
• Un objetivo que buscan los sistemas Big Data es la
escalabilidad, es decir, un sistema que pueda variar su
tamaño (ya sea aumentándolo o disminuyéndolo)
según las necesidades y que esto no afecte al
rendimiento general de todo el sistema.

RECOLECCIÓN DE DATOS
• Batch o por lotes: se conectan de manera
periódica a la fuente de datos buscando nueva
información. Generalmente se usan para
conectarse a sistemas de ficheros o bases de
datos, buscando cambios desde la última vez que
se conectaron.
• Una herramienta para migrar datos
periódicamente -una vez al día, por ejemplo- de
una base de datos a otra es un ejemplo de
recolección de datos por lotes.

RECOLECCIÓN DE DATOS
• Streaming o por transmisión en tiempo real:
están conectados de manera continua a la
fuente de datos, descargando información
cada vez que ésta transmite.
• Se acostumbra a usar para monitorización de
sistemas -para aumentar la seguridad y la
detección de fallos-, de conjuntos de sensores
o para conectarse a redes sociales y descargar
información en tiempo real.

ALMACENAMIENTO
• La capa de almacenamiento tiene, a grandes
rasgos, dos elementos básicos: el sistema de
archivos y la base de datos.
• Hasta hace poco los sistemas de tratamiento de
la información se centraban principalmente en las
bases de datos pero, debido a que en los sistemas
Big Data se busca la mayor variedad posible -las
bases de datos acostumbran a ser poco flexibles-,
los sistemas de archivos han cobrado mayor
importancia.

ALMACENAMIENTO HDFS
Sistema de Archivos o Ficheros HDFS

ALMACENAMIENTO - BD SQL
• En la actualidad hay muchos lenguajes basados en SQL
como PostgreSQL, MySQL, MariaDB o SQLite; que a la
vez también son Sistemas Gestores de Bases de Datos
Relacionales o SGBDR-.
• Los lenguajes SQL se benefician de consultas muy
sencillas, parecidas al lenguaje humano, que las hacen
muy accesibles a los usuarios no expertos.
• Se aprovecha de las características del álgebra y el
cálculo relacional para efectuar con el fin de recuperar
de forma sencilla información de interés.

ALMACENAMIENTO BD SQL
• Son sistemas rápidos y ágiles pero cuando la
información almacenada supera unos límites -
normalmente alrededor de terabytes- mantener
la información estructurada tiene un coste en la
creación y mantenimiento de los índices y en el
rendimiento de las consultas.
• Son bases de datos poco flexibles ya que cuando
se crea su estructura es bastante conflictivo
realizar cambios en esta (como añadir nuevas
columnas a una tabla o cambiar el tipo de una
columna).

ALMACENAMIENTO - BD NoSQL
• Son modelos de bases de datos que no siguen el
modelo relacional -y por lo tanto usan muy poco el
lenguaje SQL.
• Aportan más flexibilidad al no requerir estructuras fijas
como las tablas.
• Responden a las necesidades de escalabilidad, ya que
al no tener que mantener los índices para los datos el
volumen de información que almacenan siempre crece
de forma horizontal (en las bases de datos SQL el
mantenimiento de índices hace que crezcan de manera
parecida a exponencial al añadir nuevos datos).

PROCESAMIENTO
• Parallel Data Processing
• Distributed Data Processing o Cluster
• Hadoop
• Processing Workloads
– Batch
– Transactional
• Heterogeneous systems
– INTEL XEON PHI
– GPU´s

PROCESAMIENTO
• Procesamiento de datos en paralelo.
– El procesamiento de datos en paralelo consiste en la
ejecución simultánea de múltiples sub-tareas que
comprenden colectivamente una tarea más grande.
– El objetivo es reducir el tiempo de ejecución por la
división de una sola tarea más grande en varias tareas
más pequeñas que se ejecutan al mismo tiempo.
– Se consigue más típicamente dentro de los confines
de una sola máquina con varios procesadores o
núcleos.

PROCESAMIENTO
Una tarea puede ser dividida en tres sub-tareas que se ejecutan en
paralelo en tres procesadores diferentes dentro de la misma máquina.

PROCESAMIENTO
• Procesamiento de datos Distribuido y/o
Cluster.
– El procesamiento de datos distribuidos está
estrechamente relacionado con el procesamiento
de datos en paralelo en el que el mismo principio
de "divide y vencerás" se aplica.
– El procesamiento de datos distribuidos siempre se
logra a través de máquinas físicamente separados
que están conectados en red como un clúster.

Ejemplo de proceso de datos distribuido.
PROCESAMIENTO

• Hadoop
– Hadoop permite la creación de aplicaciones para
procesar grandes volúmenes de información
distribuida a través de un modelo de
programación sencillo.
– Está diseñado para ser escalable puesto que
trabaja con almacenamiento y procesamiento
local (pero distribuido), de manera que funciona
tanto para clústeres de un solo nodo como para
los que estén formados por miles.
PROCESAMIENTO

• Map tasks
– map
– combine (optional)
– partition
PROCESAMIENTO
Funcionamiento del MapReduce
• Reduce tasks
– shuffle and sort
– reduce

Un ejemplo de MapReduce en acción.
PROCESAMIENTO

PROCESAMIENTO
• Processing Workloads
– El procesamiento de la carga de trabajo en Big
Data es definido por la cantidad y la naturaleza
que son procesados en cierta cantidad de tiempo.
• Batch
• Transactional

PROCESAMIENTO
• Batch: El procesamiento en Batch o también llamado
procesamiento offline, involucra el procesamiento de
datos en lotes y usualmente tiene delays, que a su
vez resulta en respuestas de alta latencia.
• Típicamente involucran grandes cantidades de datos
con lecturas / escrituras secuenciales y forman parte
de los grupos de queries de lectura o escritura.

PROCESAMIENTO
Una carga de trabajo por lotes puede include incluir grupos de
lecturas/escritures como INSERT, SELECT, UPDATE y DELETE.

PROCESAMIENTO
• Transactional: Procesamiento transaccional es también
conocido como procesamiento en línea. Este tipo de
procesamiento sigue un enfoque en el que se procesan los
datos de forma interactiva sin delay, lo que resulta en
respuestas de baja latencia.
• Las cargas de trabajo de transacciones implican pequeñas
cantidades de datos con lecturas y escrituras aleatorias.

PROCESAMIENTO
Las cargas de trabajo del modo transaccionales tienen pocos joins y menor
latencia que en el modo Batch.

PROCESAMIENTO
• Sistemas Heterogéneos
– Esta arquitectura soporta grandes cantidades de
núcleos en un único procesador, donde la
infraestructura de apoyo (interconexión, la jerarquía
de memoria, etc.) esta diseñada para soportar altos
niveles de escalabilidad, que va más allá de la
encontrada en los computadores con varios
procesadores.
– Con el de diseño basado en varios núcleos son
posibles cientos de miles de threads (hilos o hebras)
por chip computacional.
– Estos procesadores, no poseen núcleos tan complejos
y poderosos como los de las arquitecturas Multicore.

PROCESAMIENTO
Criterio de
comparación
Multicore Manycore
Perspectivas
de
Crecimiento
Así como procesadores de un núcleo tuvieron un callejón sin
salida, se estima que este tipo de procesador seguirá el mismo
camino.
Se estima que la evolución de los computadores seguirá esta
vía.
Cantidad de
núcleos
Entre 2 y 16
La cantidad es variable, pero a nivel comercial existen
arquitecturas con más de 480 núcleos
Grado de
paralelismo
Posee paralelismo, pero en un grado menor a las arquitecturas
Manycore, debido a su acotada cantidad de núcleos
Entrega un alto grado de paralelismo, debido a la gran
cantidad de núcleos que posee.
Complejidad
de los núcleos
Posee núcleos altamente complejos, de gran capacidad y
tamaño
Posee núcleos simples, pequeños y de capacidades acotadas.
Cuadro Comparativo de las arquitecturas Multicore vs Manycore

PROCESAMIENTO
• Intel XEON PHI.
• Los coprocesadores Intel® Xeon Phi™ ofrecen hasta 61
núcleos, 244 subprocesos y 1,2 teraFLOPS de desempeño,
y vienen en una variedad de configuraciones para dar
respuesta a diversos requisitos de hardware, software,
cargas de trabajo, desempeño y eficiencia.

PROCESAMIENTO
http://www.amazon.com/

PROCESAMIENTO
• Nvidia Cuda
– Desde sus orígenes como procesadores gráficos especializados que
podían reproducir rápidamente imágenes en un monitor, se han
convertido en una tecnología a seguir cuando se necesita de un
procesamiento ultrarrápido.
– En los últimos años, cada vez las GPU´s se han unido a las CPU´s para
acelerar una amplia gama de cálculos en la denominada computación
heterogénea.
– Hoy en día, las GPU´s están incorporadas en cualquier computador de
escritorio, en clústers de computadores, e incluso en muchos de los
mayores superordenadores del mundo.
– En su rol de proveedor de grandes cantidades de poder computacional
para la computación más exigente, las GPU´s han permitido avances
en la ciencia y la ingeniería en una amplia variedad de disciplinas.
– Lo han hecho por lo que es posible que un gran número de núcleos de
computación para trabajar en paralelo, manteniendo el consumo de
potencia a unos niveles muy razonables

¿ COMO PROCESA FACEBOOK SUS GRANDES
CANTIDADES DE DATOS?

PROCESAMIENTO
• R// FACEBOOK BIG SUR.

Contenido
• Parte 3. Analítica del Big Data.
– Análisis Cuantitativo.
– Análisis Cualitativo.
– Minería de Datos.
– Análisis Estadístico.
– Maquinas de Aprendizaje.
– Análisis Semántico.
– Análisis Visual

Análisis Cuantitativo
• El análisis cuantitativo es una técnica de análisis
de datos que se centra en la cuantificación de los
patrones y correlaciones encontradas en los
datos.
• Sobre la base de las prácticas estadísticas, esta
técnica consiste en el análisis de un gran número
de observaciones a partir de un conjunto de
datos.
• Dado que el tamaño de la muestra es grande, los
resultados se pueden aplicar de manera
generalizada para todo el conjunto de datos.

Análisis Cuantitativo
La salida del análisis cuantitativo en naturaleza
es numérico.

Análisis Cualitativo
• El análisis cualitativo es una técnica de análisis de
datos que se centra en describir las cualidades de
datos utilizando diferentes palabras.
• Se trata de analizar una muestra más pequeña en
mayor profundidad en comparación con el
análisis de datos cuantitativos. Estos resultados
de los análisis no se pueden generalizar a todo un
conjunto de datos debido al tamaño pequeño de
la muestra.

Análisis Cualitativo
Los resultados cualitativos son de carácter descriptivo y no
generalizable a todo el conjunto de datos.

Minería de Datos
• La minería de datos, es también conocida como
el descubrimiento de datos, es una forma
especializada de análisis de datos que se dirige a
grandes conjuntos de datos.
• En relación con el análisis de grandes volúmenes
de datos (BIG DATA), la minería de datos
generalmente se refiere a las técnicas
automatizadas, basadas en software que se
desplazan a través de grandes conjuntos de datos
para identificar patrones y tendencias.

Análisis Estadístico
• El análisis estadístico utiliza métodos estadísticos
basados en fórmulas matemáticas como un medio para
analizar los datos.
• El análisis estadístico es más a menudo cuantitativo,
pero también puede ser cualitativo.
• Este tipo de análisis se utiliza comúnmente para
describir conjuntos de datos a través de resúmenes,
tales como la media, mediana, o moda de estadísticas
asociadas con el conjunto de datos.
• También puede utilizarse para inferir patrones y las
relaciones dentro del conjunto de datos, como la
regresión y correlación.

Maquinas de Aprendizaje
• Los seres humanos son buenos para reconocer
patrones y relaciones dentro de los datos.
Desafortunadamente, no podemos procesar grandes
cantidades de datos muy rápidamente. Las máquinas,
por el contrario, son muy hábiles para procesar
grandes cantidades de datos de forma rápida, pero
solo si se sabe cómo.
• Si el conocimiento humano puede ser combinado con
la velocidad de procesamiento de máquinas, las
máquinas serán capaces de procesar grandes
cantidades de datos sin necesidad de mucha
intervención humana. Este es el concepto básico de
aprendizaje de máquina.

Maquinas de Aprendizaje
Mapa conceptual del aprendizaje automático.

Análisis semántico
• Un fragmento de datos de texto o de voz puede llevar a
diferentes significados en diferentes contextos,
mientras que una oración completa puede retener su
significado, incluso si se estructura de manera
diferente.
• A fin de que las máquinas puedan extraer información
valiosa, datos de texto y de voz tienen que ser
entendidos por las máquinas en la misma forma que lo
hacen los humanos. El análisis semántico representa
las prácticas para extraer información significativa de
los datos de texto y de voz.

Análisis Visual
• El análisis visual es una forma de análisis de datos que consiste en la
representación gráfica de datos para permitir o mejorar su
percepción visual.
• Basado en la premisa de que los seres humanos pueden entender y
sacar conclusiones de gráficos más rápidamente que a partir del
texto, el análisis visual actúa como herramienta de descubrimiento
en el campo de grandes volúmenes de datos.
• El objetivo es utilizar representaciones gráficas para desarrollar una
comprensión más profunda de los datos que están siendo
analizados. En concreto, se ayuda a identificar y resaltar patrones
ocultos, correlaciones y anomalías.
• El análisis visual también está directamente relacionada con el
análisis exploratorio de datos, ya que fomenta la formulación de las
preguntas de los diferentes ángulos.

Análisis Visual
Mapas de Calor Análisis de Datos Espacial

¿Y todo esto que tiene
que ver con la materia
de Desarrollo de
Aplicaciones para
Ciudades Inteligentes?

Llegó la hora de levantarse y
empezar a ser activos con
Big Data, puesto que
“quedarse sentados
esperando” no es una opción
viable.
Gracias.
javalder@gmail.com
Manosala
obra.

Big Data: La era y oportunidades

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (7)

Similar a Big Data: La era y oportunidades

Similar a Big Data: La era y oportunidades (20)

Último

Último (20)

Big Data: La era y oportunidades