3. (del inglés… grandes datos ) “conjuntos de datos que crecen tan rápidamente
que no pueden ser manipulados por las herramientas de gestión de bases de
datos tradicionales”.
4. En estos momentos hablamos de (aproximadamente):
1 terabyte (TB) = 1.000 gigabytes(GB)
1 petabyte (PB) = 1.000.000gigabytes (GB)
1 exabyte (EB) = 1.000.000.000 gigabytes (GB)
1 zettabyte (ZB) = 1.000.000.000.000 Gigabytes(GB)
Una supercomputadora se habla de FLOPS(“ floating
point operations per second”), es decir, la cantidad de
operaciones que procesa por segundo…. teras y petas.
5. El IBM Institute for Business Value y la Saïd Business
School de University of Oxford, introducen el
concepto de las “4 V del BD” :
6. Volumen: las empresas
están cubiertas de una
cantidad cada vez mayor
de datos de todo tipo,
acumulando fácilmente
terabytes, incluso
petabytes, de
información.
Volumen: las empresas
están cubiertas de una
cantidad cada vez mayor
de datos de todo tipo,
acumulando fácilmente
terabytes, incluso
petabytes, de
información.
Velocidad: En
ocasiones 2 minutos es
demasiado. Para
procesos que dependen
especialmente del
tiempo, como son
identificar fraudes, Big
data actúa en el sentido
de potencializar la
eficacia de los sistemas
que son sensibles en
tiempo.
Velocidad: En
ocasiones 2 minutos es
demasiado. Para
procesos que dependen
especialmente del
tiempo, como son
identificar fraudes, Big
data actúa en el sentido
de potencializar la
eficacia de los sistemas
que son sensibles en
tiempo.
Variedad: Big data, es
todo tipo de información,
estructurada y no
estructurada, como texto,
lecturas de sensores,
videos, clicks, archivos,
logs y mucho mas. Y
además, nuevos
conceptos aparecen
cunado se ponen
diferentes tipos de
archivos juntos.
Variedad: Big data, es
todo tipo de información,
estructurada y no
estructurada, como texto,
lecturas de sensores,
videos, clicks, archivos,
logs y mucho mas. Y
además, nuevos
conceptos aparecen
cunado se ponen
diferentes tipos de
archivos juntos.
Veracidad: 1 de cada 3
lideres de negocios no
confían en la información
que utilizan para tomar
decisiones. Como puede
actuar en base a una
información en la que no
confías?. Establecer
confianza en Big data
representa un gran
desafío conforme a la
variedad y el numero de
fuentes crece.
Veracidad: 1 de cada 3
lideres de negocios no
confían en la información
que utilizan para tomar
decisiones. Como puede
actuar en base a una
información en la que no
confías?. Establecer
confianza en Big data
representa un gran
desafío conforme a la
variedad y el numero de
fuentes crece.
7. ¿Quién genera esos grandes volúmenes de datos?
Los medios y las
redes sociales
(todos nosotros
estamos
generando
datos)
Los instrumentos
científicos
(recogida de todo tipo
de datos)
Los dispositivos
móviles
(seguimiento de
todos los datos
todo el tiempo)
Sensor de tecnología
y redes
(medición de todo tipo
de datos)
8. Hay que prepararse:
Por qué un evento de Big Data AHORA
La explosión de datos no estructurados y las
aplicaciones móviles generarán una gran
oportunidad para la creación de valor en los negocios,
ya que si estos datos se pueden gestionar y acceder
de manera eficiente se convertirán en una ventaja
competitiva y un apoyo al momento de tomar
decisiones. El enorme crecimiento de datos hará que
sea imposible replicar o realizar una copia de
seguridad por medios tradicionales.
9. Cinco puntos que debería saber ¿Está ajustando su
plan para “Big data”?
1. Haga un balance de sus datos:1. Haga un balance de sus datos: hacer un
inventario de los datos creados internamente
2. Deje que prevalezcan las necesidades del2. Deje que prevalezcan las necesidades del
negocio:negocio: es responsabilidad del área de TI de tomar
control sobre cómo los conceptos de “Data Sharing” y
“Data Federation” (muchas fuentes sin crear
redundancia)
3. Reevalue la infraestructura3. Reevalue la infraestructura:: reunir estos
sistemas dispersos y asilados y construir un sistema
de sistemas.
10. 4. Estructure sus datos:4. Estructure sus datos: bases de datos en
columnas y equipos para “data warehouses”
(almacenes de datos)
5. Prepare a su equipo:5. Prepare a su equipo: expertos en Hadoop o
científicos de datos
HadoopHadoop es probablemente la tecnología para
big data más conocida; es un marco de
software de código abierto gratuito y
ampliamente disponible que nació en el seno
de Google y que es utilizado profusamente por
Yahoo; desde entonces se ha convertido en el
estándar de facto para el almacenamiento,
procesamiento y análisis de cientos de
terabytes e incluso peta bytes de datos.
11. El procesamiento masivo en paralelo (MPP) es lo que
ha hecho a Hadoop tan popular; se pueden utilizar
muchos procesadores informáticos funcionando en
paralelo para analizar datos; las empresas pequeñas
pueden utilizar sus redes de ordenadores de oficina
para analizar datos complejos a un coste
relativamente reducido.
12. Empresas dedicadas al servicio:
es una compañía colombiana de base tecnológica
dedicada a proveer productos y servicios de
Investigación, Desarrollo e Innovación en tecnologías
de la información, que permitan optimizar los
procesos organizacionales de nuestros clientes.
13. Herramientas:Herramientas:
SAS dio a conocer SAS Visual Analytics, que permite
analizar una cantidad masiva de datos, explorar los
datos a la velocidad de la vista y compartir nuevos
insights (ideas) con cualquiera, en cualquier lugar, por
medio de la web o un iPad.
Entre más datos sean utilizados para el análisis, más
precisos serán los resultados.
14. Apache Pig plataforma para el análisis de grandes
conjuntos de datos lenguaje de alto nivel
para expresar programas de análisis de
evaluación.
Tiene un compilador que produce secuencias
MapReduce, que los usuarios de Hadoop analizan los
datos y menos tiempo en desarrollar aplicaciones; el
lenguaje es Pig Latin, crea estructuras tipo SQL
(SQL-like), de manera que crea un script el cual es
paralelizado y distribuido a través de un clúster.
15. Yahoo!, fue el creador de Pig, lo usa tanto para los
procesos de búsqueda web como al incorporarlo en
Hadoop; también están:
LinkedIn: utiliza Hadoop y Pig para ofrecer
recomendaciones de conocidos, páginas y empleos de
interés.
Twitter: utiliza Pig para procesar estos logs de datos
AOL y WhitePages: Pig para filtrar registros en sus
procesos de búsqueda de información.
IBM InfoSphere BigInsights™: análisis de grandes
volúmenes de información mediante Hadoop. Facilita
la instalación, integración y seguimiento de esta
tecnología de código abierto.
16.
17. Bidoop, basándose en Hadoop, aporta un valor
añadido en cuanto a las herramientas que utiliza,
Ofrece los siguientes productos:
18. Software AG se ha basado en tecnología de
Terracotta para lanzar su plataforma in-memory
para la gestión del Big Data, denominada In-Genius,
capaz de trabajar en entornos Oracle, SAP Hana y
Hadoop; el sistema puede trasladar toda la
información desde las tradicionales y lentas unidades
de disco a memoria RAM de forma extremadamente
rápida, permitiendo realizar análisis de cientos de
terabytes de datos en arrays de memoria.. Todo ello
en tiempo real.
19. Herramientas más punteras y que están jugando un
mayor papel en lo referente a Big Data.
Es una interfaz web que permite
implementar y administrar clústers de
Apache Hadoop. Su desarrollo está
siendo dirigido por ingenieros de
Hortonworoks, que incluyen en su
plataforma de datos “Ambari
Hortonworks”.
20. Es un sistema de serialización de datos
optimizado para Hadoop/MapReduce. Es
compacto, flexible y admitir varios
lenguajes de programación, lo cual lo
posiciona como una alternativa muy
buena a los SequenceFiles (de Hadoop) o
ProtoBuf (de Google).
21. es una BD distribuida desarrollada por Facebook.
Para manejar grandes cantidades de datos
distribuidos a través de servidores commodity,
tiene como características un arquitectura de tipo
"key/value", el no tener ningún punto único de
fallo (SPOF), un método de replicación de
información basado en "gossip protocol" y la
problemática "eventual consistency".
22. Chukwa es un subproyecto dedicado a la
carga masiva de varios ficheros texto
dentro de un Clúster Hadoop (ETL). Se
construye bajo el sistema de archivos
distribuido (HDFS) y el marco MapReduce
y hereda la escalabilidad y robustez de
Hadoop. Incluye un conjunto de
herramientas flexible y potente para la
visualización y análisis de los resultados.
23. Flume es un marco para aportar datos
a Hadoop. Los agentes están poblados
de toda las infraestructura de TI -
dentro de los servidores web, servidores
de aplicaciones y dispositivos móviles,
para recoger esos datos e integrarlos en
Hadoop.
24. Hama es una plataforma de
computación distribuida basada en
técnicas computación paralela masiva
para, por ejemplo cálculos científicos,
matriz, gráfico y algoritmos de redes.
25. es una BD NoSQL; se trata de la
versión java opensource de Hadoop de
la famosa BBDD NoSQL de Google:
BigTable.
Principales características :
Datos almacenados en columnas,
sistema de versioning de los datos,
consistencia de las escrituras y
lecturas, recuperación automática en
caso de fallos. Ha sido elegido por
Facebook, entre otras cosas, para
almacenar todos los correos de los
usuarios de la misma plataforma.
26. (Hadoop Distributed File System), la
capa de almacenamiento de Hadoop, es
un sistema de fichero distribuido escrito
en java, escalable, tolerante a fallos.
HDFS es totalmente compatible con
MapReduce y ofrecer la optimización de
"localidad de los datos", lo cual lo
convierte en la solución "natural" de
Hadoop.
27. Impala es el nuevo motor de query
desarrollado por Cloudera. Inspirado en
software Dremel de Google, permite
realizar consultas SQL muy parecidas a
la sintaxis HQL de Hive, pero sin pasar
por ningún proceso MapReduce. Esto le
permite ser hasta 50 veces más rápido
que Hive y lo transforma en la
herramienta ideal para acceder a los
datos en tiempo real.
28. (desarrollado por LinkedIn) Es un
sistema distribuido de publicación-
suscripción de mensajería que ofrece una
solución capaz de manejar toda la
actividad del flujo de datos y procesar
estos datos en un sitio web de gran
consumo. Este tipo de datos (páginas
vistas, búsquedas y otras acciones del
usuario) son un ingrediente clave en la
web social actual.
29. MapReduce es un marco de software que
sirve como capa informática de Hadoop.
Los trabajos se dividen en dos: La función
"Map" divide una consulta en múltiples
partes y procesa los datos a nivel de nodo.
“Reduce", como su nombre indica, reduce
los agregados función de los resultados de
la función "Map" para determinar la
"respuesta" a la consulta.
30. Hadoop User Experience es proyecto de
código abierto que crea un interfaz web,
el cual facilita el uso de Apache Hadoop.
Cuenta con un explorador de archivos
para HDFS; una aplicación para la
creación de flujos de trabajo en Oozie; un
diseñador de trabajo para MapReduce;
una interfaz de usuario Impala; una
colección de Hadoop API; y mucho más.
31. R es un lenguaje y un entorno para
computación y gráficos estadísticos. Es
un proyecto GNU, que es similar al
lenguaje S. R ofrece una gran variedad
de estadísticas (modelos lineales y no
lineales, tests estadísticos clásicos,
análisis de series de tiempo, clasificación,
clustering, ...) y las técnicas gráficas.
Además es altamente extensible.
32. es un sistema de computación
distribuida en tiempo real, libre y de
código abierto, nacido en el seno de
Twitter. Hace fácil procesar de
manera fiable flujos no estructurados
de datos, haciendo en el ámbito del
procesamiento en tiempo real, lo que
hizo Hadoop para el procesamiento
por lotes.
33. Ejemplos de empresas que utilizan big data
Big Data, la gran oportunidad para la
banca: nadie parece realmente seguro de
lo que es. ¿Cómo utilizar el Big Data?, ¿Big
Data transformará el futuro del marketing
financiero?
utiliza herramientas Big Data para combatir
el fraude en tiempo real: Aplicando diversos
filtros de "Fraud Management“ desarrolló un
proceso de detección de fraude basados en
datasets masivos que son analizados.
34. Axa adopta Teradata Data Warehouse
Appliance para iniciativas de Business
Intelligence: AXA Bélgica, para ayudar a
los empleados en las líneas del frente de
la institución para tomar la mejor decisión
posible
“banco de inversiones y agente de
bolsa”; Permite manejar petabytes de
datos que no son escuchados en el
mundo de las bases de datos
tradicionales” dice el director ejecutivo de
la empresa
35. hace que la sincronización de datos sea
una tarea enorme
Monitorización en tiempo real de los
clientes para analizar sus patrones
de compra: Con RetailNext, fue capaz
de interpretar secuencias de vídeo
digital y reconocer los seres humanos
moviéndose a través de las tiendas,
para medir el comportamiento del
comprador en el interior de su entorno
36. El sector de la salud se "apunta" a la
tecnología Big Data: Debido a la prisa en
las salas de emergencia y la saturación de
las plantas de hospitalización, muchos
pacientes sólo reciben una rápida revisión
de su salud
Analizando los datos de pacientes
para un mejor control médico:
proyecta un servicio a empleados y
consumidores con una operación de
investigación con muchos datos, donde
sus consumidores se vuelven pacientes
responsables (e-pacientes) que pueden
tomar mejores decisiones
37. San Diego Gas & Electric, intentando
conectar clientes a smart grid: La
iniciativa incluye un despliegue de 1,4
millones en medidores de electricidad
inteligentes objeto de seguimiento en
tiempo real
Destaca la importancia del Big Data
para su éxito: El presidente de la
empresa afirma que sin la tecnología Big
Data encontrar y explotar nuevas fuentes
de recursos naturales sería casi imposible.
El trafico de IT diario de es de1,5
Terabytes
38. El Big Data ayuda a predecir
huracanes: investigadores de la
Northwestern University y sus
colaboradores han desarrollado un nuevo
método basado en la análisis de datos
masivos para pronosticarlos.
39. Big Data - DiseñosBig Data - Diseños
Aplicaciones
verticales
Aplicaciones
verticales
Medios de
Comunicación
Medios de
Comunicación Negocios
Inteligentes
Negocios
Inteligentes
Analítica y
Visualización
Analítica y
Visualización
Servicios de DatosServicios de Datos
Aplicación para
registro de datos
Aplicación para
registro de datos
Infraestructura AnaliticaInfraestructura Analitica Infraestructura
Operacional
Infraestructura
Operacional
Infraestructura como un
servicio
Infraestructura como un
servicio
Estructura de Base de
Datos
Estructura de Base de
Datos
TecnologiaTecnologia