SlideShare una empresa de Scribd logo
1 de 40
B I G D A T AB I G D A T A
(del inglés… grandes datos ) “conjuntos de datos que crecen tan rápidamente
que no pueden ser manipulados por las herramientas de gestión de bases de
datos tradicionales”.
En estos momentos hablamos de (aproximadamente):
1 terabyte (TB) = 1.000 gigabytes(GB)
1 petabyte (PB) = 1.000.000gigabytes (GB)
1 exabyte (EB) = 1.000.000.000 gigabytes (GB)
1 zettabyte (ZB) = 1.000.000.000.000 Gigabytes(GB)
Una supercomputadora se habla de FLOPS(“ floating
point operations per second”), es decir, la cantidad de
operaciones que procesa por segundo…. teras y petas.
El IBM Institute for Business Value y la Saïd Business
School de University of Oxford, introducen el
concepto de las “4 V del BD” :
Volumen: las empresas
están cubiertas de una
cantidad cada vez mayor
de datos de todo tipo,
acumulando fácilmente
terabytes, incluso
petabytes, de
información.
Volumen: las empresas
están cubiertas de una
cantidad cada vez mayor
de datos de todo tipo,
acumulando fácilmente
terabytes, incluso
petabytes, de
información.
Velocidad: En
ocasiones 2 minutos es
demasiado. Para
procesos que dependen
especialmente del
tiempo, como son
identificar fraudes, Big
data actúa en el sentido
de potencializar la
eficacia de los sistemas
que son sensibles en
tiempo.
Velocidad: En
ocasiones 2 minutos es
demasiado. Para
procesos que dependen
especialmente del
tiempo, como son
identificar fraudes, Big
data actúa en el sentido
de potencializar la
eficacia de los sistemas
que son sensibles en
tiempo.
Variedad: Big data, es
todo tipo de información,
estructurada y no
estructurada, como texto,
lecturas de sensores,
videos, clicks, archivos,
logs y mucho mas. Y
además, nuevos
conceptos aparecen
cunado se ponen
diferentes tipos de
archivos juntos.
Variedad: Big data, es
todo tipo de información,
estructurada y no
estructurada, como texto,
lecturas de sensores,
videos, clicks, archivos,
logs y mucho mas. Y
además, nuevos
conceptos aparecen
cunado se ponen
diferentes tipos de
archivos juntos.
Veracidad: 1 de cada 3
lideres de negocios no
confían en la información
que utilizan para tomar
decisiones. Como puede
actuar en base a una
información en la que no
confías?. Establecer
confianza en Big data
representa un gran
desafío conforme a la
variedad y el numero de
fuentes crece.
Veracidad: 1 de cada 3
lideres de negocios no
confían en la información
que utilizan para tomar
decisiones. Como puede
actuar en base a una
información en la que no
confías?. Establecer
confianza en Big data
representa un gran
desafío conforme a la
variedad y el numero de
fuentes crece.
¿Quién genera esos grandes volúmenes de datos?
Los medios y las
redes sociales
(todos nosotros
estamos
generando
datos)
Los instrumentos
científicos
(recogida de todo tipo
de datos)
Los dispositivos
móviles
(seguimiento de
todos los datos
todo el tiempo)
Sensor de tecnología
y redes
(medición de todo tipo
de datos)
Hay que prepararse:
Por qué un evento de Big Data AHORA
La explosión de datos no estructurados y las
aplicaciones móviles generarán una gran
oportunidad para la creación de valor en los negocios,
ya que si estos datos se pueden gestionar y acceder
de manera eficiente se convertirán en una ventaja
competitiva y un apoyo al momento de tomar
decisiones. El enorme crecimiento de datos hará que
sea imposible replicar o realizar una copia de
seguridad por medios tradicionales.
Cinco puntos que debería saber ¿Está ajustando su
plan para “Big data”?
1. Haga un balance de sus datos:1. Haga un balance de sus datos: hacer un
inventario de los datos creados internamente
2. Deje que prevalezcan las necesidades del2. Deje que prevalezcan las necesidades del
negocio:negocio: es responsabilidad del área de TI de tomar
control sobre cómo los conceptos de “Data Sharing” y
“Data Federation” (muchas fuentes sin crear
redundancia)
3. Reevalue la infraestructura3. Reevalue la infraestructura:: reunir estos
sistemas dispersos y asilados y construir un sistema
de sistemas.
4. Estructure sus datos:4. Estructure sus datos: bases de datos en
columnas y equipos para “data warehouses”
(almacenes de datos)
5. Prepare a su equipo:5. Prepare a su equipo: expertos en Hadoop o
científicos de datos
HadoopHadoop es probablemente la tecnología para
big data más conocida; es un marco de
software de código abierto gratuito y
ampliamente disponible que nació en el seno
de Google y que es utilizado profusamente por
Yahoo; desde entonces se ha convertido en el
estándar de facto para el almacenamiento,
procesamiento y análisis de cientos de
terabytes e incluso peta bytes de datos.
El procesamiento masivo en paralelo (MPP) es lo que
ha hecho a Hadoop tan popular; se pueden utilizar
muchos procesadores informáticos funcionando en
paralelo para analizar datos; las empresas pequeñas
pueden utilizar sus redes de ordenadores de oficina
para analizar datos complejos a un coste
relativamente reducido.
Empresas dedicadas al servicio:
es una compañía colombiana de base tecnológica
dedicada a proveer productos y servicios de
Investigación, Desarrollo e Innovación en tecnologías
de la información, que permitan optimizar los
procesos organizacionales de nuestros clientes.
Herramientas:Herramientas:
SAS dio a conocer SAS Visual Analytics, que permite
analizar una cantidad masiva de datos, explorar los
datos a la velocidad de la vista y compartir nuevos
insights (ideas) con cualquiera, en cualquier lugar, por
medio de la web o un iPad.
Entre más datos sean utilizados para el análisis, más
precisos serán los resultados.
Apache Pig plataforma para el análisis de grandes
conjuntos de datos lenguaje de alto nivel
para expresar programas de análisis de
evaluación.
Tiene un compilador que produce secuencias
MapReduce, que los usuarios de Hadoop analizan los
datos y menos tiempo en desarrollar aplicaciones; el
lenguaje es Pig Latin, crea estructuras tipo SQL
(SQL-like), de manera que crea un script el cual es
paralelizado y distribuido a través de un clúster.
Yahoo!, fue el creador de Pig, lo usa tanto para los
procesos de búsqueda web como al incorporarlo en
Hadoop; también están:
LinkedIn: utiliza Hadoop y Pig para ofrecer
recomendaciones de conocidos, páginas y empleos de
interés.
Twitter: utiliza Pig para procesar estos logs de datos
AOL y WhitePages: Pig para filtrar registros en sus
procesos de búsqueda de información.
IBM InfoSphere BigInsights™: análisis de grandes
volúmenes de información mediante Hadoop. Facilita
la instalación, integración y seguimiento de esta
tecnología de código abierto.
Bidoop, basándose en Hadoop, aporta un valor
añadido en cuanto a las herramientas que utiliza,
Ofrece los siguientes productos:
Software AG se ha basado en tecnología de
Terracotta para lanzar su plataforma in-memory
para la gestión del Big Data, denominada In-Genius,
capaz de trabajar en entornos Oracle, SAP Hana y
Hadoop; el sistema puede trasladar toda la
información desde las tradicionales y lentas unidades
de disco a memoria RAM de forma extremadamente
rápida, permitiendo realizar análisis de cientos de
terabytes de datos en arrays de memoria.. Todo ello
en tiempo real.
Herramientas más punteras y que están jugando un
mayor papel en lo referente a Big Data.
Es una interfaz web que permite
implementar y administrar clústers de
Apache Hadoop. Su desarrollo está
siendo dirigido por ingenieros de
Hortonworoks, que incluyen en su
plataforma de datos “Ambari
Hortonworks”.
Es un sistema de serialización de datos
optimizado para Hadoop/MapReduce. Es
compacto, flexible y admitir varios
lenguajes de programación, lo cual lo
posiciona como una alternativa muy
buena a los SequenceFiles (de Hadoop) o
ProtoBuf (de Google).
es una BD distribuida desarrollada por Facebook.
Para manejar grandes cantidades de datos
distribuidos a través de servidores commodity,
tiene como características un arquitectura de tipo
"key/value", el no tener ningún punto único de
fallo (SPOF), un método de replicación de
información basado en "gossip protocol" y la
problemática "eventual consistency".
Chukwa es un subproyecto dedicado a la
carga masiva de varios ficheros texto
dentro de un Clúster Hadoop (ETL). Se
construye bajo el sistema de archivos
distribuido (HDFS) y el marco MapReduce
y hereda la escalabilidad y robustez de
Hadoop. Incluye un conjunto de
herramientas flexible y potente para la
visualización y análisis de los resultados.
Flume es un marco para aportar datos
a Hadoop. Los agentes están poblados
de toda las infraestructura de TI -
dentro de los servidores web, servidores
de aplicaciones y dispositivos móviles,
para recoger esos datos e integrarlos en
Hadoop.
Hama es una plataforma de
computación distribuida basada en
técnicas computación paralela masiva
para, por ejemplo cálculos científicos,
matriz, gráfico y algoritmos de redes.
es una BD NoSQL; se trata de la
versión java opensource de Hadoop de
la famosa BBDD NoSQL de Google:
BigTable.
Principales características :
Datos almacenados en columnas,
sistema de versioning de los datos,
consistencia de las escrituras y
lecturas, recuperación automática en
caso de fallos. Ha sido elegido por
Facebook, entre otras cosas, para
almacenar todos los correos de los
usuarios de la misma plataforma.
(Hadoop Distributed File System), la
capa de almacenamiento de Hadoop, es
un sistema de fichero distribuido escrito
en java, escalable, tolerante a fallos.
HDFS es totalmente compatible con
MapReduce y ofrecer la optimización de
"localidad de los datos", lo cual lo
convierte en la solución "natural" de
Hadoop.
Impala es el nuevo motor de query
desarrollado por Cloudera. Inspirado en
software Dremel de Google, permite
realizar consultas SQL muy parecidas a
la sintaxis HQL de Hive, pero sin pasar
por ningún proceso MapReduce. Esto le
permite ser hasta 50 veces más rápido
que Hive y lo transforma en la
herramienta ideal para acceder a los
datos en tiempo real.
(desarrollado por LinkedIn) Es un
sistema distribuido de publicación-
suscripción de mensajería que ofrece una
solución capaz de manejar toda la
actividad del flujo de datos y procesar
estos datos en un sitio web de gran
consumo. Este tipo de datos (páginas
vistas, búsquedas y otras acciones del
usuario) son un ingrediente clave en la
web social actual.
MapReduce es un marco de software que
sirve como capa informática de Hadoop.
Los trabajos se dividen en dos: La función
"Map" divide una consulta en múltiples
partes y procesa los datos a nivel de nodo.
“Reduce", como su nombre indica, reduce
los agregados función de los resultados de
la función "Map" para determinar la
"respuesta" a la consulta.
Hadoop User Experience es proyecto de
código abierto que crea un interfaz web,
el cual facilita el uso de Apache Hadoop.
Cuenta con un explorador de archivos
para HDFS; una aplicación para la
creación de flujos de trabajo en Oozie; un
diseñador de trabajo para MapReduce;
una interfaz de usuario Impala; una
colección de Hadoop API; y mucho más.
R es un lenguaje y un entorno para
computación y gráficos estadísticos. Es
un proyecto GNU, que es similar al
lenguaje S. R ofrece una gran variedad
de estadísticas (modelos lineales y no
lineales, tests estadísticos clásicos,
análisis de series de tiempo, clasificación,
clustering, ...) y las técnicas gráficas.
Además es altamente extensible.
es un sistema de computación
distribuida en tiempo real, libre y de
código abierto, nacido en el seno de
Twitter. Hace fácil procesar de
manera fiable flujos no estructurados
de datos, haciendo en el ámbito del
procesamiento en tiempo real, lo que
hizo Hadoop para el procesamiento
por lotes.
Ejemplos de empresas que utilizan big data
Big Data, la gran oportunidad para la
banca: nadie parece realmente seguro de
lo que es. ¿Cómo utilizar el Big Data?, ¿Big
Data transformará el futuro del marketing
financiero?
utiliza herramientas Big Data para combatir
el fraude en tiempo real: Aplicando diversos
filtros de "Fraud Management“ desarrolló un
proceso de detección de fraude basados en
datasets masivos que son analizados.
Axa adopta Teradata Data Warehouse
Appliance para iniciativas de Business
Intelligence: AXA Bélgica, para ayudar a
los empleados en las líneas del frente de
la institución para tomar la mejor decisión
posible
“banco de inversiones y agente de
bolsa”; Permite manejar petabytes de
datos que no son escuchados en el
mundo de las bases de datos
tradicionales” dice el director ejecutivo de
la empresa
hace que la sincronización de datos sea
una tarea enorme
Monitorización en tiempo real de los
clientes para analizar sus patrones
de compra: Con RetailNext, fue capaz
de interpretar secuencias de vídeo
digital y reconocer los seres humanos
moviéndose a través de las tiendas,
para medir el comportamiento del
comprador en el interior de su entorno
El sector de la salud se "apunta" a la
tecnología Big Data: Debido a la prisa en
las salas de emergencia y la saturación de
las plantas de hospitalización, muchos
pacientes sólo reciben una rápida revisión
de su salud
Analizando los datos de pacientes
para un mejor control médico:
proyecta un servicio a empleados y
consumidores con una operación de
investigación con muchos datos, donde
sus consumidores se vuelven pacientes
responsables (e-pacientes) que pueden
tomar mejores decisiones
San Diego Gas & Electric, intentando
conectar clientes a smart grid: La
iniciativa incluye un despliegue de 1,4
millones en medidores de electricidad
inteligentes objeto de seguimiento en
tiempo real
Destaca la importancia del Big Data
para su éxito: El presidente de la
empresa afirma que sin la tecnología Big
Data encontrar y explotar nuevas fuentes
de recursos naturales sería casi imposible.
El trafico de IT diario de es de1,5
Terabytes
El Big Data ayuda a predecir
huracanes: investigadores de la
Northwestern University y sus
colaboradores han desarrollado un nuevo
método basado en la análisis de datos
masivos para pronosticarlos.
Big Data - DiseñosBig Data - Diseños
Aplicaciones
verticales
Aplicaciones
verticales
Medios de
Comunicación
Medios de
Comunicación Negocios
Inteligentes
Negocios
Inteligentes
Analítica y
Visualización
Analítica y
Visualización
Servicios de DatosServicios de Datos
Aplicación para
registro de datos
Aplicación para
registro de datos
Infraestructura AnaliticaInfraestructura Analitica Infraestructura
Operacional
Infraestructura
Operacional
Infraestructura como un
servicio
Infraestructura como un
servicio
Estructura de Base de
Datos
Estructura de Base de
Datos
TecnologiaTecnologia
MUCHAS GRACIAS

Más contenido relacionado

La actualidad más candente

1.3 analisis de los procesos de negocio en un sistema empresarial eq 3 98 fal...
1.3 analisis de los procesos de negocio en un sistema empresarial eq 3 98 fal...1.3 analisis de los procesos de negocio en un sistema empresarial eq 3 98 fal...
1.3 analisis de los procesos de negocio en un sistema empresarial eq 3 98 fal...Alexis Gils
 
Diagrama entidad-relacion normalización
Diagrama entidad-relacion normalizaciónDiagrama entidad-relacion normalización
Diagrama entidad-relacion normalizacióncintiap25
 
PRACTICA 2: SISTEMA DE INFORMACION
 PRACTICA 2: SISTEMA DE INFORMACION PRACTICA 2: SISTEMA DE INFORMACION
PRACTICA 2: SISTEMA DE INFORMACIONmilagros
 
Bases de Datos NoSQL
Bases de Datos NoSQLBases de Datos NoSQL
Bases de Datos NoSQLIsabel Gómez
 
Resumen del libro kendall y kendal
Resumen del libro kendall y kendalResumen del libro kendall y kendal
Resumen del libro kendall y kendalBrigith Zegachav
 
Bases de Datos para Dispositivos Móviles - Unidad II: Arquitectura de Base de...
Bases de Datos para Dispositivos Móviles - Unidad II: Arquitectura de Base de...Bases de Datos para Dispositivos Móviles - Unidad II: Arquitectura de Base de...
Bases de Datos para Dispositivos Móviles - Unidad II: Arquitectura de Base de...José Antonio Sandoval Acosta
 
Modelo osi - Capas 6 y 7
Modelo osi - Capas 6 y 7Modelo osi - Capas 6 y 7
Modelo osi - Capas 6 y 7KatEscalante
 
Unidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De DesicionesUnidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De DesicionesDeysi Hdz
 
Qué Son Las Bases De Datos
Qué Son Las Bases De DatosQué Son Las Bases De Datos
Qué Son Las Bases De DatosMarichelo Gómez
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesJuan José Domenech
 

La actualidad más candente (20)

ETL
ETLETL
ETL
 
1.3 analisis de los procesos de negocio en un sistema empresarial eq 3 98 fal...
1.3 analisis de los procesos de negocio en un sistema empresarial eq 3 98 fal...1.3 analisis de los procesos de negocio en un sistema empresarial eq 3 98 fal...
1.3 analisis de los procesos de negocio en un sistema empresarial eq 3 98 fal...
 
Que es big data
Que es big dataQue es big data
Que es big data
 
Presentacion cassandra
Presentacion cassandraPresentacion cassandra
Presentacion cassandra
 
Diagrama entidad-relacion normalización
Diagrama entidad-relacion normalizaciónDiagrama entidad-relacion normalización
Diagrama entidad-relacion normalización
 
Taller de Base de Datos - Unidad 6 SQL procedural
Taller de Base de Datos - Unidad 6 SQL proceduralTaller de Base de Datos - Unidad 6 SQL procedural
Taller de Base de Datos - Unidad 6 SQL procedural
 
PRACTICA 2: SISTEMA DE INFORMACION
 PRACTICA 2: SISTEMA DE INFORMACION PRACTICA 2: SISTEMA DE INFORMACION
PRACTICA 2: SISTEMA DE INFORMACION
 
Bases de Datos NoSQL
Bases de Datos NoSQLBases de Datos NoSQL
Bases de Datos NoSQL
 
Sql presentacion
Sql presentacionSql presentacion
Sql presentacion
 
Entidad Relación Banco
Entidad Relación BancoEntidad Relación Banco
Entidad Relación Banco
 
Resumen del libro kendall y kendal
Resumen del libro kendall y kendalResumen del libro kendall y kendal
Resumen del libro kendall y kendal
 
Big data presentacion
Big data presentacionBig data presentacion
Big data presentacion
 
Bases de Datos para Dispositivos Móviles - Unidad II: Arquitectura de Base de...
Bases de Datos para Dispositivos Móviles - Unidad II: Arquitectura de Base de...Bases de Datos para Dispositivos Móviles - Unidad II: Arquitectura de Base de...
Bases de Datos para Dispositivos Móviles - Unidad II: Arquitectura de Base de...
 
Base de Datos Orientada a Objetos
Base de Datos Orientada a ObjetosBase de Datos Orientada a Objetos
Base de Datos Orientada a Objetos
 
Modelo osi - Capas 6 y 7
Modelo osi - Capas 6 y 7Modelo osi - Capas 6 y 7
Modelo osi - Capas 6 y 7
 
Unidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De DesicionesUnidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De Desiciones
 
Qué Son Las Bases De Datos
Qué Son Las Bases De DatosQué Son Las Bases De Datos
Qué Son Las Bases De Datos
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
Integridad referencial
Integridad referencialIntegridad referencial
Integridad referencial
 
Cuadro comparativo sgbd
Cuadro comparativo sgbdCuadro comparativo sgbd
Cuadro comparativo sgbd
 

Destacado

Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big DataDavid Alayón
 
Metodo Cruce del Arroyo
Metodo Cruce del ArroyoMetodo Cruce del Arroyo
Metodo Cruce del Arroyomateo luquez
 
Big Data - The 5 Vs Everyone Must Know
Big Data - The 5 Vs Everyone Must KnowBig Data - The 5 Vs Everyone Must Know
Big Data - The 5 Vs Everyone Must KnowBernard Marr
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantesCarlos Toxtli
 

Destacado (6)

Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big Data
 
Exposicion bi y big data
Exposicion bi y big dataExposicion bi y big data
Exposicion bi y big data
 
RETROALIMENTACION
RETROALIMENTACIONRETROALIMENTACION
RETROALIMENTACION
 
Metodo Cruce del Arroyo
Metodo Cruce del ArroyoMetodo Cruce del Arroyo
Metodo Cruce del Arroyo
 
Big Data - The 5 Vs Everyone Must Know
Big Data - The 5 Vs Everyone Must KnowBig Data - The 5 Vs Everyone Must Know
Big Data - The 5 Vs Everyone Must Know
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantes
 

Similar a Exposicion big data

Que debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopQue debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopEduardo Castro
 
Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementaciónDiego Krauthamer
 
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0Jeremi Sixto Perales
 
HD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelHD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelEduardo Castro
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerEduardo Castro
 
Big Data en FaceBook
Big Data en FaceBookBig Data en FaceBook
Big Data en FaceBookJuan Frias
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big DataStratebi
 
Resumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackResumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackEduardo Castro
 
Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesStratebi
 
Big Data Architecture con Pentaho
Big Data Architecture con PentahoBig Data Architecture con Pentaho
Big Data Architecture con PentahoDatalytics
 

Similar a Exposicion big data (20)

Que debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre HadoopQue debe saber un DBA de SQL Server sobre Hadoop
Que debe saber un DBA de SQL Server sobre Hadoop
 
BigData
BigDataBigData
BigData
 
Big data y hadoop
Big data y hadoopBig data y hadoop
Big data y hadoop
 
Presentación big data
Presentación big dataPresentación big data
Presentación big data
 
big data
big  databig  data
big data
 
Introduccion big data
Introduccion  big dataIntroduccion  big data
Introduccion big data
 
Big Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open SourceBig Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open Source
 
Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementación
 
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
SGBD Y TECNOLOGIAS USADAS POR APLICACIONES WEB 2.0
 
Big data
Big dataBig data
Big data
 
HD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot ExcelHD Insight Integracion con SQL Server Power-Pivot Excel
HD Insight Integracion con SQL Server Power-Pivot Excel
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight Server
 
Big data
Big dataBig data
Big data
 
Big Data en FaceBook
Big Data en FaceBookBig Data en FaceBook
Big Data en FaceBook
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big Data
 
Resumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackResumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data Stack
 
Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones reales
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
 
Big Data Architecture con Pentaho
Big Data Architecture con PentahoBig Data Architecture con Pentaho
Big Data Architecture con Pentaho
 
Big data2
Big data2Big data2
Big data2
 

Exposicion big data

  • 1.
  • 2. B I G D A T AB I G D A T A
  • 3. (del inglés… grandes datos ) “conjuntos de datos que crecen tan rápidamente que no pueden ser manipulados por las herramientas de gestión de bases de datos tradicionales”.
  • 4. En estos momentos hablamos de (aproximadamente): 1 terabyte (TB) = 1.000 gigabytes(GB) 1 petabyte (PB) = 1.000.000gigabytes (GB) 1 exabyte (EB) = 1.000.000.000 gigabytes (GB) 1 zettabyte (ZB) = 1.000.000.000.000 Gigabytes(GB) Una supercomputadora se habla de FLOPS(“ floating point operations per second”), es decir, la cantidad de operaciones que procesa por segundo…. teras y petas.
  • 5. El IBM Institute for Business Value y la Saïd Business School de University of Oxford, introducen el concepto de las “4 V del BD” :
  • 6. Volumen: las empresas están cubiertas de una cantidad cada vez mayor de datos de todo tipo, acumulando fácilmente terabytes, incluso petabytes, de información. Volumen: las empresas están cubiertas de una cantidad cada vez mayor de datos de todo tipo, acumulando fácilmente terabytes, incluso petabytes, de información. Velocidad: En ocasiones 2 minutos es demasiado. Para procesos que dependen especialmente del tiempo, como son identificar fraudes, Big data actúa en el sentido de potencializar la eficacia de los sistemas que son sensibles en tiempo. Velocidad: En ocasiones 2 minutos es demasiado. Para procesos que dependen especialmente del tiempo, como son identificar fraudes, Big data actúa en el sentido de potencializar la eficacia de los sistemas que son sensibles en tiempo. Variedad: Big data, es todo tipo de información, estructurada y no estructurada, como texto, lecturas de sensores, videos, clicks, archivos, logs y mucho mas. Y además, nuevos conceptos aparecen cunado se ponen diferentes tipos de archivos juntos. Variedad: Big data, es todo tipo de información, estructurada y no estructurada, como texto, lecturas de sensores, videos, clicks, archivos, logs y mucho mas. Y además, nuevos conceptos aparecen cunado se ponen diferentes tipos de archivos juntos. Veracidad: 1 de cada 3 lideres de negocios no confían en la información que utilizan para tomar decisiones. Como puede actuar en base a una información en la que no confías?. Establecer confianza en Big data representa un gran desafío conforme a la variedad y el numero de fuentes crece. Veracidad: 1 de cada 3 lideres de negocios no confían en la información que utilizan para tomar decisiones. Como puede actuar en base a una información en la que no confías?. Establecer confianza en Big data representa un gran desafío conforme a la variedad y el numero de fuentes crece.
  • 7. ¿Quién genera esos grandes volúmenes de datos? Los medios y las redes sociales (todos nosotros estamos generando datos) Los instrumentos científicos (recogida de todo tipo de datos) Los dispositivos móviles (seguimiento de todos los datos todo el tiempo) Sensor de tecnología y redes (medición de todo tipo de datos)
  • 8. Hay que prepararse: Por qué un evento de Big Data AHORA La explosión de datos no estructurados y las aplicaciones móviles generarán una gran oportunidad para la creación de valor en los negocios, ya que si estos datos se pueden gestionar y acceder de manera eficiente se convertirán en una ventaja competitiva y un apoyo al momento de tomar decisiones. El enorme crecimiento de datos hará que sea imposible replicar o realizar una copia de seguridad por medios tradicionales.
  • 9. Cinco puntos que debería saber ¿Está ajustando su plan para “Big data”? 1. Haga un balance de sus datos:1. Haga un balance de sus datos: hacer un inventario de los datos creados internamente 2. Deje que prevalezcan las necesidades del2. Deje que prevalezcan las necesidades del negocio:negocio: es responsabilidad del área de TI de tomar control sobre cómo los conceptos de “Data Sharing” y “Data Federation” (muchas fuentes sin crear redundancia) 3. Reevalue la infraestructura3. Reevalue la infraestructura:: reunir estos sistemas dispersos y asilados y construir un sistema de sistemas.
  • 10. 4. Estructure sus datos:4. Estructure sus datos: bases de datos en columnas y equipos para “data warehouses” (almacenes de datos) 5. Prepare a su equipo:5. Prepare a su equipo: expertos en Hadoop o científicos de datos HadoopHadoop es probablemente la tecnología para big data más conocida; es un marco de software de código abierto gratuito y ampliamente disponible que nació en el seno de Google y que es utilizado profusamente por Yahoo; desde entonces se ha convertido en el estándar de facto para el almacenamiento, procesamiento y análisis de cientos de terabytes e incluso peta bytes de datos.
  • 11. El procesamiento masivo en paralelo (MPP) es lo que ha hecho a Hadoop tan popular; se pueden utilizar muchos procesadores informáticos funcionando en paralelo para analizar datos; las empresas pequeñas pueden utilizar sus redes de ordenadores de oficina para analizar datos complejos a un coste relativamente reducido.
  • 12. Empresas dedicadas al servicio: es una compañía colombiana de base tecnológica dedicada a proveer productos y servicios de Investigación, Desarrollo e Innovación en tecnologías de la información, que permitan optimizar los procesos organizacionales de nuestros clientes.
  • 13. Herramientas:Herramientas: SAS dio a conocer SAS Visual Analytics, que permite analizar una cantidad masiva de datos, explorar los datos a la velocidad de la vista y compartir nuevos insights (ideas) con cualquiera, en cualquier lugar, por medio de la web o un iPad. Entre más datos sean utilizados para el análisis, más precisos serán los resultados.
  • 14. Apache Pig plataforma para el análisis de grandes conjuntos de datos lenguaje de alto nivel para expresar programas de análisis de evaluación. Tiene un compilador que produce secuencias MapReduce, que los usuarios de Hadoop analizan los datos y menos tiempo en desarrollar aplicaciones; el lenguaje es Pig Latin, crea estructuras tipo SQL (SQL-like), de manera que crea un script el cual es paralelizado y distribuido a través de un clúster.
  • 15. Yahoo!, fue el creador de Pig, lo usa tanto para los procesos de búsqueda web como al incorporarlo en Hadoop; también están: LinkedIn: utiliza Hadoop y Pig para ofrecer recomendaciones de conocidos, páginas y empleos de interés. Twitter: utiliza Pig para procesar estos logs de datos AOL y WhitePages: Pig para filtrar registros en sus procesos de búsqueda de información. IBM InfoSphere BigInsights™: análisis de grandes volúmenes de información mediante Hadoop. Facilita la instalación, integración y seguimiento de esta tecnología de código abierto.
  • 16.
  • 17. Bidoop, basándose en Hadoop, aporta un valor añadido en cuanto a las herramientas que utiliza, Ofrece los siguientes productos:
  • 18. Software AG se ha basado en tecnología de Terracotta para lanzar su plataforma in-memory para la gestión del Big Data, denominada In-Genius, capaz de trabajar en entornos Oracle, SAP Hana y Hadoop; el sistema puede trasladar toda la información desde las tradicionales y lentas unidades de disco a memoria RAM de forma extremadamente rápida, permitiendo realizar análisis de cientos de terabytes de datos en arrays de memoria.. Todo ello en tiempo real.
  • 19. Herramientas más punteras y que están jugando un mayor papel en lo referente a Big Data. Es una interfaz web que permite implementar y administrar clústers de Apache Hadoop. Su desarrollo está siendo dirigido por ingenieros de Hortonworoks, que incluyen en su plataforma de datos “Ambari Hortonworks”.
  • 20. Es un sistema de serialización de datos optimizado para Hadoop/MapReduce. Es compacto, flexible y admitir varios lenguajes de programación, lo cual lo posiciona como una alternativa muy buena a los SequenceFiles (de Hadoop) o ProtoBuf (de Google).
  • 21. es una BD distribuida desarrollada por Facebook. Para manejar grandes cantidades de datos distribuidos a través de servidores commodity, tiene como características un arquitectura de tipo "key/value", el no tener ningún punto único de fallo (SPOF), un método de replicación de información basado en "gossip protocol" y la problemática "eventual consistency".
  • 22. Chukwa es un subproyecto dedicado a la carga masiva de varios ficheros texto dentro de un Clúster Hadoop (ETL). Se construye bajo el sistema de archivos distribuido (HDFS) y el marco MapReduce y hereda la escalabilidad y robustez de Hadoop. Incluye un conjunto de herramientas flexible y potente para la visualización y análisis de los resultados.
  • 23. Flume es un marco para aportar datos a Hadoop. Los agentes están poblados de toda las infraestructura de TI - dentro de los servidores web, servidores de aplicaciones y dispositivos móviles, para recoger esos datos e integrarlos en Hadoop.
  • 24. Hama es una plataforma de computación distribuida basada en técnicas computación paralela masiva para, por ejemplo cálculos científicos, matriz, gráfico y algoritmos de redes.
  • 25. es una BD NoSQL; se trata de la versión java opensource de Hadoop de la famosa BBDD NoSQL de Google: BigTable. Principales características : Datos almacenados en columnas, sistema de versioning de los datos, consistencia de las escrituras y lecturas, recuperación automática en caso de fallos. Ha sido elegido por Facebook, entre otras cosas, para almacenar todos los correos de los usuarios de la misma plataforma.
  • 26. (Hadoop Distributed File System), la capa de almacenamiento de Hadoop, es un sistema de fichero distribuido escrito en java, escalable, tolerante a fallos. HDFS es totalmente compatible con MapReduce y ofrecer la optimización de "localidad de los datos", lo cual lo convierte en la solución "natural" de Hadoop.
  • 27. Impala es el nuevo motor de query desarrollado por Cloudera. Inspirado en software Dremel de Google, permite realizar consultas SQL muy parecidas a la sintaxis HQL de Hive, pero sin pasar por ningún proceso MapReduce. Esto le permite ser hasta 50 veces más rápido que Hive y lo transforma en la herramienta ideal para acceder a los datos en tiempo real.
  • 28. (desarrollado por LinkedIn) Es un sistema distribuido de publicación- suscripción de mensajería que ofrece una solución capaz de manejar toda la actividad del flujo de datos y procesar estos datos en un sitio web de gran consumo. Este tipo de datos (páginas vistas, búsquedas y otras acciones del usuario) son un ingrediente clave en la web social actual.
  • 29. MapReduce es un marco de software que sirve como capa informática de Hadoop. Los trabajos se dividen en dos: La función "Map" divide una consulta en múltiples partes y procesa los datos a nivel de nodo. “Reduce", como su nombre indica, reduce los agregados función de los resultados de la función "Map" para determinar la "respuesta" a la consulta.
  • 30. Hadoop User Experience es proyecto de código abierto que crea un interfaz web, el cual facilita el uso de Apache Hadoop. Cuenta con un explorador de archivos para HDFS; una aplicación para la creación de flujos de trabajo en Oozie; un diseñador de trabajo para MapReduce; una interfaz de usuario Impala; una colección de Hadoop API; y mucho más.
  • 31. R es un lenguaje y un entorno para computación y gráficos estadísticos. Es un proyecto GNU, que es similar al lenguaje S. R ofrece una gran variedad de estadísticas (modelos lineales y no lineales, tests estadísticos clásicos, análisis de series de tiempo, clasificación, clustering, ...) y las técnicas gráficas. Además es altamente extensible.
  • 32. es un sistema de computación distribuida en tiempo real, libre y de código abierto, nacido en el seno de Twitter. Hace fácil procesar de manera fiable flujos no estructurados de datos, haciendo en el ámbito del procesamiento en tiempo real, lo que hizo Hadoop para el procesamiento por lotes.
  • 33. Ejemplos de empresas que utilizan big data Big Data, la gran oportunidad para la banca: nadie parece realmente seguro de lo que es. ¿Cómo utilizar el Big Data?, ¿Big Data transformará el futuro del marketing financiero? utiliza herramientas Big Data para combatir el fraude en tiempo real: Aplicando diversos filtros de "Fraud Management“ desarrolló un proceso de detección de fraude basados en datasets masivos que son analizados.
  • 34. Axa adopta Teradata Data Warehouse Appliance para iniciativas de Business Intelligence: AXA Bélgica, para ayudar a los empleados en las líneas del frente de la institución para tomar la mejor decisión posible “banco de inversiones y agente de bolsa”; Permite manejar petabytes de datos que no son escuchados en el mundo de las bases de datos tradicionales” dice el director ejecutivo de la empresa
  • 35. hace que la sincronización de datos sea una tarea enorme Monitorización en tiempo real de los clientes para analizar sus patrones de compra: Con RetailNext, fue capaz de interpretar secuencias de vídeo digital y reconocer los seres humanos moviéndose a través de las tiendas, para medir el comportamiento del comprador en el interior de su entorno
  • 36. El sector de la salud se "apunta" a la tecnología Big Data: Debido a la prisa en las salas de emergencia y la saturación de las plantas de hospitalización, muchos pacientes sólo reciben una rápida revisión de su salud Analizando los datos de pacientes para un mejor control médico: proyecta un servicio a empleados y consumidores con una operación de investigación con muchos datos, donde sus consumidores se vuelven pacientes responsables (e-pacientes) que pueden tomar mejores decisiones
  • 37. San Diego Gas & Electric, intentando conectar clientes a smart grid: La iniciativa incluye un despliegue de 1,4 millones en medidores de electricidad inteligentes objeto de seguimiento en tiempo real Destaca la importancia del Big Data para su éxito: El presidente de la empresa afirma que sin la tecnología Big Data encontrar y explotar nuevas fuentes de recursos naturales sería casi imposible. El trafico de IT diario de es de1,5 Terabytes
  • 38. El Big Data ayuda a predecir huracanes: investigadores de la Northwestern University y sus colaboradores han desarrollado un nuevo método basado en la análisis de datos masivos para pronosticarlos.
  • 39. Big Data - DiseñosBig Data - Diseños Aplicaciones verticales Aplicaciones verticales Medios de Comunicación Medios de Comunicación Negocios Inteligentes Negocios Inteligentes Analítica y Visualización Analítica y Visualización Servicios de DatosServicios de Datos Aplicación para registro de datos Aplicación para registro de datos Infraestructura AnaliticaInfraestructura Analitica Infraestructura Operacional Infraestructura Operacional Infraestructura como un servicio Infraestructura como un servicio Estructura de Base de Datos Estructura de Base de Datos TecnologiaTecnologia