SlideShare una empresa de Scribd logo
Ing. Diego Robledo



www.datalytics.com   Big Data – Infraestructura de BI para BI
Un punto de inflexión

           LOS DATOS SE
      40   DUPLICAN CADA 2 AÑOS                                        80%
      35                                                               DE LA INFORMACIÓN ES NO
      30                                                               ESTRUCTURADA
                                                                                               (Gartner, December 2011)
      25
 ZB
      20

      15                                                               LAS EMPRESAS MANEJARÁN
      10                                                               50X MÁS DATOS
       5                                                               EN LA PRÓXIMA DÉCADA
            2005       2010        2015      2020
                                                                                    (IDC Digital Universe Study, June 2011)
       0
           (IDC Digital Universe Study, June 2011)


“El aumento exponencial en la cantidad de información disponible ha hecho que las empresas recurran
a nuevas herramientas y procesos para recopilar datos (tanto estructurados como no estructurados) y
para almacenar, administrar, manipular, analizar, e integrar datos. ”
J|M|P Securities, Big Data and How BI Got Its Groove Back, Nov. 2011
Qué es Big Data?
   Big Data es el nombre que se le da a conjuntos de información que crecen de una
    manera tan exponencial que resulta prohibitivo almacenarlos y/o procesarlos con
    métodos o técnicas tradicionales del mundo de base de datos relacionales.
   Big Data son tres V’s y una C:
        Velocidad: los datos se generan a un ritmo exponencial.
        Volumen: la irrupción de Big Data dejó en el
         pasado el Terabyte para hablar de Petabytes y
         Zetabytes.
        Variedad: datos estructurados y no estructurados,
         proveniente de la web 2.0, sensores, logs, etc.
        Complejidad: volumen de datos tal que no
         permite procesarlo con técnicas tradicionales
De dónde viene?
   Información transaccional
        Operaciones bancarias
        Servicios financieros, portales de bolsa
        Tiendas virtuales / e-commerce
   La nube
        World Wide Web / Blogs
        Redes sociales: Twitter, Facebook, LinkedIn
   Machine-generated data (MGD)
        Weblogs
        Centrales telefónicas
        Sensores de todo tipo
        Logs de aplicaciones
Dónde invierten las empresas en BI
   Herramientas de Visualización / OLAP
        MicroStrategy
        SAP/Business Objects
        Cognos
        Pentaho
   Herramientas de Integración
        Pentaho Data Integration
        IBM DataStage
        Informática
   Herramientas de Minería de Datos
   Pero… qué hay del motor de base de datos a utilizar como Data Warehouse?
DW: el corazón de toda solución de BI
                                    DW
  VSAM
  MQSeries
  AS/400
                                                                Pentaho,
                                                                Oracle/Hyperion,
                                                                Microstrategy,
  DB2 UDB
                                                                SAS, Etc.
  Informix
  Oracle            Extract
  Microsoft         Transform
  ...               Clean
  Siebel            Load
  PeopleSoft
                                                 DW
                      Datastage       ODS                 Data Mart
  SAP R/3
                      Informatica
  XML                               Oracle
                      Oracle DI
                      Pentaho DI    IBM DB2
                      SAS DIS       SQL Server
  Archivos Planos
                      Etc.          Teradata
  FTP
                                    Sybase IQ
                                    Etc.
                                                      SAS, SPSS,
  Web Logs                                            Rapid Miner
Bases de Datos de Transaccionales
   La mayoría de las empresas utilizan motores de bases datos tradicionales
        IBM DB2, Oracle, MS SQL Server, PostgreSQL, MySQL, etc.
   Todos muy buenos motores, pero todos transaccionales, diseñados y desarrollados para
    soportar transacciones y trabajar con pocos registros por operación.
   Las soluciones de Business Intelligence en cambio involucran cientos de miles (e inclusive
    millones) de registros en una única operación, y deben responder en un tiempo
    adecuado.
   Las bases de datos transaccionales no fueron diseñadas para responder a consultas
    analíticas sobre grandes volúmenes de información.
   La irrupción de Big Data comienza a dejar en evidencia estas falencias, debiendo utilizar
    complejos índices, tablas agregadas, tablas particionadas, etc., aumentando el costo de
    desarrollo y mantenimiento, obteniendo tiempos
Bases de Datos Analíticas
   Pero existen en el mercado una variedad de bases de datos analíticas, diseñadas
    específicamente para ser utilizadas como motores de Data Warehouse:




   Estas bases de datos logran procesar grandes volúmenes de información a velocidades
    asombrosas, gracias a la aplicación de diferentes conceptos y tecnologías:
        Almacenamiento en columnas en lugar de filas (registros)
        Massively parallel processing (MPP)
        In-Memory Analytics
   Históricamente estas bases de datos tan especializadas tenían un costo muy elevado,
    pero hoy el mercado nos ofrece varias alternativas que se adaptan al presupuesto de
    cada organización.
Presentando a
   Infobright es una compañía que desarrolla un motor de base de datos analítico orientada a
    columnas de alta performance que entrega rápidos tiempos de respuesta a consultas ad-
    hoc sobre grandes volúmenes de información (BIG DATA) con mínimo esfuerzo de
    administración, mantenimiento y costo de propiedad.
   Fundada en 2006, Infobright tiene HQ en Toronto (Canadá) y cuenta con oficinas en
    Boston (USA), Irlanda y Polonia.
   A diferencia de otras bases analíticas, la mejor performance de Infobright esta basada en
    modelos matemático, no en hardware.
   Modelo de negocios “Try & Buy” basado en una versión Enterprise (Infobright Enterprise
    Edition, IEE) y una versión Open Source (Infobright Enterprise Edition, ICE).
   Socio tecnológico de varias empresas de BI como MicroStrategy, Pentaho, Informática, etc.
   Base de clientes en aumento, incluyendo empresas como Yahoo!, Xerox, Bwin, etc.
Características de Infobright

                Base de datos columnar orientada al análisis de información
                Excelente performance:
                     Análisis ad-hoc de grandes volúmenes de información
                     Tiempos de carga de 2TB/hour
                     Tasas de compresión de 10:1 a 40:1 (o aún más)
                Fácil administración e implementación:
                     Elimina la necesidad de mantener índices, tablas particionadas,
                      tablas agregadas, etc
                     Auto-tunning: la base va “aprendiendo” de las consultas que recibe
                     Se instala en minutos, y no tiene grandes requisitos de HW
                     Basada en arquitectura MySQL (BD más utilizada en el mundo)
                     Es una base relacional, por lo que dialoga SQL
                Modelo de suscripción Low Cost
Y por qué resulta mejor para BI?

     Base de datos      Potencia basada en    Administración
      orientada a       inteligencia, no en    simplificada
       columnas              Hardware

     Diseñada para                              No existe el
                          Knowledge Grid
    análisis de datos                          tuning manual


                                                 Tareas de
    Excelente tasa de
                          Motor iterativo      administración
       compresión
                                                 mínimas
Almacenamiento en columnas, no filas
 ID       Tarea      Departamento    Ciudad                      1          Envío       Operaciones   Medellín

 #                                                               2       Recepción      Operaciones   Medellín
 #                                                               3       Registración    Finanzas     Bogotá
 #
 #                                                        El almacenamiento en filas sirve si…
 #
 #
                                                           Todas las columnas son necesarias
                                                                Por ejemplo, el detalle de una compra de supermercado
                                                           Ideal para un mundo transaccional donde usualmente
                                                            se necesita todo el detalle de una entidad

                  Almacenamiento
                    en Columnas                           El almacenamiento en columnas sirve si…
                                                           Sólo se requieren algunas columnas para el análisis
      1              Envío       Operaciones   Medellín         Por ejemplo, el total vendido del producto X en cada una
                                                                  de las sucursales en los últimos 3 meses.
      2           Recepción      Operaciones   Medellín
                                                           Información consolidada (sumas, cantidades,
      3           Registración      Finanzas   Bogotá
                                                            promedios, …)
                                                           Ideal para un mundo analítico, donde la información se
                                                            concentra en métrica de distintas entidades
Almacenamiento en filas vs. columnas
                                                           30 columnas
Ejemplo de aplicación:
 50 días con información; 30
  columnas/variables por
  cada registro; un millón de
  registros por cada día
 El acceso a disco es un
  problema
 El almacenamiento en filas    50 millones de registros
  obliga a recuperar la
  información de todas las
  columnas
 Al incrementarse el tamaño
  de la tabla, se incrementan
  los índices
 La velocidad de carga se
  degrada dado que los
  índices deben recrearse al
  incorporarse nuevos datos
Almacenamiento en filas vs. columnas
                                                                              30 columnas
Objetivo: obtener el total de
ventas de una semana del
año.
 La consulta SQL sería algo
  como:
  Select sum(ventas)
  from tabla
  where semana = X              50 millones de registros




                                                           Día de la semana




                                                                                     Venta diaria
Almacenamiento en filas vs. columnas
                                                                                           30 columnas
Utilizando un esquema de
 almacenamiento en filas
 (esquema tradicional)
  Se recorren 7 millones de
   registros (un millón por cada
   día)
  Para acceder a un valor en
                                   50 millones de registros
   particular (el valor de la




                                                                        Día de la semana
   venta) es necesario leer las




                                                                                                  Venta diaria
   30 columnas, aún cuando                                    Información recuperada para el cálculo
   no tengan información                                            (210 millones de variables!)
   relevante.
  Se procesan TODAS las
   columnas (210 millones,
   30 x 7), y se DESCARTAN
   TODAS MENOS una.
  Es decir se procesó un 93%
   más de información.
Almacenamiento en columnas, no filas
Utilizando un esquema de
 almacenamiento en columnas
 (esquema utilizado por
 Infobright)
   Se recorren 7 millones de
      registros (un millón por cada
      día)
                                  50 millones de registros
     Se descartan 28 de las 30




                                                             Día de la semana




                                                                                Venta diaria
      columnas.
     Se procesan sólo las 2
      columnas necesarias: día y
      venta diaria.
     Es decir, sólo se procesa la
      información necesaria.
     La inteligencia está en la                                                               93% menos de información
      forma de almacenamiento y                                                                      recuperada!
      en el algoritmo usado para
      extraer los datos.
Inteligencia, no hardware

  Al momento de cargar los      • Almacena esta información en la Knowledge Grid
   datos, crea información      • La KG está cargada en memoria
   (metadata) de los datos      • Menos del 1% del tamaño de los datos
      automáticamente             comprimidos


  Utiliza esta información al   • Al disminuir los datos que deben accederse,
   procesar consultas para        aumenta la tasa de respuesta
  eliminar/reducir acceso a     • Respuestas por debajo del segundo cuando la
             datos                información está contenida en la KG



                                • No existe la necesidad de particionar los datos,
       Beneficios de la
                                  crear/mantener índices, hacer proyecciones o
        arquitectura              tuning para mejorar la performance.
Paquetes de Datos y Compresión
                    Paquetes de Datos
                     Cada paquete contiene 65,536 valores de datos
64K                  La compresión se realiza a nivel de paquete individual
                     El algoritmo de compresión cambia de acuerdo con el
                      tipo de dato y su distribución.
64K
                                        Compresión
                                         Los resultados dependen de la
64K                                       distribución de datos en los paquetes
                                         La media observada en diferentes
                                          implementaciones es 10:1
64K                                      En algunos casos se han detectado
          Algoritmos de                   compresiones mayores a 40:1
           compresión                    Por ejemplo, con una compresión 10:1,
                                          1TB de datos requeriría solamente
                                          100GB de almacenamiento
Almacenamiento de los datos

  Datos Originales
       1TB                 Datos comprimidos
                                 100 GB
                          Promedio de compresión 10:1

                     =
                                    +
                     Knowledge Grid
                     < 1 GB
                                      < 1% datos comprimidos
Inteligencia, no hardware

                                                                          Respuesta

Consulta
 Cual es el total de
 ventas de los últimos
 3 meses?




1.   Se recibe la consulta.
2.   El motor itera sobre el Knowledge Grid
3.   Cada iteración elimina Data Packs (necesidad de acceso a datos en disco)
4.   Sólo se accede y descomprimen aquellos que son estrictamente necesarios

Aparte de almacenar la información en columnas, se mejora la performance utilizando un
                             acceso inteligente a los datos
Consultas con Knowledge Grid
                           salario edad cargo dpto
                                                             Paquetes
  SELECT count(*)                                           ignorados

  FROM Empleados                                             Paquetes
  WHERE Salario> 100000                                     ignorados

   AND edad < 35
   AND cargo = ‘DBA’
   AND dpto = ‘ANT’;                                         Paquetes
                                                            ignorados



                               Este paquete será
                                descomprimido
                                Irrelevante
                                Candidato
                                Todos los valores cumplen
Benchmarks realizados

   Consulta Analítica                       Mobile Data                    Set de Consultas
                                            (15MM eventos)

 Alternativa                          Alternativa                       Alternativa




 +2 horas con    <10 segundos        43 minutos con   23 segundos     10 seg. – 15 min.    0.43 – 22
   MySQL                              SQL Server                         con Oracle       segundos


                       Reporte de BI                      Carga de datos
                 Alternativa                          Alternativa




                7 hrs en Informix   17 segundos       11 horas con   11 minutos
                                                      MySQL ISAM
Muchas Gracias!

Más contenido relacionado

La actualidad más candente

NEGOCIOS INTELIGENTES
NEGOCIOS INTELIGENTESNEGOCIOS INTELIGENTES
NEGOCIOS INTELIGENTES
Tinna26
 
Overview sap bo girona nib efimatica
Overview sap bo girona nib efimaticaOverview sap bo girona nib efimatica
Overview sap bo girona nib efimatica
Efimatica
 
Actividad #1 introducción a la inteligencia de negocios
Actividad #1 introducción a la inteligencia de negociosActividad #1 introducción a la inteligencia de negocios
Actividad #1 introducción a la inteligencia de negocios
Fco Dee JeSuss Contreras
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
Joseph Lopez
 
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Titiushko Jazz
 
Visión general de Inteligencia de Negocios
Visión general de Inteligencia de NegociosVisión general de Inteligencia de Negocios
Visión general de Inteligencia de Negocios
Michael Macavilca Mejia
 
Actividad #3. investigar en internet, vía telefónica o vía correo electrónico...
Actividad #3. investigar en internet, vía telefónica o vía correo electrónico...Actividad #3. investigar en internet, vía telefónica o vía correo electrónico...
Actividad #3. investigar en internet, vía telefónica o vía correo electrónico...
Fco Dee JeSuss Contreras
 
Curso : Inteligencia de Negocios - Dia1
Curso : Inteligencia de Negocios - Dia1Curso : Inteligencia de Negocios - Dia1
Curso : Inteligencia de Negocios - Dia1
Michael Macavilca Mejia
 
Bussines Inteligence
Bussines InteligenceBussines Inteligence
Bussines Inteligence
Flor de la Luz
 
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
Titiushko Jazz
 
Obtención de Datos en #BigData
Obtención de Datos en #BigDataObtención de Datos en #BigData
Obtención de Datos en #BigData
Francisco Javier Pulido Piñero
 
Datawarehouse 1
Datawarehouse   1Datawarehouse   1
Datawarehouse 1
AlvaroCanaviri2
 
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Luis Fernando Aguas Bucheli
 
Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones reales
Stratebi
 
Aplicaciones difusas manejo de grandes volúmenes de datos
Aplicaciones difusas manejo de grandes volúmenes de datosAplicaciones difusas manejo de grandes volúmenes de datos
Aplicaciones difusas manejo de grandes volúmenes de datos
Luis Fernando Aguas Bucheli
 
Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Business intelligence (bi) y big data0
Business intelligence (bi) y big data0
Pedro Contreras Flores
 
On-Line Analytical Processing - DatawareHouse FISI - UNMSM
On-Line Analytical Processing - DatawareHouse FISI - UNMSMOn-Line Analytical Processing - DatawareHouse FISI - UNMSM
On-Line Analytical Processing - DatawareHouse FISI - UNMSM
Julio Pari
 
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
DANIEL VENTURA
 
Aplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosAplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de Datos
Luis Fernando Aguas Bucheli
 
Aplicaciones difusas:Introducción a BI
Aplicaciones difusas:Introducción a  BIAplicaciones difusas:Introducción a  BI
Aplicaciones difusas:Introducción a BI
Luis Fernando Aguas Bucheli
 

La actualidad más candente (20)

NEGOCIOS INTELIGENTES
NEGOCIOS INTELIGENTESNEGOCIOS INTELIGENTES
NEGOCIOS INTELIGENTES
 
Overview sap bo girona nib efimatica
Overview sap bo girona nib efimaticaOverview sap bo girona nib efimatica
Overview sap bo girona nib efimatica
 
Actividad #1 introducción a la inteligencia de negocios
Actividad #1 introducción a la inteligencia de negociosActividad #1 introducción a la inteligencia de negocios
Actividad #1 introducción a la inteligencia de negocios
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
Unidad vii esp parte 3 clase de inteligencia de negocios (datawarehouse)
 
Visión general de Inteligencia de Negocios
Visión general de Inteligencia de NegociosVisión general de Inteligencia de Negocios
Visión general de Inteligencia de Negocios
 
Actividad #3. investigar en internet, vía telefónica o vía correo electrónico...
Actividad #3. investigar en internet, vía telefónica o vía correo electrónico...Actividad #3. investigar en internet, vía telefónica o vía correo electrónico...
Actividad #3. investigar en internet, vía telefónica o vía correo electrónico...
 
Curso : Inteligencia de Negocios - Dia1
Curso : Inteligencia de Negocios - Dia1Curso : Inteligencia de Negocios - Dia1
Curso : Inteligencia de Negocios - Dia1
 
Bussines Inteligence
Bussines InteligenceBussines Inteligence
Bussines Inteligence
 
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
Unidad vii esp parte 3 clase de datawarehouse ( ing. doño)
 
Obtención de Datos en #BigData
Obtención de Datos en #BigDataObtención de Datos en #BigData
Obtención de Datos en #BigData
 
Datawarehouse 1
Datawarehouse   1Datawarehouse   1
Datawarehouse 1
 
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
Aplicaciones DIfusas: Limpieza de datos, resolución de entidades, integración...
 
Big Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones realesBig Data, casos, tecnologias y aplicaciones reales
Big Data, casos, tecnologias y aplicaciones reales
 
Aplicaciones difusas manejo de grandes volúmenes de datos
Aplicaciones difusas manejo de grandes volúmenes de datosAplicaciones difusas manejo de grandes volúmenes de datos
Aplicaciones difusas manejo de grandes volúmenes de datos
 
Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Business intelligence (bi) y big data0
Business intelligence (bi) y big data0
 
On-Line Analytical Processing - DatawareHouse FISI - UNMSM
On-Line Analytical Processing - DatawareHouse FISI - UNMSMOn-Line Analytical Processing - DatawareHouse FISI - UNMSM
On-Line Analytical Processing - DatawareHouse FISI - UNMSM
 
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
Implementación de inteligencia de Negocios paso a paso (Business Intelligence)
 
Aplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de DatosAplicaciones Difusas: Evolución de las Bases de Datos
Aplicaciones Difusas: Evolución de las Bases de Datos
 
Aplicaciones difusas:Introducción a BI
Aplicaciones difusas:Introducción a  BIAplicaciones difusas:Introducción a  BI
Aplicaciones difusas:Introducción a BI
 

Destacado

Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)
Stratebi
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantes
Carlos Toxtli
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big Data
David Alayón
 
13 14 keynote dando sentido al internet de las cosas, infobright
13 14 keynote dando sentido al internet de las cosas, infobright13 14 keynote dando sentido al internet de las cosas, infobright
13 14 keynote dando sentido al internet de las cosas, infobright
Software Guru
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Urko Zurutuza
 
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Socialmetrix
 
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Socialmetrix
 
Webinar Dic 2016 BOC Cloud_v1
Webinar Dic 2016 BOC Cloud_v1Webinar Dic 2016 BOC Cloud_v1
Webinar Dic 2016 BOC Cloud_v1
Ricardo Sada
 
Curso de big data
Curso de big data Curso de big data
Curso de big data
Luis Joyanes
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu Empresa
Urko Zurutuza
 
Monta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión IIMonta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión II
Urko Zurutuza
 
Infraestructura para big data Telefónica
Infraestructura para big data TelefónicaInfraestructura para big data Telefónica
Infraestructura para big data Telefónica
Telefónica Grandes Clientes
 
Big Data y Minería de datos
Big Data y Minería de datos Big Data y Minería de datos
Big Data y Minería de datos
Luis Joyanes
 
Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine Learning
Stratebi
 
Almacenamiento en la Nube y Cloud Computing
Almacenamiento en la Nube y Cloud ComputingAlmacenamiento en la Nube y Cloud Computing
Almacenamiento en la Nube y Cloud Computing
Alfredo Vela Zancada
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Urko Zurutuza
 
La Transformación digital y cultural del BBVA
La Transformación digital y cultural del BBVALa Transformación digital y cultural del BBVA
La Transformación digital y cultural del BBVA
Silvia Dvorak
 
69 claves para conocer Big Data
69 claves para conocer Big Data69 claves para conocer Big Data
69 claves para conocer Big Data
Stratebi
 
"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas
EOI Escuela de Organización Industrial
 
Big Data para Dummies
Big Data para DummiesBig Data para Dummies
Big Data para Dummies
Stratebi
 

Destacado (20)

Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)Big Data Open Source Analytics (español)
Big Data Open Source Analytics (español)
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantes
 
Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big Data
 
13 14 keynote dando sentido al internet de las cosas, infobright
13 14 keynote dando sentido al internet de las cosas, infobright13 14 keynote dando sentido al internet de las cosas, infobright
13 14 keynote dando sentido al internet de las cosas, infobright
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big Data
 
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...
 
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
Conferencia MySQL, NoSQL & Cloud: Construyendo una infraestructura de big dat...
 
Webinar Dic 2016 BOC Cloud_v1
Webinar Dic 2016 BOC Cloud_v1Webinar Dic 2016 BOC Cloud_v1
Webinar Dic 2016 BOC Cloud_v1
 
Curso de big data
Curso de big data Curso de big data
Curso de big data
 
Monta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu EmpresaMonta una Infraestructura para Big Data en tu Empresa
Monta una Infraestructura para Big Data en tu Empresa
 
Monta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión IIMonta una Infraestructura Big Data para tu Empresa - Sesión II
Monta una Infraestructura Big Data para tu Empresa - Sesión II
 
Infraestructura para big data Telefónica
Infraestructura para big data TelefónicaInfraestructura para big data Telefónica
Infraestructura para big data Telefónica
 
Big Data y Minería de datos
Big Data y Minería de datos Big Data y Minería de datos
Big Data y Minería de datos
 
Cursos de Big Data y Machine Learning
Cursos de Big Data y Machine LearningCursos de Big Data y Machine Learning
Cursos de Big Data y Machine Learning
 
Almacenamiento en la Nube y Cloud Computing
Almacenamiento en la Nube y Cloud ComputingAlmacenamiento en la Nube y Cloud Computing
Almacenamiento en la Nube y Cloud Computing
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión I
 
La Transformación digital y cultural del BBVA
La Transformación digital y cultural del BBVALa Transformación digital y cultural del BBVA
La Transformación digital y cultural del BBVA
 
69 claves para conocer Big Data
69 claves para conocer Big Data69 claves para conocer Big Data
69 claves para conocer Big Data
 
"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas
 
Big Data para Dummies
Big Data para DummiesBig Data para Dummies
Big Data para Dummies
 

Similar a Big Data - Infraestrucutra de BI para soluciones de BI

Integración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoIntegración de Datos sin límites con Pentaho
Integración de Datos sin límites con Pentaho
Datalytics
 
Charla Pentaho - UTN
Charla Pentaho - UTNCharla Pentaho - UTN
Charla Pentaho - UTN
Datalytics
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
shady85
 
Diseño de un Datamart
Diseño de un DatamartDiseño de un Datamart
Diseño de un Datamart
Eduardo S de Loera
 
JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptx
JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptxJASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptx
JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptx
IT-NOVA
 
Business Analytics 101
Business Analytics 101Business Analytics 101
Business Analytics 101
Andres Eyherabide
 
Aplicaciones de BI con Pentaho
Aplicaciones de BI con PentahoAplicaciones de BI con Pentaho
Aplicaciones de BI con Pentaho
Datalytics
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big Data
Stratebi
 
0121 creando rápidamente_dashboards_de_bi_adentro_de_la_empresa_o_en_la_nube_...
0121 creando rápidamente_dashboards_de_bi_adentro_de_la_empresa_o_en_la_nube_...0121 creando rápidamente_dashboards_de_bi_adentro_de_la_empresa_o_en_la_nube_...
0121 creando rápidamente_dashboards_de_bi_adentro_de_la_empresa_o_en_la_nube_...
GeneXus
 
Data WareHouse. Introduccion
Data WareHouse. IntroduccionData WareHouse. Introduccion
Data WareHouse. Introduccion
Ricardo Mendoza
 
Cómo agilizar la integración de datos y el análisis de la información en el s...
Cómo agilizar la integración de datos y el análisis de la información en el s...Cómo agilizar la integración de datos y el análisis de la información en el s...
Cómo agilizar la integración de datos y el análisis de la información en el s...
Denodo
 
Capitulo 2 introducción al business intelligence
Capitulo 2   introducción al business intelligenceCapitulo 2   introducción al business intelligence
Capitulo 2 introducción al business intelligence
segundo elias navarrete saldaña
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
CICE, La Escuela Profesional de Nuevas Tecnologías
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
CICE
 
Dts y analysis services 2000
Dts y analysis services 2000Dts y analysis services 2000
Dts y analysis services 2000
Salvador Ramos
 
Querona
QueronaQuerona
Querona
Synergo!
 
Charla sql server 2012 cibertec BI
Charla sql server 2012 cibertec BICharla sql server 2012 cibertec BI
Charla sql server 2012 cibertec BI
dbLearner
 
Inteligencia de Negocios BI
Inteligencia de Negocios BIInteligencia de Negocios BI
Inteligencia de Negocios BI
fabian fernandez
 
Big data
Big dataBig data
Big data
Manuel Fritz
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight Server
Eduardo Castro
 

Similar a Big Data - Infraestrucutra de BI para soluciones de BI (20)

Integración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoIntegración de Datos sin límites con Pentaho
Integración de Datos sin límites con Pentaho
 
Charla Pentaho - UTN
Charla Pentaho - UTNCharla Pentaho - UTN
Charla Pentaho - UTN
 
Datawarehouse
DatawarehouseDatawarehouse
Datawarehouse
 
Diseño de un Datamart
Diseño de un DatamartDiseño de un Datamart
Diseño de un Datamart
 
JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptx
JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptxJASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptx
JASPERSOFT REPORTERÍA INTEGRADA IT-NOVA.pptx
 
Business Analytics 101
Business Analytics 101Business Analytics 101
Business Analytics 101
 
Aplicaciones de BI con Pentaho
Aplicaciones de BI con PentahoAplicaciones de BI con Pentaho
Aplicaciones de BI con Pentaho
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big Data
 
0121 creando rápidamente_dashboards_de_bi_adentro_de_la_empresa_o_en_la_nube_...
0121 creando rápidamente_dashboards_de_bi_adentro_de_la_empresa_o_en_la_nube_...0121 creando rápidamente_dashboards_de_bi_adentro_de_la_empresa_o_en_la_nube_...
0121 creando rápidamente_dashboards_de_bi_adentro_de_la_empresa_o_en_la_nube_...
 
Data WareHouse. Introduccion
Data WareHouse. IntroduccionData WareHouse. Introduccion
Data WareHouse. Introduccion
 
Cómo agilizar la integración de datos y el análisis de la información en el s...
Cómo agilizar la integración de datos y el análisis de la información en el s...Cómo agilizar la integración de datos y el análisis de la información en el s...
Cómo agilizar la integración de datos y el análisis de la información en el s...
 
Capitulo 2 introducción al business intelligence
Capitulo 2   introducción al business intelligenceCapitulo 2   introducción al business intelligence
Capitulo 2 introducción al business intelligence
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
 
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...
 
Dts y analysis services 2000
Dts y analysis services 2000Dts y analysis services 2000
Dts y analysis services 2000
 
Querona
QueronaQuerona
Querona
 
Charla sql server 2012 cibertec BI
Charla sql server 2012 cibertec BICharla sql server 2012 cibertec BI
Charla sql server 2012 cibertec BI
 
Inteligencia de Negocios BI
Inteligencia de Negocios BIInteligencia de Negocios BI
Inteligencia de Negocios BI
 
Big data
Big dataBig data
Big data
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight Server
 

Último

MONOGRAFIA memoria RAM.docx trabajo DE TECNOLOGIA
MONOGRAFIA memoria RAM.docx trabajo DE TECNOLOGIAMONOGRAFIA memoria RAM.docx trabajo DE TECNOLOGIA
MONOGRAFIA memoria RAM.docx trabajo DE TECNOLOGIA
leia ereni
 
MODELOS MODERNOS DE TECLADOS Y PANTALLAS.pdf
MODELOS MODERNOS DE TECLADOS Y PANTALLAS.pdfMODELOS MODERNOS DE TECLADOS Y PANTALLAS.pdf
MODELOS MODERNOS DE TECLADOS Y PANTALLAS.pdf
SeleniaLavayen
 
trabajo práctico kuikikiikkidfsmdklfskdnfklsdnfknsdk
trabajo práctico kuikikiikkidfsmdklfskdnfklsdnfknsdktrabajo práctico kuikikiikkidfsmdklfskdnfklsdnfknsdk
trabajo práctico kuikikiikkidfsmdklfskdnfklsdnfknsdk
KukiiSanchez
 
Gobernanza con SharePoint Premium de principio a fin
Gobernanza con SharePoint Premium de principio a finGobernanza con SharePoint Premium de principio a fin
Gobernanza con SharePoint Premium de principio a fin
Juan Carlos Gonzalez
 
Plantilla carrier y tecnologia de TIGO.pptx
Plantilla carrier y tecnologia de TIGO.pptxPlantilla carrier y tecnologia de TIGO.pptx
Plantilla carrier y tecnologia de TIGO.pptx
edwinedsonsuyo
 
trabajo monografico sobre el yandex .jim
trabajo monografico sobre el yandex .jimtrabajo monografico sobre el yandex .jim
trabajo monografico sobre el yandex .jim
jhonyaicaterodriguez
 
Infografia TCP/IP (Transmission Control Protocol/Internet Protocol)
Infografia TCP/IP (Transmission Control Protocol/Internet Protocol)Infografia TCP/IP (Transmission Control Protocol/Internet Protocol)
Infografia TCP/IP (Transmission Control Protocol/Internet Protocol)
codesiret
 
Uso de las Tics en la vida cotidiana.pptx
Uso de las Tics en la vida cotidiana.pptxUso de las Tics en la vida cotidiana.pptx
Uso de las Tics en la vida cotidiana.pptx
231485414
 
Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)
Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)
Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)
AbrahamCastillo42
 
Nuevos tiempos, nuevos espacios.docxdsdsad
Nuevos tiempos, nuevos espacios.docxdsdsadNuevos tiempos, nuevos espacios.docxdsdsad
Nuevos tiempos, nuevos espacios.docxdsdsad
larapalaciosmonzon28
 
Herramientas para los abogados, 3 herramientas
Herramientas para los abogados, 3 herramientasHerramientas para los abogados, 3 herramientas
Herramientas para los abogados, 3 herramientas
yessicacarrillo16
 
REVISTA TECNOLOGICA PARA EL DESARROLLO HUMANO
REVISTA TECNOLOGICA PARA EL DESARROLLO HUMANOREVISTA TECNOLOGICA PARA EL DESARROLLO HUMANO
REVISTA TECNOLOGICA PARA EL DESARROLLO HUMANO
gisellearanguren1
 
Presentación Seguridad Digital Profesional Azul Oscuro (1).pdf
Presentación Seguridad Digital Profesional Azul Oscuro (1).pdfPresentación Seguridad Digital Profesional Azul Oscuro (1).pdf
Presentación Seguridad Digital Profesional Azul Oscuro (1).pdf
giampierdiaz5
 
Flows: Mejores Prácticas y Nuevos Features
Flows: Mejores Prácticas y Nuevos FeaturesFlows: Mejores Prácticas y Nuevos Features
Flows: Mejores Prácticas y Nuevos Features
Paola De la Torre
 
edublogs info.docx asdasfasfsawqrdqwfqwfqwfq
edublogs info.docx asdasfasfsawqrdqwfqwfqwfqedublogs info.docx asdasfasfsawqrdqwfqwfqwfq
edublogs info.docx asdasfasfsawqrdqwfqwfqwfq
larapalaciosmonzon28
 
La Inteligencia Artificial en la actualidad.docx
La Inteligencia Artificial en la actualidad.docxLa Inteligencia Artificial en la actualidad.docx
La Inteligencia Artificial en la actualidad.docx
luiscohailatenazoa0
 
Morado y Verde Animado Patrón Abstracto Proyecto de Grupo Presentación de Edu...
Morado y Verde Animado Patrón Abstracto Proyecto de Grupo Presentación de Edu...Morado y Verde Animado Patrón Abstracto Proyecto de Grupo Presentación de Edu...
Morado y Verde Animado Patrón Abstracto Proyecto de Grupo Presentación de Edu...
KukiiSanchez
 
LA GLOBALIZACIÓN RELACIONADA CON EL USO DE HERRAMIENTAS.pptx
LA GLOBALIZACIÓN RELACIONADA CON EL USO DE HERRAMIENTAS.pptxLA GLOBALIZACIÓN RELACIONADA CON EL USO DE HERRAMIENTAS.pptx
LA GLOBALIZACIÓN RELACIONADA CON EL USO DE HERRAMIENTAS.pptx
pauca1501alvar
 
INFORMATICA Y TECNOLOGIA
INFORMATICA Y TECNOLOGIAINFORMATICA Y TECNOLOGIA
INFORMATICA Y TECNOLOGIA
renzocruz180310
 
Inteligencia Artificial
Inteligencia ArtificialInteligencia Artificial
Inteligencia Artificial
YashiraPaye
 

Último (20)

MONOGRAFIA memoria RAM.docx trabajo DE TECNOLOGIA
MONOGRAFIA memoria RAM.docx trabajo DE TECNOLOGIAMONOGRAFIA memoria RAM.docx trabajo DE TECNOLOGIA
MONOGRAFIA memoria RAM.docx trabajo DE TECNOLOGIA
 
MODELOS MODERNOS DE TECLADOS Y PANTALLAS.pdf
MODELOS MODERNOS DE TECLADOS Y PANTALLAS.pdfMODELOS MODERNOS DE TECLADOS Y PANTALLAS.pdf
MODELOS MODERNOS DE TECLADOS Y PANTALLAS.pdf
 
trabajo práctico kuikikiikkidfsmdklfskdnfklsdnfknsdk
trabajo práctico kuikikiikkidfsmdklfskdnfklsdnfknsdktrabajo práctico kuikikiikkidfsmdklfskdnfklsdnfknsdk
trabajo práctico kuikikiikkidfsmdklfskdnfklsdnfknsdk
 
Gobernanza con SharePoint Premium de principio a fin
Gobernanza con SharePoint Premium de principio a finGobernanza con SharePoint Premium de principio a fin
Gobernanza con SharePoint Premium de principio a fin
 
Plantilla carrier y tecnologia de TIGO.pptx
Plantilla carrier y tecnologia de TIGO.pptxPlantilla carrier y tecnologia de TIGO.pptx
Plantilla carrier y tecnologia de TIGO.pptx
 
trabajo monografico sobre el yandex .jim
trabajo monografico sobre el yandex .jimtrabajo monografico sobre el yandex .jim
trabajo monografico sobre el yandex .jim
 
Infografia TCP/IP (Transmission Control Protocol/Internet Protocol)
Infografia TCP/IP (Transmission Control Protocol/Internet Protocol)Infografia TCP/IP (Transmission Control Protocol/Internet Protocol)
Infografia TCP/IP (Transmission Control Protocol/Internet Protocol)
 
Uso de las Tics en la vida cotidiana.pptx
Uso de las Tics en la vida cotidiana.pptxUso de las Tics en la vida cotidiana.pptx
Uso de las Tics en la vida cotidiana.pptx
 
Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)
Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)
Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)
 
Nuevos tiempos, nuevos espacios.docxdsdsad
Nuevos tiempos, nuevos espacios.docxdsdsadNuevos tiempos, nuevos espacios.docxdsdsad
Nuevos tiempos, nuevos espacios.docxdsdsad
 
Herramientas para los abogados, 3 herramientas
Herramientas para los abogados, 3 herramientasHerramientas para los abogados, 3 herramientas
Herramientas para los abogados, 3 herramientas
 
REVISTA TECNOLOGICA PARA EL DESARROLLO HUMANO
REVISTA TECNOLOGICA PARA EL DESARROLLO HUMANOREVISTA TECNOLOGICA PARA EL DESARROLLO HUMANO
REVISTA TECNOLOGICA PARA EL DESARROLLO HUMANO
 
Presentación Seguridad Digital Profesional Azul Oscuro (1).pdf
Presentación Seguridad Digital Profesional Azul Oscuro (1).pdfPresentación Seguridad Digital Profesional Azul Oscuro (1).pdf
Presentación Seguridad Digital Profesional Azul Oscuro (1).pdf
 
Flows: Mejores Prácticas y Nuevos Features
Flows: Mejores Prácticas y Nuevos FeaturesFlows: Mejores Prácticas y Nuevos Features
Flows: Mejores Prácticas y Nuevos Features
 
edublogs info.docx asdasfasfsawqrdqwfqwfqwfq
edublogs info.docx asdasfasfsawqrdqwfqwfqwfqedublogs info.docx asdasfasfsawqrdqwfqwfqwfq
edublogs info.docx asdasfasfsawqrdqwfqwfqwfq
 
La Inteligencia Artificial en la actualidad.docx
La Inteligencia Artificial en la actualidad.docxLa Inteligencia Artificial en la actualidad.docx
La Inteligencia Artificial en la actualidad.docx
 
Morado y Verde Animado Patrón Abstracto Proyecto de Grupo Presentación de Edu...
Morado y Verde Animado Patrón Abstracto Proyecto de Grupo Presentación de Edu...Morado y Verde Animado Patrón Abstracto Proyecto de Grupo Presentación de Edu...
Morado y Verde Animado Patrón Abstracto Proyecto de Grupo Presentación de Edu...
 
LA GLOBALIZACIÓN RELACIONADA CON EL USO DE HERRAMIENTAS.pptx
LA GLOBALIZACIÓN RELACIONADA CON EL USO DE HERRAMIENTAS.pptxLA GLOBALIZACIÓN RELACIONADA CON EL USO DE HERRAMIENTAS.pptx
LA GLOBALIZACIÓN RELACIONADA CON EL USO DE HERRAMIENTAS.pptx
 
INFORMATICA Y TECNOLOGIA
INFORMATICA Y TECNOLOGIAINFORMATICA Y TECNOLOGIA
INFORMATICA Y TECNOLOGIA
 
Inteligencia Artificial
Inteligencia ArtificialInteligencia Artificial
Inteligencia Artificial
 

Big Data - Infraestrucutra de BI para soluciones de BI

  • 1. Ing. Diego Robledo www.datalytics.com Big Data – Infraestructura de BI para BI
  • 2. Un punto de inflexión LOS DATOS SE 40 DUPLICAN CADA 2 AÑOS 80% 35 DE LA INFORMACIÓN ES NO 30 ESTRUCTURADA (Gartner, December 2011) 25 ZB 20 15 LAS EMPRESAS MANEJARÁN 10 50X MÁS DATOS 5 EN LA PRÓXIMA DÉCADA 2005 2010 2015 2020 (IDC Digital Universe Study, June 2011) 0 (IDC Digital Universe Study, June 2011) “El aumento exponencial en la cantidad de información disponible ha hecho que las empresas recurran a nuevas herramientas y procesos para recopilar datos (tanto estructurados como no estructurados) y para almacenar, administrar, manipular, analizar, e integrar datos. ” J|M|P Securities, Big Data and How BI Got Its Groove Back, Nov. 2011
  • 3. Qué es Big Data?  Big Data es el nombre que se le da a conjuntos de información que crecen de una manera tan exponencial que resulta prohibitivo almacenarlos y/o procesarlos con métodos o técnicas tradicionales del mundo de base de datos relacionales.  Big Data son tres V’s y una C:  Velocidad: los datos se generan a un ritmo exponencial.  Volumen: la irrupción de Big Data dejó en el pasado el Terabyte para hablar de Petabytes y Zetabytes.  Variedad: datos estructurados y no estructurados, proveniente de la web 2.0, sensores, logs, etc.  Complejidad: volumen de datos tal que no permite procesarlo con técnicas tradicionales
  • 4. De dónde viene?  Información transaccional  Operaciones bancarias  Servicios financieros, portales de bolsa  Tiendas virtuales / e-commerce  La nube  World Wide Web / Blogs  Redes sociales: Twitter, Facebook, LinkedIn  Machine-generated data (MGD)  Weblogs  Centrales telefónicas  Sensores de todo tipo  Logs de aplicaciones
  • 5. Dónde invierten las empresas en BI  Herramientas de Visualización / OLAP  MicroStrategy  SAP/Business Objects  Cognos  Pentaho  Herramientas de Integración  Pentaho Data Integration  IBM DataStage  Informática  Herramientas de Minería de Datos  Pero… qué hay del motor de base de datos a utilizar como Data Warehouse?
  • 6. DW: el corazón de toda solución de BI DW VSAM MQSeries AS/400 Pentaho, Oracle/Hyperion, Microstrategy, DB2 UDB SAS, Etc. Informix Oracle Extract Microsoft Transform ... Clean Siebel Load PeopleSoft DW Datastage ODS Data Mart SAP R/3 Informatica XML Oracle Oracle DI Pentaho DI IBM DB2 SAS DIS SQL Server Archivos Planos Etc. Teradata FTP Sybase IQ Etc. SAS, SPSS, Web Logs Rapid Miner
  • 7. Bases de Datos de Transaccionales  La mayoría de las empresas utilizan motores de bases datos tradicionales  IBM DB2, Oracle, MS SQL Server, PostgreSQL, MySQL, etc.  Todos muy buenos motores, pero todos transaccionales, diseñados y desarrollados para soportar transacciones y trabajar con pocos registros por operación.  Las soluciones de Business Intelligence en cambio involucran cientos de miles (e inclusive millones) de registros en una única operación, y deben responder en un tiempo adecuado.  Las bases de datos transaccionales no fueron diseñadas para responder a consultas analíticas sobre grandes volúmenes de información.  La irrupción de Big Data comienza a dejar en evidencia estas falencias, debiendo utilizar complejos índices, tablas agregadas, tablas particionadas, etc., aumentando el costo de desarrollo y mantenimiento, obteniendo tiempos
  • 8. Bases de Datos Analíticas  Pero existen en el mercado una variedad de bases de datos analíticas, diseñadas específicamente para ser utilizadas como motores de Data Warehouse:  Estas bases de datos logran procesar grandes volúmenes de información a velocidades asombrosas, gracias a la aplicación de diferentes conceptos y tecnologías:  Almacenamiento en columnas en lugar de filas (registros)  Massively parallel processing (MPP)  In-Memory Analytics  Históricamente estas bases de datos tan especializadas tenían un costo muy elevado, pero hoy el mercado nos ofrece varias alternativas que se adaptan al presupuesto de cada organización.
  • 9. Presentando a  Infobright es una compañía que desarrolla un motor de base de datos analítico orientada a columnas de alta performance que entrega rápidos tiempos de respuesta a consultas ad- hoc sobre grandes volúmenes de información (BIG DATA) con mínimo esfuerzo de administración, mantenimiento y costo de propiedad.  Fundada en 2006, Infobright tiene HQ en Toronto (Canadá) y cuenta con oficinas en Boston (USA), Irlanda y Polonia.  A diferencia de otras bases analíticas, la mejor performance de Infobright esta basada en modelos matemático, no en hardware.  Modelo de negocios “Try & Buy” basado en una versión Enterprise (Infobright Enterprise Edition, IEE) y una versión Open Source (Infobright Enterprise Edition, ICE).  Socio tecnológico de varias empresas de BI como MicroStrategy, Pentaho, Informática, etc.  Base de clientes en aumento, incluyendo empresas como Yahoo!, Xerox, Bwin, etc.
  • 10. Características de Infobright  Base de datos columnar orientada al análisis de información  Excelente performance:  Análisis ad-hoc de grandes volúmenes de información  Tiempos de carga de 2TB/hour  Tasas de compresión de 10:1 a 40:1 (o aún más)  Fácil administración e implementación:  Elimina la necesidad de mantener índices, tablas particionadas, tablas agregadas, etc  Auto-tunning: la base va “aprendiendo” de las consultas que recibe  Se instala en minutos, y no tiene grandes requisitos de HW  Basada en arquitectura MySQL (BD más utilizada en el mundo)  Es una base relacional, por lo que dialoga SQL  Modelo de suscripción Low Cost
  • 11. Y por qué resulta mejor para BI? Base de datos Potencia basada en Administración orientada a inteligencia, no en simplificada columnas Hardware Diseñada para No existe el Knowledge Grid análisis de datos tuning manual Tareas de Excelente tasa de Motor iterativo administración compresión mínimas
  • 12. Almacenamiento en columnas, no filas ID Tarea Departamento Ciudad 1 Envío Operaciones Medellín # 2 Recepción Operaciones Medellín # 3 Registración Finanzas Bogotá # # El almacenamiento en filas sirve si… # #  Todas las columnas son necesarias  Por ejemplo, el detalle de una compra de supermercado  Ideal para un mundo transaccional donde usualmente se necesita todo el detalle de una entidad Almacenamiento en Columnas El almacenamiento en columnas sirve si…  Sólo se requieren algunas columnas para el análisis 1 Envío Operaciones Medellín  Por ejemplo, el total vendido del producto X en cada una de las sucursales en los últimos 3 meses. 2 Recepción Operaciones Medellín  Información consolidada (sumas, cantidades, 3 Registración Finanzas Bogotá promedios, …)  Ideal para un mundo analítico, donde la información se concentra en métrica de distintas entidades
  • 13. Almacenamiento en filas vs. columnas 30 columnas Ejemplo de aplicación:  50 días con información; 30 columnas/variables por cada registro; un millón de registros por cada día  El acceso a disco es un problema  El almacenamiento en filas 50 millones de registros obliga a recuperar la información de todas las columnas  Al incrementarse el tamaño de la tabla, se incrementan los índices  La velocidad de carga se degrada dado que los índices deben recrearse al incorporarse nuevos datos
  • 14. Almacenamiento en filas vs. columnas 30 columnas Objetivo: obtener el total de ventas de una semana del año.  La consulta SQL sería algo como: Select sum(ventas) from tabla where semana = X 50 millones de registros Día de la semana Venta diaria
  • 15. Almacenamiento en filas vs. columnas 30 columnas Utilizando un esquema de almacenamiento en filas (esquema tradicional)  Se recorren 7 millones de registros (un millón por cada día)  Para acceder a un valor en 50 millones de registros particular (el valor de la Día de la semana venta) es necesario leer las Venta diaria 30 columnas, aún cuando Información recuperada para el cálculo no tengan información (210 millones de variables!) relevante.  Se procesan TODAS las columnas (210 millones, 30 x 7), y se DESCARTAN TODAS MENOS una.  Es decir se procesó un 93% más de información.
  • 16. Almacenamiento en columnas, no filas Utilizando un esquema de almacenamiento en columnas (esquema utilizado por Infobright)  Se recorren 7 millones de registros (un millón por cada día) 50 millones de registros  Se descartan 28 de las 30 Día de la semana Venta diaria columnas.  Se procesan sólo las 2 columnas necesarias: día y venta diaria.  Es decir, sólo se procesa la información necesaria.  La inteligencia está en la 93% menos de información forma de almacenamiento y recuperada! en el algoritmo usado para extraer los datos.
  • 17. Inteligencia, no hardware Al momento de cargar los • Almacena esta información en la Knowledge Grid datos, crea información • La KG está cargada en memoria (metadata) de los datos • Menos del 1% del tamaño de los datos automáticamente comprimidos Utiliza esta información al • Al disminuir los datos que deben accederse, procesar consultas para aumenta la tasa de respuesta eliminar/reducir acceso a • Respuestas por debajo del segundo cuando la datos información está contenida en la KG • No existe la necesidad de particionar los datos, Beneficios de la crear/mantener índices, hacer proyecciones o arquitectura tuning para mejorar la performance.
  • 18. Paquetes de Datos y Compresión Paquetes de Datos  Cada paquete contiene 65,536 valores de datos 64K  La compresión se realiza a nivel de paquete individual  El algoritmo de compresión cambia de acuerdo con el tipo de dato y su distribución. 64K Compresión  Los resultados dependen de la 64K distribución de datos en los paquetes  La media observada en diferentes implementaciones es 10:1 64K  En algunos casos se han detectado Algoritmos de compresiones mayores a 40:1 compresión  Por ejemplo, con una compresión 10:1, 1TB de datos requeriría solamente 100GB de almacenamiento
  • 19. Almacenamiento de los datos Datos Originales 1TB Datos comprimidos 100 GB Promedio de compresión 10:1 = + Knowledge Grid < 1 GB < 1% datos comprimidos
  • 20. Inteligencia, no hardware Respuesta Consulta Cual es el total de ventas de los últimos 3 meses? 1. Se recibe la consulta. 2. El motor itera sobre el Knowledge Grid 3. Cada iteración elimina Data Packs (necesidad de acceso a datos en disco) 4. Sólo se accede y descomprimen aquellos que son estrictamente necesarios Aparte de almacenar la información en columnas, se mejora la performance utilizando un acceso inteligente a los datos
  • 21. Consultas con Knowledge Grid salario edad cargo dpto Paquetes SELECT count(*) ignorados FROM Empleados Paquetes WHERE Salario> 100000 ignorados AND edad < 35 AND cargo = ‘DBA’ AND dpto = ‘ANT’; Paquetes ignorados Este paquete será descomprimido Irrelevante Candidato Todos los valores cumplen
  • 22. Benchmarks realizados Consulta Analítica Mobile Data Set de Consultas (15MM eventos) Alternativa Alternativa Alternativa +2 horas con <10 segundos 43 minutos con 23 segundos 10 seg. – 15 min. 0.43 – 22 MySQL SQL Server con Oracle segundos Reporte de BI Carga de datos Alternativa Alternativa 7 hrs en Informix 17 segundos 11 horas con 11 minutos MySQL ISAM