SlideShare una empresa de Scribd logo
1 de 28
Descargar para leer sin conexión
Base de Datos Analítica
Making sense of the Internet of Things.
Software Guru Virtual Conference
30 de abril de 2014
Landy Reyes
Edgar de los Santos
Agenda
- Antecedentes Base de Datos Analíticas
El internet de las Cosas
- BD Tradicionales vs BD Columnares
- Arquitectura
- Mejores Prácticas y Optimización
- Requerimientos de Software y Hardware
- Infopliance
- Demo
Agenda
- Antecedentes Base de Datos Analíticas
El internet de las Cosas
- BD Tradicionales vs BD Columnares
- Arquitectura
- Mejores Prácticas y Optimización
- Requerimientos de Software y Hardware
- Infopliance
- Demo
Antecedentes BD Analíticas
“The Internet of Things has the
potential to change the world, just
as the Internet did. Maybe even
more so”
Kevin Ashton
Antecedentes
Antecedentes BD Analíticas
Actualmente estamos rodeados de dispositivos que generan datos ...
¿?
Antecedentes
● Tag del coche
● Pago con tarjeta de crédito
● Llamadas de celular
● Búsquedas en internet
● Sensores de movimiento
● Sensores de temperatura
● Logs de maquinas
● Sportbands
Para hacer sentido de los datos necesitas una BD Analítica...
Antecedentes BD Analíticas
Antecedentes
● Es una base de datos analítica y
columnar
● Diseñada para analizar grandes
volúmenes de información
● Fácil de usar y administrar
Las bases de datos tradicionales ya no son suficientes para realizar análisis
sobre el Internet de las cosas.
Agenda
- Antecedentes Base de Datos Analíticas
El internet de las Cosas
- BD Tradicionales vs BD Columnares
- Arquitectura
- Mejores Prácticas y Optimización
- Requerimientos de Software y Hardware
- Infopliance
- Demo
BD Tradicionales vs BD Columnares
La diferencia entre una base de datos tradicional y una columnar es …
BD Tradicionales vs BD Columnares
Tradicional / OLTP
Guarda los valores de un
registro como una sola
entidad
COLUMNAR
Almacena los datos de un
registro en columnas
Consulta
● 50 días de datos
● 1 millón de registros por
día
Select Columna11,
Columna17
Where Columna17
sea la 3a semana
(día 15 – 21)
30 columnas
50
millones
registros
Si realizamos una consulta a una tabla con 50 millones de registros ...
BD Tradicionales vs BD Columnares
BD Tradicionales vs BD Columnares
Resultado
BD OLTP - Transaccional
● Elimina 43 días
● Recupera 7 millones de
registros
● Regresa 210millones de
datos
30 columnas
50
millones
registros
BD Tradicionales vs BD Columnares
BD Tradicionales vs BD Columnares
La base de datos transaccional genera el resultado
Resultado
BD Columnar
● Elimina 43 días
● Elimina 28 de las 30
columnas
● 14 millones de datos
recuperados: 93% menos
de datos
30 columnas
50
millones
registros
La base de datos Columnar genera el resultado con 93% menos de datos
BD Tradicionales vs BD Columnares
BD Tradicionales vs BD Columnares
Agenda
- Antecedentes Base de Datos Analíticas
El internet de las Cosas
- BD Tradicionales vs BD Columnares
- Arquitectura
- Mejores Prácticas y Optimización
- Requerimientos de Software y Hardware
- Infopliance
- Demo
Distintivo de Infobright
Inteligencia, no Hardware, los principios de Infobright ...
Arquitectura
Paquetes de Datos y Compresión
Arquitectura
La inteligencia de infobright inicia en la carga y organización de los datos ...
Generación de Paquetes
Matriz y Nodos de Conocimiento
Matriz de Conocimiento
Knowledge Grid
Información acerca de los datos
Nodos de Conocimiento
Knowledge Nodes
Construido para cada paquete (64 kB)
Esta capa de metadata = 1% del volumen total después de la compresión
Construido durante
la carga
Construido por consulta
(Agg, joins)
Arquitectura
La inteligencia de infobright continúa con la generación del conocimiento ...
Motor Granular
1. Se recibe una consulta
2. El motor pregunta iterativamente al Knowledge Grid
3. Con cada iteración se eliminan Data Packs
4. Solo los Data Packs necesarios son descomprimidos
ResultadoConsulta
¿Cómo están mis ventas este año?
Arquitectura
Para responder una consulta, Infobright utiliza su motor granular alimentado de
la matriz de conocimiento:
Motor Granular - Ejemplo
Solución de consulta usando la matriz de Conocimiento
SELECT count(*)
FROM employees
WHERE salary > 50,000
AND age < 35
AND job = ‘Accounting’
AND city =’TORONTO’;
Irrelevante
Todos los paquetes
descartados
Todos los paquetes
descartados
Todos los paquetes
descartados
Solo este paquete
será descomprimido
Sospechoso
Relevante
Arquitectura
Cargadores
Infobright Loader
● Cargador rápido.
● Manejo simple de errores
● Estricto format de datos.
● Soporta archivos delimitados y
binarios
MySQL Loader
● Más lento que Infobright loader.
● Mejor manejo de errores.
● Amplio soporte a archivos de
texto, inclusive de tamaño
delimitado.
INSERT
● Soportado por todas las
herramientas de ETL.
● Puede ser muy lento
dependiendo del bloque de datos
a insertar.
Distributed Load Processor (DLP)
● Add-ON a Infobright Enterprise
● Procesos de carga remota
● Permite escalabilidad al correr en
múltiples DLP concurrentemente
● Conectividad on clusters de
Hadoop
Arquitectura
Infobright + MySQL
Infobright esta construido dentro de la arquitectura de MySQL
Arquitectura
Agenda
- Antecedentes Base de Datos Analíticas
El internet de las Cosas
- BD Tradicionales vs BD Columnares
- Arquitectura
- Mejores Prácticas y Optimización
- Requerimientos de Software y Hardware
- Infopliance
- Demo
Optimizador de Consultas
Tipos de Datos
Enteros, mejor rendimiento para:
Uniones (joins)
Llaves sustitutas (surrogate keys)
Opción ‘lookup’ para búsquedas
Caracteres, mejores prácticas:
Sub-selects con llaves sustitutas
Columnas Checksum para cadenas
largas
Mejores Prácticas y Optimización
Recomendaciones aprovechar al máximo el potencial de la base de datos
Construcción de Consultas
Para que la respuesta en las consultas en Infobright incrementen su
rendimiento, solo hay que cambiar la lógica de los cruces en tablas...
Mejores Prácticas y Optimización
Agenda
- Antecedentes Base de Datos Analíticas
El internet de las Cosas
- BD Tradicionales vs BD Columnares
- Arquitectura
- Mejores Prácticas y Optimización
- Requerimientos de Software y Hardware
- Infopliance
- Demo
Plataformas y Recursos
Plataformas Soportadas - 64 bits
● Windows Server 2003, 2008
● Solaris 10
● Red Hat Enterprise Linux 5.4, 6.2
● Debian 6
● CentOS 5.4, 6.2
● Novell SUSE Linux Enterprise 10
● Novell SUSE Linux Enterprise 11
Recursos Necesarios
Procesador:
● 2.0 GHz o mayor
● Dual o quad core
CPU y Memoria
● Depende de los requerimientos de rendimiento
● Recomendación:
● 1 core y 2GB of memoria para consultas simples
● 2 cores y 4 GB of memoria para consultas
complejas
● El cargador es es extra
Requerimientos de Software y Hardware
Agenda
- Antecedentes Base de Datos Analíticas
El internet de las Cosas
- BD Tradicionales vs BD Columnares
- Arquitectura
- Mejores Prácticas y Optimización
- Requerimientos de Software y Hardware
- Infopliance
- Demo
Infopliance
Hardware
● Commodity Hardware
● Plug & Play
Software
● Infopliance Manager
● Infopliance Analytics Data Enginer
● Infopliance Data Processors
Appliance de propósito específico con hardware y software integrado para
volúmenes mayores a 10 TB
Infopliance
Agenda
- Antecedentes Base de Datos Analíticas
El internet de las Cosas
- BD Tradicionales vs BD Columnares
- Arquitectura
- Mejores Prácticas y Optimización
- Requerimientos de Software y Hardware
- Infopliance
- Demo
Demo
Demo de una empresa retail con un año de historia y datos pos enriquecidos
por la geografía
● Modelo Normal (Estrella)
○ Tablas Ventas con 1.3 billones de registros
○ Tabla Clientes (Consumo y Pymes) con 3.2 millones registros
○ Catálogo de Geografía
○ Creación de tablas: DDL
○ Motor de Infobright
○ Optimización para búsquedas por columnas de texto
○ Compresión de datos
● Modelo Optimizado para Infobright
○ Tabla plana con Ventas + Clientes + Geografía 1.3 billones registros
○ Compresión de datos
● Consultas
Demo

Más contenido relacionado

La actualidad más candente

Mejores prácticas para SQL Server en ambientes virtualizados
Mejores prácticas para SQL Server en ambientes virtualizadosMejores prácticas para SQL Server en ambientes virtualizados
Mejores prácticas para SQL Server en ambientes virtualizadosSpanishPASSVC
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
In-Memory OLTP en SQL Server 2016
In-Memory OLTP en SQL Server 2016In-Memory OLTP en SQL Server 2016
In-Memory OLTP en SQL Server 2016Joseph Lopez
 
Introduccion a SQL Server 2016 Stretch Databases
Introduccion a SQL Server 2016 Stretch DatabasesIntroduccion a SQL Server 2016 Stretch Databases
Introduccion a SQL Server 2016 Stretch DatabasesEduardo Castro
 
Novedades en el manejo de Grandes volúmenes de datos con SQL Server 2014
Novedades en el manejo de Grandes volúmenes de datos con SQL Server 2014Novedades en el manejo de Grandes volúmenes de datos con SQL Server 2014
Novedades en el manejo de Grandes volúmenes de datos con SQL Server 2014Enrique Puig
 
Ciclo webinars avanttic - Actualiza tu base de datos Oracle (3/3) "Conducción...
Ciclo webinars avanttic - Actualiza tu base de datos Oracle (3/3) "Conducción...Ciclo webinars avanttic - Actualiza tu base de datos Oracle (3/3) "Conducción...
Ciclo webinars avanttic - Actualiza tu base de datos Oracle (3/3) "Conducción...avanttic Consultoría Tecnológica
 
Novedades de SQL Server 2014 en motor relacional
Novedades de SQL Server 2014 en motor relacionalNovedades de SQL Server 2014 en motor relacional
Novedades de SQL Server 2014 en motor relacionalEnrique Catala Bañuls
 
Introducción a Voldemort - Innova4j
Introducción a Voldemort - Innova4jIntroducción a Voldemort - Innova4j
Introducción a Voldemort - Innova4jInnova4j
 
Planeando e implementando servicios de datos con Microsoft Azure
Planeando e implementando servicios de datos con Microsoft AzurePlaneando e implementando servicios de datos con Microsoft Azure
Planeando e implementando servicios de datos con Microsoft AzureSpanishPASSVC
 
Big table por Matias tesoriero
Big table por Matias tesorieroBig table por Matias tesoriero
Big table por Matias tesorieromtesoriero
 
Consideraciones de sql server hardware
Consideraciones de sql server hardwareConsideraciones de sql server hardware
Consideraciones de sql server hardwareEduardo Castro
 
SQL Server 2016 Tablas en Memoria
SQL Server 2016 Tablas en MemoriaSQL Server 2016 Tablas en Memoria
SQL Server 2016 Tablas en MemoriaEduardo Castro
 
SQL Server 2014 Nuevas Capacidades
SQL Server 2014  Nuevas CapacidadesSQL Server 2014  Nuevas Capacidades
SQL Server 2014 Nuevas CapacidadesEduardo Castro
 
Introducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseIntroducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseJoseph Lopez
 
MS SQL Server 2014 - In-Memory OLTP
MS SQL Server 2014 - In-Memory OLTPMS SQL Server 2014 - In-Memory OLTP
MS SQL Server 2014 - In-Memory OLTPJoseph Lopez
 
Escalabilidad Analysis Services 2012
Escalabilidad Analysis Services 2012Escalabilidad Analysis Services 2012
Escalabilidad Analysis Services 2012Eduardo Castro
 
Método SQL para comprimir archivos de carga de datos
Método SQL para comprimir archivos de carga de datosMétodo SQL para comprimir archivos de carga de datos
Método SQL para comprimir archivos de carga de datosSebastian Rodriguez Robotham
 
Introduccion a las Bodegas de Datos
Introduccion a las Bodegas de DatosIntroduccion a las Bodegas de Datos
Introduccion a las Bodegas de DatosJoseph Lopez
 
SQL Server 2014 infraestructura hibrida y nube
SQL Server 2014 infraestructura hibrida y nubeSQL Server 2014 infraestructura hibrida y nube
SQL Server 2014 infraestructura hibrida y nubeEduardo Castro
 

La actualidad más candente (20)

Mejores prácticas para SQL Server en ambientes virtualizados
Mejores prácticas para SQL Server en ambientes virtualizadosMejores prácticas para SQL Server en ambientes virtualizados
Mejores prácticas para SQL Server en ambientes virtualizados
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
In-Memory OLTP en SQL Server 2016
In-Memory OLTP en SQL Server 2016In-Memory OLTP en SQL Server 2016
In-Memory OLTP en SQL Server 2016
 
Introduccion a SQL Server 2016 Stretch Databases
Introduccion a SQL Server 2016 Stretch DatabasesIntroduccion a SQL Server 2016 Stretch Databases
Introduccion a SQL Server 2016 Stretch Databases
 
Novedades en el manejo de Grandes volúmenes de datos con SQL Server 2014
Novedades en el manejo de Grandes volúmenes de datos con SQL Server 2014Novedades en el manejo de Grandes volúmenes de datos con SQL Server 2014
Novedades en el manejo de Grandes volúmenes de datos con SQL Server 2014
 
Introducción a Apache HBase
Introducción a Apache HBaseIntroducción a Apache HBase
Introducción a Apache HBase
 
Ciclo webinars avanttic - Actualiza tu base de datos Oracle (3/3) "Conducción...
Ciclo webinars avanttic - Actualiza tu base de datos Oracle (3/3) "Conducción...Ciclo webinars avanttic - Actualiza tu base de datos Oracle (3/3) "Conducción...
Ciclo webinars avanttic - Actualiza tu base de datos Oracle (3/3) "Conducción...
 
Novedades de SQL Server 2014 en motor relacional
Novedades de SQL Server 2014 en motor relacionalNovedades de SQL Server 2014 en motor relacional
Novedades de SQL Server 2014 en motor relacional
 
Introducción a Voldemort - Innova4j
Introducción a Voldemort - Innova4jIntroducción a Voldemort - Innova4j
Introducción a Voldemort - Innova4j
 
Planeando e implementando servicios de datos con Microsoft Azure
Planeando e implementando servicios de datos con Microsoft AzurePlaneando e implementando servicios de datos con Microsoft Azure
Planeando e implementando servicios de datos con Microsoft Azure
 
Big table por Matias tesoriero
Big table por Matias tesorieroBig table por Matias tesoriero
Big table por Matias tesoriero
 
Consideraciones de sql server hardware
Consideraciones de sql server hardwareConsideraciones de sql server hardware
Consideraciones de sql server hardware
 
SQL Server 2016 Tablas en Memoria
SQL Server 2016 Tablas en MemoriaSQL Server 2016 Tablas en Memoria
SQL Server 2016 Tablas en Memoria
 
SQL Server 2014 Nuevas Capacidades
SQL Server 2014  Nuevas CapacidadesSQL Server 2014  Nuevas Capacidades
SQL Server 2014 Nuevas Capacidades
 
Introducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data WarehouseIntroducción a Microsoft Azure SQL Data Warehouse
Introducción a Microsoft Azure SQL Data Warehouse
 
MS SQL Server 2014 - In-Memory OLTP
MS SQL Server 2014 - In-Memory OLTPMS SQL Server 2014 - In-Memory OLTP
MS SQL Server 2014 - In-Memory OLTP
 
Escalabilidad Analysis Services 2012
Escalabilidad Analysis Services 2012Escalabilidad Analysis Services 2012
Escalabilidad Analysis Services 2012
 
Método SQL para comprimir archivos de carga de datos
Método SQL para comprimir archivos de carga de datosMétodo SQL para comprimir archivos de carga de datos
Método SQL para comprimir archivos de carga de datos
 
Introduccion a las Bodegas de Datos
Introduccion a las Bodegas de DatosIntroduccion a las Bodegas de Datos
Introduccion a las Bodegas de Datos
 
SQL Server 2014 infraestructura hibrida y nube
SQL Server 2014 infraestructura hibrida y nubeSQL Server 2014 infraestructura hibrida y nube
SQL Server 2014 infraestructura hibrida y nube
 

Similar a 13 14 keynote dando sentido al internet de las cosas, infobright

Optimización de motores sql server 24 horas SQL Pass
Optimización de motores sql server 24 horas SQL PassOptimización de motores sql server 24 horas SQL Pass
Optimización de motores sql server 24 horas SQL PassJulián Castiblanco
 
24 HOP edición Español - Optimizacion de motores sql server desde el codigo h...
24 HOP edición Español - Optimizacion de motores sql server desde el codigo h...24 HOP edición Español - Optimizacion de motores sql server desde el codigo h...
24 HOP edición Español - Optimizacion de motores sql server desde el codigo h...SpanishPASSVC
 
Evolución hacia las plataformas de datos modernas, el Edge-to-cloud continuum
Evolución hacia las plataformas de datos modernas, el Edge-to-cloud continuumEvolución hacia las plataformas de datos modernas, el Edge-to-cloud continuum
Evolución hacia las plataformas de datos modernas, el Edge-to-cloud continuumAngel Conde Manjon
 
Microsoft Azure Data Environment
Microsoft Azure Data EnvironmentMicrosoft Azure Data Environment
Microsoft Azure Data EnvironmentJoseph Lopez
 
Demostración: ¿Cómo acelera la plataforma Denodo su tiempo para obtener infor...
Demostración: ¿Cómo acelera la plataforma Denodo su tiempo para obtener infor...Demostración: ¿Cómo acelera la plataforma Denodo su tiempo para obtener infor...
Demostración: ¿Cómo acelera la plataforma Denodo su tiempo para obtener infor...Denodo
 
Pablo Doval | Plain Concepts | Open Data
Pablo Doval | Plain Concepts | Open DataPablo Doval | Plain Concepts | Open Data
Pablo Doval | Plain Concepts | Open DataSmash Tech
 
Evolucion de big data @ mercadolibre.com
Evolucion de big data @ mercadolibre.comEvolucion de big data @ mercadolibre.com
Evolucion de big data @ mercadolibre.comGabriel Eisbruch
 
Ibm power 822 lc high performance computing
Ibm power 822 lc high performance computingIbm power 822 lc high performance computing
Ibm power 822 lc high performance computingDiego Rodriguez
 
Ibm power 822 lc high performance computing
Ibm power 822 lc high performance computingIbm power 822 lc high performance computing
Ibm power 822 lc high performance computingDiego Rodriguez
 
Azure Realtime analytics: Análisis de datos en tiempo real
Azure Realtime analytics: Análisis de datos en tiempo realAzure Realtime analytics: Análisis de datos en tiempo real
Azure Realtime analytics: Análisis de datos en tiempo realSoftware Guru
 
Cómo nos va a ayudar la tecnología de in memory en sql server 2014 para desem...
Cómo nos va a ayudar la tecnología de in memory en sql server 2014 para desem...Cómo nos va a ayudar la tecnología de in memory en sql server 2014 para desem...
Cómo nos va a ayudar la tecnología de in memory en sql server 2014 para desem...SpanishPASSVC
 
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Denodo
 
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...Software Guru
 
SQL Server 2014 y La Plataforma de Datos
SQL Server 2014 y La Plataforma de DatosSQL Server 2014 y La Plataforma de Datos
SQL Server 2014 y La Plataforma de DatosJoseph Lopez
 
Sql server 2014 y la plataforma de datos
Sql server 2014 y la plataforma de datosSql server 2014 y la plataforma de datos
Sql server 2014 y la plataforma de datosSpanishPASSVC
 
Polybase y su uso en la integración de almacenes de datos
Polybase y su uso en la integración de almacenes de datosPolybase y su uso en la integración de almacenes de datos
Polybase y su uso en la integración de almacenes de datosSpanishPASSVC
 
2016 ULL Cabildo KEEDIO - IT y BANCA
2016 ULL Cabildo KEEDIO - IT y BANCA2016 ULL Cabildo KEEDIO - IT y BANCA
2016 ULL Cabildo KEEDIO - IT y BANCAKEEDIO
 

Similar a 13 14 keynote dando sentido al internet de las cosas, infobright (20)

Optimización de motores sql server 24 horas SQL Pass
Optimización de motores sql server 24 horas SQL PassOptimización de motores sql server 24 horas SQL Pass
Optimización de motores sql server 24 horas SQL Pass
 
24 HOP edición Español - Optimizacion de motores sql server desde el codigo h...
24 HOP edición Español - Optimizacion de motores sql server desde el codigo h...24 HOP edición Español - Optimizacion de motores sql server desde el codigo h...
24 HOP edición Español - Optimizacion de motores sql server desde el codigo h...
 
avanttic - webinar: Oracle Database 12c (24-03-2015)
avanttic - webinar: Oracle Database 12c (24-03-2015)avanttic - webinar: Oracle Database 12c (24-03-2015)
avanttic - webinar: Oracle Database 12c (24-03-2015)
 
Evolución hacia las plataformas de datos modernas, el Edge-to-cloud continuum
Evolución hacia las plataformas de datos modernas, el Edge-to-cloud continuumEvolución hacia las plataformas de datos modernas, el Edge-to-cloud continuum
Evolución hacia las plataformas de datos modernas, el Edge-to-cloud continuum
 
Microsoft Azure Data Environment
Microsoft Azure Data EnvironmentMicrosoft Azure Data Environment
Microsoft Azure Data Environment
 
Ibm Power System S812 LC
Ibm Power System S812 LCIbm Power System S812 LC
Ibm Power System S812 LC
 
Demostración: ¿Cómo acelera la plataforma Denodo su tiempo para obtener infor...
Demostración: ¿Cómo acelera la plataforma Denodo su tiempo para obtener infor...Demostración: ¿Cómo acelera la plataforma Denodo su tiempo para obtener infor...
Demostración: ¿Cómo acelera la plataforma Denodo su tiempo para obtener infor...
 
Pablo Doval | Plain Concepts | Open Data
Pablo Doval | Plain Concepts | Open DataPablo Doval | Plain Concepts | Open Data
Pablo Doval | Plain Concepts | Open Data
 
Evolucion de big data @ mercadolibre.com
Evolucion de big data @ mercadolibre.comEvolucion de big data @ mercadolibre.com
Evolucion de big data @ mercadolibre.com
 
Ibm power 822 lc high performance computing
Ibm power 822 lc high performance computingIbm power 822 lc high performance computing
Ibm power 822 lc high performance computing
 
Ibm power 822 lc high performance computing
Ibm power 822 lc high performance computingIbm power 822 lc high performance computing
Ibm power 822 lc high performance computing
 
Azure Realtime analytics: Análisis de datos en tiempo real
Azure Realtime analytics: Análisis de datos en tiempo realAzure Realtime analytics: Análisis de datos en tiempo real
Azure Realtime analytics: Análisis de datos en tiempo real
 
Cómo nos va a ayudar la tecnología de in memory en sql server 2014 para desem...
Cómo nos va a ayudar la tecnología de in memory en sql server 2014 para desem...Cómo nos va a ayudar la tecnología de in memory en sql server 2014 para desem...
Cómo nos va a ayudar la tecnología de in memory en sql server 2014 para desem...
 
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
 
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
 
SQL Server 2014 y La Plataforma de Datos
SQL Server 2014 y La Plataforma de DatosSQL Server 2014 y La Plataforma de Datos
SQL Server 2014 y La Plataforma de Datos
 
Sql server 2014 y la plataforma de datos
Sql server 2014 y la plataforma de datosSql server 2014 y la plataforma de datos
Sql server 2014 y la plataforma de datos
 
Oracle GG presentacion
Oracle GG presentacionOracle GG presentacion
Oracle GG presentacion
 
Polybase y su uso en la integración de almacenes de datos
Polybase y su uso en la integración de almacenes de datosPolybase y su uso en la integración de almacenes de datos
Polybase y su uso en la integración de almacenes de datos
 
2016 ULL Cabildo KEEDIO - IT y BANCA
2016 ULL Cabildo KEEDIO - IT y BANCA2016 ULL Cabildo KEEDIO - IT y BANCA
2016 ULL Cabildo KEEDIO - IT y BANCA
 

Más de Software Guru

Hola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasHola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasSoftware Guru
 
Estructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesEstructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesSoftware Guru
 
Building bias-aware environments
Building bias-aware environmentsBuilding bias-aware environments
Building bias-aware environmentsSoftware Guru
 
El secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorEl secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorSoftware Guru
 
Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealSoftware Guru
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowSoftware Guru
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:Software Guru
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learningSoftware Guru
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDiSoftware Guru
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Software Guru
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSSoftware Guru
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...Software Guru
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?Software Guru
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Software Guru
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsSoftware Guru
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosSoftware Guru
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressSoftware Guru
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsSoftware Guru
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Software Guru
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoSoftware Guru
 

Más de Software Guru (20)

Hola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasHola Mundo del Internet de las Cosas
Hola Mundo del Internet de las Cosas
 
Estructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesEstructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso reales
 
Building bias-aware environments
Building bias-aware environmentsBuilding bias-aware environments
Building bias-aware environments
 
El secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorEl secreto para ser un desarrollador Senior
El secreto para ser un desarrollador Senior
 
Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto ideal
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache Airflow
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learning
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDi
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJS
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOps
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stress
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goals
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseño
 

13 14 keynote dando sentido al internet de las cosas, infobright

  • 1. Base de Datos Analítica Making sense of the Internet of Things. Software Guru Virtual Conference 30 de abril de 2014 Landy Reyes Edgar de los Santos
  • 2. Agenda - Antecedentes Base de Datos Analíticas El internet de las Cosas - BD Tradicionales vs BD Columnares - Arquitectura - Mejores Prácticas y Optimización - Requerimientos de Software y Hardware - Infopliance - Demo
  • 3. Agenda - Antecedentes Base de Datos Analíticas El internet de las Cosas - BD Tradicionales vs BD Columnares - Arquitectura - Mejores Prácticas y Optimización - Requerimientos de Software y Hardware - Infopliance - Demo
  • 4. Antecedentes BD Analíticas “The Internet of Things has the potential to change the world, just as the Internet did. Maybe even more so” Kevin Ashton Antecedentes
  • 5. Antecedentes BD Analíticas Actualmente estamos rodeados de dispositivos que generan datos ... ¿? Antecedentes ● Tag del coche ● Pago con tarjeta de crédito ● Llamadas de celular ● Búsquedas en internet ● Sensores de movimiento ● Sensores de temperatura ● Logs de maquinas ● Sportbands
  • 6. Para hacer sentido de los datos necesitas una BD Analítica... Antecedentes BD Analíticas Antecedentes ● Es una base de datos analítica y columnar ● Diseñada para analizar grandes volúmenes de información ● Fácil de usar y administrar Las bases de datos tradicionales ya no son suficientes para realizar análisis sobre el Internet de las cosas.
  • 7. Agenda - Antecedentes Base de Datos Analíticas El internet de las Cosas - BD Tradicionales vs BD Columnares - Arquitectura - Mejores Prácticas y Optimización - Requerimientos de Software y Hardware - Infopliance - Demo
  • 8. BD Tradicionales vs BD Columnares La diferencia entre una base de datos tradicional y una columnar es … BD Tradicionales vs BD Columnares Tradicional / OLTP Guarda los valores de un registro como una sola entidad COLUMNAR Almacena los datos de un registro en columnas
  • 9. Consulta ● 50 días de datos ● 1 millón de registros por día Select Columna11, Columna17 Where Columna17 sea la 3a semana (día 15 – 21) 30 columnas 50 millones registros Si realizamos una consulta a una tabla con 50 millones de registros ... BD Tradicionales vs BD Columnares BD Tradicionales vs BD Columnares
  • 10. Resultado BD OLTP - Transaccional ● Elimina 43 días ● Recupera 7 millones de registros ● Regresa 210millones de datos 30 columnas 50 millones registros BD Tradicionales vs BD Columnares BD Tradicionales vs BD Columnares La base de datos transaccional genera el resultado
  • 11. Resultado BD Columnar ● Elimina 43 días ● Elimina 28 de las 30 columnas ● 14 millones de datos recuperados: 93% menos de datos 30 columnas 50 millones registros La base de datos Columnar genera el resultado con 93% menos de datos BD Tradicionales vs BD Columnares BD Tradicionales vs BD Columnares
  • 12. Agenda - Antecedentes Base de Datos Analíticas El internet de las Cosas - BD Tradicionales vs BD Columnares - Arquitectura - Mejores Prácticas y Optimización - Requerimientos de Software y Hardware - Infopliance - Demo
  • 13. Distintivo de Infobright Inteligencia, no Hardware, los principios de Infobright ... Arquitectura
  • 14. Paquetes de Datos y Compresión Arquitectura La inteligencia de infobright inicia en la carga y organización de los datos ... Generación de Paquetes
  • 15. Matriz y Nodos de Conocimiento Matriz de Conocimiento Knowledge Grid Información acerca de los datos Nodos de Conocimiento Knowledge Nodes Construido para cada paquete (64 kB) Esta capa de metadata = 1% del volumen total después de la compresión Construido durante la carga Construido por consulta (Agg, joins) Arquitectura La inteligencia de infobright continúa con la generación del conocimiento ...
  • 16. Motor Granular 1. Se recibe una consulta 2. El motor pregunta iterativamente al Knowledge Grid 3. Con cada iteración se eliminan Data Packs 4. Solo los Data Packs necesarios son descomprimidos ResultadoConsulta ¿Cómo están mis ventas este año? Arquitectura Para responder una consulta, Infobright utiliza su motor granular alimentado de la matriz de conocimiento:
  • 17. Motor Granular - Ejemplo Solución de consulta usando la matriz de Conocimiento SELECT count(*) FROM employees WHERE salary > 50,000 AND age < 35 AND job = ‘Accounting’ AND city =’TORONTO’; Irrelevante Todos los paquetes descartados Todos los paquetes descartados Todos los paquetes descartados Solo este paquete será descomprimido Sospechoso Relevante Arquitectura
  • 18. Cargadores Infobright Loader ● Cargador rápido. ● Manejo simple de errores ● Estricto format de datos. ● Soporta archivos delimitados y binarios MySQL Loader ● Más lento que Infobright loader. ● Mejor manejo de errores. ● Amplio soporte a archivos de texto, inclusive de tamaño delimitado. INSERT ● Soportado por todas las herramientas de ETL. ● Puede ser muy lento dependiendo del bloque de datos a insertar. Distributed Load Processor (DLP) ● Add-ON a Infobright Enterprise ● Procesos de carga remota ● Permite escalabilidad al correr en múltiples DLP concurrentemente ● Conectividad on clusters de Hadoop Arquitectura
  • 19. Infobright + MySQL Infobright esta construido dentro de la arquitectura de MySQL Arquitectura
  • 20. Agenda - Antecedentes Base de Datos Analíticas El internet de las Cosas - BD Tradicionales vs BD Columnares - Arquitectura - Mejores Prácticas y Optimización - Requerimientos de Software y Hardware - Infopliance - Demo
  • 21. Optimizador de Consultas Tipos de Datos Enteros, mejor rendimiento para: Uniones (joins) Llaves sustitutas (surrogate keys) Opción ‘lookup’ para búsquedas Caracteres, mejores prácticas: Sub-selects con llaves sustitutas Columnas Checksum para cadenas largas Mejores Prácticas y Optimización Recomendaciones aprovechar al máximo el potencial de la base de datos
  • 22. Construcción de Consultas Para que la respuesta en las consultas en Infobright incrementen su rendimiento, solo hay que cambiar la lógica de los cruces en tablas... Mejores Prácticas y Optimización
  • 23. Agenda - Antecedentes Base de Datos Analíticas El internet de las Cosas - BD Tradicionales vs BD Columnares - Arquitectura - Mejores Prácticas y Optimización - Requerimientos de Software y Hardware - Infopliance - Demo
  • 24. Plataformas y Recursos Plataformas Soportadas - 64 bits ● Windows Server 2003, 2008 ● Solaris 10 ● Red Hat Enterprise Linux 5.4, 6.2 ● Debian 6 ● CentOS 5.4, 6.2 ● Novell SUSE Linux Enterprise 10 ● Novell SUSE Linux Enterprise 11 Recursos Necesarios Procesador: ● 2.0 GHz o mayor ● Dual o quad core CPU y Memoria ● Depende de los requerimientos de rendimiento ● Recomendación: ● 1 core y 2GB of memoria para consultas simples ● 2 cores y 4 GB of memoria para consultas complejas ● El cargador es es extra Requerimientos de Software y Hardware
  • 25. Agenda - Antecedentes Base de Datos Analíticas El internet de las Cosas - BD Tradicionales vs BD Columnares - Arquitectura - Mejores Prácticas y Optimización - Requerimientos de Software y Hardware - Infopliance - Demo
  • 26. Infopliance Hardware ● Commodity Hardware ● Plug & Play Software ● Infopliance Manager ● Infopliance Analytics Data Enginer ● Infopliance Data Processors Appliance de propósito específico con hardware y software integrado para volúmenes mayores a 10 TB Infopliance
  • 27. Agenda - Antecedentes Base de Datos Analíticas El internet de las Cosas - BD Tradicionales vs BD Columnares - Arquitectura - Mejores Prácticas y Optimización - Requerimientos de Software y Hardware - Infopliance - Demo
  • 28. Demo Demo de una empresa retail con un año de historia y datos pos enriquecidos por la geografía ● Modelo Normal (Estrella) ○ Tablas Ventas con 1.3 billones de registros ○ Tabla Clientes (Consumo y Pymes) con 3.2 millones registros ○ Catálogo de Geografía ○ Creación de tablas: DDL ○ Motor de Infobright ○ Optimización para búsquedas por columnas de texto ○ Compresión de datos ● Modelo Optimizado para Infobright ○ Tabla plana con Ventas + Clientes + Geografía 1.3 billones registros ○ Compresión de datos ● Consultas Demo