El documento presenta una introducción a Big Data e Infraestructura de BI. Explica que Big Data se refiere a grandes conjuntos de datos que crecen exponencialmente y son difíciles de procesar con métodos tradicionales. Luego describe las características clave de Infobright, un motor de base de datos analítico de alta performance diseñado específicamente para análisis de grandes volúmenes de datos. Infobright almacena los datos en columnas en lugar de filas y logra altas tasas de compresión, lo que permite proces
Presentación de Big Data Architecture & Integration con Pentaho, realizada por Datalytics con motivo del desayuno de trabajo realizado el 18 de Diciembre 2012.
En esta presentación se introducen los conceptos de Big Data, así como las soliciones de Horton Works sobre Windows y el Microsoft Analytics Platform System (PDW Paralled Data Warehouse)
Saludos,
Eduardo Castro, PhD
SQL Server MVP
Comunidad Windows Costa Rica
Estas slides fueron presentadas en el evento OpenBI Day, organizado por Inacap en octubre del año 2013.
El objetivo de esta presentación fue mostrar las distintas técnicas que existen para diseñar cubos eficientes en función del tiempo de respuesta de las consultas, facilidad de administración de los ambientes y nivel de dificultad en resolver problemas de negocios.
Presentación realizada por Datalytics con motivo del desayuno de trabajo realizado el 18 de Diciembre 2012, donse se hace un repaso de las novedades que ofreció Pentaho en el año en materia de visualización de datos.
Presentación de Big Data Architecture & Integration con Pentaho, realizada por Datalytics con motivo del desayuno de trabajo realizado el 18 de Diciembre 2012.
En esta presentación se introducen los conceptos de Big Data, así como las soliciones de Horton Works sobre Windows y el Microsoft Analytics Platform System (PDW Paralled Data Warehouse)
Saludos,
Eduardo Castro, PhD
SQL Server MVP
Comunidad Windows Costa Rica
Estas slides fueron presentadas en el evento OpenBI Day, organizado por Inacap en octubre del año 2013.
El objetivo de esta presentación fue mostrar las distintas técnicas que existen para diseñar cubos eficientes en función del tiempo de respuesta de las consultas, facilidad de administración de los ambientes y nivel de dificultad en resolver problemas de negocios.
Presentación realizada por Datalytics con motivo del desayuno de trabajo realizado el 18 de Diciembre 2012, donse se hace un repaso de las novedades que ofreció Pentaho en el año en materia de visualización de datos.
Big Data - Desarrollando soluciones efectivasJoseph Lopez
Como continuación a la presentación titulada "Introducción al mundo de las Bodegas de datos", esta presentación le explicará qué es Big Data y sus beneficios, incluyendo casos de uso. Así mismo, discutiremos cómo Hadoop, la nube y procesamiento masivamente paralelo (MPP) está cambiando la forma en los almacenes de datos se están construyendo. Hablaremos de arquitecturas híbridas que combinan datos in situ con datos en la nube, así como datos relacionales y no relacionales de datos (no estructurados). Veremos también los beneficios del MPP en SMP y cómo integrar datos desde dispositivos en la Internet (IoT). Aprenderemos también lo que debería verse como un almacén de datos moderno y cómo cuadra su papel de un mar de datos y Hadoop. Al finalizar esta exposición, tendremos una orientación sobre la mejor solución para el almacén de datos en el futuro.
En #BigData se siguen patrones conocidos en Data Mining para el tratamiento de los Datos. El problema surge cuando tenemos que tratar grandes volúmenes de datos y realizar cargas incrementales en nuevas tecnologías que son capaces de soportar dicha carga.
Big Data no es una moda ni algo que esté por venir. Gran parte de las organizaciones ya cuentan con bases de datos tan grandes que requieren usar herramientas especiales. Ésta presentación nos ayuda a dar el primer paso, a conocer que en realidad qué es y como funciona, así como a adentrarnos en este maravilloso mundo de los datos al por mayor.
Big Data - Desarrollando soluciones efectivasJoseph Lopez
Como continuación a la presentación titulada "Introducción al mundo de las Bodegas de datos", esta presentación le explicará qué es Big Data y sus beneficios, incluyendo casos de uso. Así mismo, discutiremos cómo Hadoop, la nube y procesamiento masivamente paralelo (MPP) está cambiando la forma en los almacenes de datos se están construyendo. Hablaremos de arquitecturas híbridas que combinan datos in situ con datos en la nube, así como datos relacionales y no relacionales de datos (no estructurados). Veremos también los beneficios del MPP en SMP y cómo integrar datos desde dispositivos en la Internet (IoT). Aprenderemos también lo que debería verse como un almacén de datos moderno y cómo cuadra su papel de un mar de datos y Hadoop. Al finalizar esta exposición, tendremos una orientación sobre la mejor solución para el almacén de datos en el futuro.
En #BigData se siguen patrones conocidos en Data Mining para el tratamiento de los Datos. El problema surge cuando tenemos que tratar grandes volúmenes de datos y realizar cargas incrementales en nuevas tecnologías que son capaces de soportar dicha carga.
Big Data no es una moda ni algo que esté por venir. Gran parte de las organizaciones ya cuentan con bases de datos tan grandes que requieren usar herramientas especiales. Ésta presentación nos ayuda a dar el primer paso, a conocer que en realidad qué es y como funciona, así como a adentrarnos en este maravilloso mundo de los datos al por mayor.
Jornada en enpresa digitala: Mitos y Realidades del Big DataUrko Zurutuza
Esta presentación es la que utilicé como ponente de Mondragon Unibertsitatea para introducir al público asistente a la jornada de "Mitos y Realidades del Big Data" de Enpresa Digitala en su nodo de Goiru (http://www.euskadinnova.net/es/enpresa-digitala/agenda/mitos-realidades-data/8956.aspx?utm_source=rss_feed&utm_medium=rss&utm_campaign=accesos_rss). Se trata de una presentación donde se explican qué es y qué no es Big Data, enfocando sobre todo en la parte de almacenamiento, infraestructura, y análisis de los datos.
Construyendo una Infraestructura de Big Data rentable y escalable (la evoluci...Socialmetrix
Socialmetrix lleva 6 años desarrollando soluciones para capturar, limpiar, organizar, procesar, almacenar y presentar información.
Los desafíos involucraron siempre seguir escalando en volumen de procesamiento y las funcionalidades a nuestros clientes.
Estas directivas nos llevaron hacia una búsqueda de soluciones innovadoras y tecnologías que nos permitan competir en un mercado global manteniendo la inversión y los costos bajo control.
Esta charla presenta las técnicas y tecnologías involucradas en el desarrollo de nuestros productos junto con los errores que cometimos y lecciones que aprendimos durante el desarrollo.
Monta una Infraestructura para Big Data en tu EmpresaUrko Zurutuza
Tercera y última sesión del curso "Monta una Infraestructura para Big Data en tu Empresa" impartida por Urko Zurutuza de Mondragon Unibertsitatea para Enpresa Digitala. En esta sesión se muestran ejercicios prácticos y guiados que darán pie a probar algunas de las herramientas que dispone la distribucion Hadoop Cloudera CDH5.
Monta una Infraestructura Big Data para tu Empresa - Sesión IIUrko Zurutuza
Segunda parte del Taller "Monta una Infraestructura Big Data para tu Empresa", impartido por Urko Zurutuza de Mondragon Unibertsitatea en Enpresa Digitala. En esta segunda parte, se aborda la instalación de un cluster mediante Cloudera Manager 5
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
Primera Sesión sobre el Curso de Enpresa Digitala "Monta una Infraestructura Big Data en tu Empresa", impartido por Urko Zurutuza de Mondragon Unibertsitatea. Hablaremos de Hadoop y de su ecosistema de herramientas.
La Transformación digital y cultural del BBVASilvia Dvorak
La transformación digital ha llegado a la Banca. Gigantes tecnológicos como Google, Amazon y Apple, nuevos formatos de dinero virtual como Bitcoin o antiguas soluciones de pago online como Paypal quieren su parte del inmenso pastel. Su estrategia: entrar como meros medios de transacción de pago para posteriormente ofrecer servicios financieros adicionales, que canibalizarían rápidamente los servicios electrónicos y analógicos de la banca tradicional. Philippe Gelis (fundador Kantox y ganador del premio BBVA OpenTalent) comenta en uno de los vídeos del propio Centro de Innovación del BBVA que “en una década el 90% de las sucursales habrán desaparecido. Y los bancos lo saben”(2).
El presidente del BBVA, Francisco González intuyó esta transformación hace tiempo y por ello apostó hace más de siete años por las nuevas tecnologías , liderando así la transformación digital de la Banca española.
Las iniciativas del BBVA han sido muy numerosas e incluyen desde la apertura de una oficina en Sillicon Valley, la compra de startups innovadoras, la apertura de centros de innovación hasta el traslado a una nueva sede muy “tecnificada”, la reorganización del Banco y la creación de una nueva Área de Banca Digital.
Este proceso se ha visto impulsado y consolidado por la renovación de su cúpula directiva (ahora denominada Executive Leadership Team), donde 6 de los 11 nuevos directivos proceden del área Digital así como por el nombramiento de Carlos Torres Vila, responsable hasta entonces del Área de Banca Digital, como Consejero Delegado del Banco.
En este Whitepaper independiente, he investigado diversas fuentes para poder realizar un cronograma de las principales iniciativas de transformación digital tomadas por el BBVA en el último decenio que he enmarcado dentro del Modelo de Gestión del cambio de Dave Ulrich (HR Champion) y John Kotter (Leading Change).
Integración de Datos sin límites con PentahoDatalytics
Presentación de Pentaho Data Integration dada durante el foro "Las Dimensiones del BI" en Medellín (COL), donde se presentó la problemática de la integración de datos en la actualidad (cada vez más información, fuentes más diversas, datos no estructurados, etc.), como muchas empresas aún hoy intentan resolver este problema con programación SQL o similar y como Pentaho Data Integration puede no solo resolver este problema de una manera muy ágil, si no también como puede utilizarse para comenzar a analizar la información y realizar tareas de Data Discovery y Data Visualization antes de la generación de cubos, reportes, etc.
En esta presentación encontrarás información importante sobre algunas características, beneficios y ventajas que ofrece Jaspersoft para tu empresa. Cómo:
- Generar documentos tipo facturas, cuentas de cobro, órdenes de entrega, estados de cuenta, entre otros de forma masiva mediante el uso de tecnología de contenedores y/o virtualización en la nube de forma rápida y a bajo costo.
- Entregar sus documentos impresos y/o en PDF o como contenido web totalmente interactivo. Los informes de TIBCO Jaspersoft se pueden publicar en formato PDF, XLS, XLSX, XML, HTML, PPT, CSV, DOC, RTF, ODT y JSON. Entre otras.
Para más información visita nuestra página web:
www.it-nova.co
Presentación "Aplicaciones de BI con Pentaho", dada por Datalytics en la segunda edición de las Jornadas de Minería de Datos organizadas por la cátedra de Sistemas de Gestión 2 de la UTN Regional Rosario
Cómo agilizar la integración de datos y el análisis de la información en el s...Denodo
En la siguiente presentación, realizada durante la celebración de Revolution Banking en Madrid el 11 de mayo de 2017, Ángel Viña, CEO de Denodo, explica las ventajas de la virtualización de datos, así como por qué esta tecnología es clave en el sector financiero y bancario.
Además, Viña repasa los casos de éxito más comunes de uso, entre los se encuentra proporcionar un entorno ágil de inteligencia de negocio, aplicaciones de vista única (de cliente, de producto, de inventario...), integración de big data y entornos cloud (data warehouse offloading, SaaS…), así como servicios de datos (abstracción lógica de datos, despliegue de una capa de servicios unificados de datos...).
La presentación también expone varios de los casos de éxito aplicados al sector financiero y de banca, como el de SeacoastBank, que mejora la eficiencia de sus procesos mediante el uso de un Logical Data Warehouse, Sumitomo Mitsui Trust Bank, que consiguió una visión unificada y virtual de 20 fuentes de datos distintas, o CIT, que posibilitó el cumplimiento normativo con una arquitectura ágil y moderna.
Por último enumera las distintas razones por las que adoptar la plataforma de virtualización de datos de Denodo, como su liderazgo en producto y ser el proveedor con foco más duradero en virtualización de datos y data services. Así lo atesoran los premios y reconocimientos concedidos por numerosas empresas independientes como Gartner, Forrester, Ventana Research o Computerworld, entre otras.
Big Data es la profesión de moda y empresas de todos los sectores buscan especialistas. La consultora McKinsey prevé una brecha en torno al 50% entre la demanda y la oferta de puestos de trabajo relacionados con Big Data para 2017-2018
Pero ¿qué hay detrás de este nuevo paradigma? La transformación digital en las empresas implica una inflación de datos que las organizaciones no saben cómo usar y gestionar. Es un campo muy amplio y se necesitan perfiles muy variados desconocidos hasta ahora en nuestra sociedad.
Ante esta demanda de profesionales especializados en las tecnologías de big data y business intelligence, la gran baza para muchos ingenieros que quieran lograr un trabajo interesante y bien remunerado es formarse en estas especialidades
Dentro del rompecabezas de Big Data podemos diferenciar entre las habilidades técnicas en torno a Hadoop, MapReduce y frameworks comerciales y las competencias relacionadas con la Ciencia de los Datos (Data Science), que son las más demandadas y difíciles de encontrar. Por tanto, estamos ante un periodo para decidir sobre qué tipo de cursos deberían ser diseñados con el objetivo de producir talento cualificado para alimentar la industria de Big Data. En este sentido CICE ofrece una carrera profesional con varias especializaciones y masteres que abarca una alta variedad de conceptos y herramientas tecnologícas que se ajustan al mercado laboral.
Business Intelligende& Big Data: Nuevos perfiles y oportunidades de empleo. P...CICE
Big Data es la profesión de moda y empresas de todos los sectores buscan especialistas. La consultora McKinsey prevé una brecha en torno al 50% entre la demanda y la oferta de puestos de trabajo relacionados con Big Data para 2017-2018
Pero ¿qué hay detrás de este nuevo paradigma? La transformación digital en las empresas implica una inflación de datos que las organizaciones no saben cómo usar y gestionar. Es un campo muy amplio y se necesitan perfiles muy variados desconocidos hasta ahora en nuestra sociedad.
Ante esta demanda de profesionales especializados en las tecnologías de big data y business intelligence, la gran baza para muchos ingenieros que quieran lograr un trabajo interesante y bien remunerado es formarse en estas especialidades
Dentro del rompecabezas de Big Data podemos diferenciar entre las habilidades técnicas en torno a Hadoop, MapReduce y frameworks comerciales y las competencias relacionadas con la Ciencia de los Datos (Data Science), que son las más demandadas y difíciles de encontrar. Por tanto, estamos ante un periodo para decidir sobre qué tipo de cursos deberían ser diseñados con el objetivo de producir talento cualificado para alimentar la industria de Big Data. En este sentido CICE ofrece una carrera profesional con varias especializaciones y masteres que abarca una alta variedad de conceptos y herramientas tecnológicas que se ajustan al mercado laboral.
http://www.sqlserversi.com - Visión general de los proyectos de Business Intelligence, basados en Microsoft SQL Server 2000, DTS y Analysis Services 2000.
uerona es un almacén de datos virtual de autoservicio que permite una transición instantánea a un motor de SQL alojado en nube como SQL Server Data Warehouse.
SQL Saturday Bogota - Big Data HDInsight ServerEduardo Castro
En esta presentación vemos los conceptos de Big Data y cómo podemos integrar las herramientas de BI de SQL Server 2012 con Hadoop y con HDInsigth Server y con PowerPivot.
Saludos
Ing. Eduardo Castro
Microsoft SQL Server MVP
Similar a Big Data - Infraestrucutra de BI para soluciones de BI (20)
Catalogo Buzones BTV Amado Salvador Distribuidor Oficial ValenciaAMADO SALVADOR
Descubra el catálogo completo de buzones BTV, una marca líder en la fabricación de buzones y cajas fuertes para los sectores de ferretería, bricolaje y seguridad. Como distribuidor oficial de BTV, Amado Salvador se enorgullece de presentar esta amplia selección de productos diseñados para satisfacer las necesidades de seguridad y funcionalidad en cualquier entorno.
Descubra una variedad de buzones residenciales, comerciales y corporativos, cada uno construido con los más altos estándares de calidad y durabilidad. Desde modelos clásicos hasta diseños modernos, los buzones BTV ofrecen una combinación perfecta de estilo y resistencia, garantizando la protección de su correspondencia en todo momento.
Amado Salvador, se compromete a ofrecer productos de primera clase respaldados por un servicio excepcional al cliente. Como distribuidor oficial de BTV, entendemos la importancia de la seguridad y la tranquilidad para nuestros clientes. Por eso, trabajamos en colaboración con BTV para brindarle acceso a los mejores productos del mercado.
Explore el catálogo de buzones ahora y encuentre la solución perfecta para sus necesidades de correo y seguridad. Confíe en Amado Salvador y BTV para proporcionarle buzones de calidad excepcional que cumplan y superen sus expectativas.
Catalogo Cajas Fuertes BTV Amado Salvador Distribuidor OficialAMADO SALVADOR
Explora el catálogo completo de cajas fuertes BTV, disponible a través de Amado Salvador, distribuidor oficial de BTV. Este catálogo presenta una amplia variedad de cajas fuertes, cada una diseñada con la más alta calidad para ofrecer la máxima seguridad y satisfacer las diversas necesidades de protección de nuestros clientes.
En Amado Salvador, como distribuidor oficial de BTV, ofrecemos productos que destacan por su innovación, durabilidad y robustez. Las cajas fuertes BTV son reconocidas por su eficiencia en la protección contra robos, incendios y otros riesgos, lo que las convierte en una opción ideal tanto para uso doméstico como comercial.
Amado Salvador, distribuidor oficial BTV, asegura que cada producto cumpla con los más estrictos estándares de calidad y seguridad. Al adquirir una caja fuerte a través de Amado Salvador, distribuidor oficial BTV, los clientes pueden tener la tranquilidad de que están obteniendo una solución confiable y duradera para la protección de sus pertenencias.
Este catálogo incluye detalles técnicos, características y opciones de personalización de cada modelo de caja fuerte BTV. Desde cajas fuertes empotrables hasta modelos de alta seguridad, Amado Salvador, como distribuidor oficial de BTV, tiene la solución perfecta para cualquier necesidad de seguridad. No pierdas la oportunidad de conocer todos los beneficios y características de las cajas fuertes BTV y protege lo que más valoras con la calidad y seguridad que solo BTV y Amado Salvador, distribuidor oficial BTV, pueden ofrecerte.
2. Un punto de inflexión
LOS DATOS SE
40 DUPLICAN CADA 2 AÑOS 80%
35 DE LA INFORMACIÓN ES NO
30 ESTRUCTURADA
(Gartner, December 2011)
25
ZB
20
15 LAS EMPRESAS MANEJARÁN
10 50X MÁS DATOS
5 EN LA PRÓXIMA DÉCADA
2005 2010 2015 2020
(IDC Digital Universe Study, June 2011)
0
(IDC Digital Universe Study, June 2011)
“El aumento exponencial en la cantidad de información disponible ha hecho que las empresas recurran
a nuevas herramientas y procesos para recopilar datos (tanto estructurados como no estructurados) y
para almacenar, administrar, manipular, analizar, e integrar datos. ”
J|M|P Securities, Big Data and How BI Got Its Groove Back, Nov. 2011
3. Qué es Big Data?
Big Data es el nombre que se le da a conjuntos de información que crecen de una
manera tan exponencial que resulta prohibitivo almacenarlos y/o procesarlos con
métodos o técnicas tradicionales del mundo de base de datos relacionales.
Big Data son tres V’s y una C:
Velocidad: los datos se generan a un ritmo exponencial.
Volumen: la irrupción de Big Data dejó en el
pasado el Terabyte para hablar de Petabytes y
Zetabytes.
Variedad: datos estructurados y no estructurados,
proveniente de la web 2.0, sensores, logs, etc.
Complejidad: volumen de datos tal que no
permite procesarlo con técnicas tradicionales
4. De dónde viene?
Información transaccional
Operaciones bancarias
Servicios financieros, portales de bolsa
Tiendas virtuales / e-commerce
La nube
World Wide Web / Blogs
Redes sociales: Twitter, Facebook, LinkedIn
Machine-generated data (MGD)
Weblogs
Centrales telefónicas
Sensores de todo tipo
Logs de aplicaciones
5. Dónde invierten las empresas en BI
Herramientas de Visualización / OLAP
MicroStrategy
SAP/Business Objects
Cognos
Pentaho
Herramientas de Integración
Pentaho Data Integration
IBM DataStage
Informática
Herramientas de Minería de Datos
Pero… qué hay del motor de base de datos a utilizar como Data Warehouse?
6. DW: el corazón de toda solución de BI
DW
VSAM
MQSeries
AS/400
Pentaho,
Oracle/Hyperion,
Microstrategy,
DB2 UDB
SAS, Etc.
Informix
Oracle Extract
Microsoft Transform
... Clean
Siebel Load
PeopleSoft
DW
Datastage ODS Data Mart
SAP R/3
Informatica
XML Oracle
Oracle DI
Pentaho DI IBM DB2
SAS DIS SQL Server
Archivos Planos
Etc. Teradata
FTP
Sybase IQ
Etc.
SAS, SPSS,
Web Logs Rapid Miner
7. Bases de Datos de Transaccionales
La mayoría de las empresas utilizan motores de bases datos tradicionales
IBM DB2, Oracle, MS SQL Server, PostgreSQL, MySQL, etc.
Todos muy buenos motores, pero todos transaccionales, diseñados y desarrollados para
soportar transacciones y trabajar con pocos registros por operación.
Las soluciones de Business Intelligence en cambio involucran cientos de miles (e inclusive
millones) de registros en una única operación, y deben responder en un tiempo
adecuado.
Las bases de datos transaccionales no fueron diseñadas para responder a consultas
analíticas sobre grandes volúmenes de información.
La irrupción de Big Data comienza a dejar en evidencia estas falencias, debiendo utilizar
complejos índices, tablas agregadas, tablas particionadas, etc., aumentando el costo de
desarrollo y mantenimiento, obteniendo tiempos
8. Bases de Datos Analíticas
Pero existen en el mercado una variedad de bases de datos analíticas, diseñadas
específicamente para ser utilizadas como motores de Data Warehouse:
Estas bases de datos logran procesar grandes volúmenes de información a velocidades
asombrosas, gracias a la aplicación de diferentes conceptos y tecnologías:
Almacenamiento en columnas en lugar de filas (registros)
Massively parallel processing (MPP)
In-Memory Analytics
Históricamente estas bases de datos tan especializadas tenían un costo muy elevado,
pero hoy el mercado nos ofrece varias alternativas que se adaptan al presupuesto de
cada organización.
9. Presentando a
Infobright es una compañía que desarrolla un motor de base de datos analítico orientada a
columnas de alta performance que entrega rápidos tiempos de respuesta a consultas ad-
hoc sobre grandes volúmenes de información (BIG DATA) con mínimo esfuerzo de
administración, mantenimiento y costo de propiedad.
Fundada en 2006, Infobright tiene HQ en Toronto (Canadá) y cuenta con oficinas en
Boston (USA), Irlanda y Polonia.
A diferencia de otras bases analíticas, la mejor performance de Infobright esta basada en
modelos matemático, no en hardware.
Modelo de negocios “Try & Buy” basado en una versión Enterprise (Infobright Enterprise
Edition, IEE) y una versión Open Source (Infobright Enterprise Edition, ICE).
Socio tecnológico de varias empresas de BI como MicroStrategy, Pentaho, Informática, etc.
Base de clientes en aumento, incluyendo empresas como Yahoo!, Xerox, Bwin, etc.
10. Características de Infobright
Base de datos columnar orientada al análisis de información
Excelente performance:
Análisis ad-hoc de grandes volúmenes de información
Tiempos de carga de 2TB/hour
Tasas de compresión de 10:1 a 40:1 (o aún más)
Fácil administración e implementación:
Elimina la necesidad de mantener índices, tablas particionadas,
tablas agregadas, etc
Auto-tunning: la base va “aprendiendo” de las consultas que recibe
Se instala en minutos, y no tiene grandes requisitos de HW
Basada en arquitectura MySQL (BD más utilizada en el mundo)
Es una base relacional, por lo que dialoga SQL
Modelo de suscripción Low Cost
11. Y por qué resulta mejor para BI?
Base de datos Potencia basada en Administración
orientada a inteligencia, no en simplificada
columnas Hardware
Diseñada para No existe el
Knowledge Grid
análisis de datos tuning manual
Tareas de
Excelente tasa de
Motor iterativo administración
compresión
mínimas
12. Almacenamiento en columnas, no filas
ID Tarea Departamento Ciudad 1 Envío Operaciones Medellín
# 2 Recepción Operaciones Medellín
# 3 Registración Finanzas Bogotá
#
# El almacenamiento en filas sirve si…
#
#
Todas las columnas son necesarias
Por ejemplo, el detalle de una compra de supermercado
Ideal para un mundo transaccional donde usualmente
se necesita todo el detalle de una entidad
Almacenamiento
en Columnas El almacenamiento en columnas sirve si…
Sólo se requieren algunas columnas para el análisis
1 Envío Operaciones Medellín Por ejemplo, el total vendido del producto X en cada una
de las sucursales en los últimos 3 meses.
2 Recepción Operaciones Medellín
Información consolidada (sumas, cantidades,
3 Registración Finanzas Bogotá
promedios, …)
Ideal para un mundo analítico, donde la información se
concentra en métrica de distintas entidades
13. Almacenamiento en filas vs. columnas
30 columnas
Ejemplo de aplicación:
50 días con información; 30
columnas/variables por
cada registro; un millón de
registros por cada día
El acceso a disco es un
problema
El almacenamiento en filas 50 millones de registros
obliga a recuperar la
información de todas las
columnas
Al incrementarse el tamaño
de la tabla, se incrementan
los índices
La velocidad de carga se
degrada dado que los
índices deben recrearse al
incorporarse nuevos datos
14. Almacenamiento en filas vs. columnas
30 columnas
Objetivo: obtener el total de
ventas de una semana del
año.
La consulta SQL sería algo
como:
Select sum(ventas)
from tabla
where semana = X 50 millones de registros
Día de la semana
Venta diaria
15. Almacenamiento en filas vs. columnas
30 columnas
Utilizando un esquema de
almacenamiento en filas
(esquema tradicional)
Se recorren 7 millones de
registros (un millón por cada
día)
Para acceder a un valor en
50 millones de registros
particular (el valor de la
Día de la semana
venta) es necesario leer las
Venta diaria
30 columnas, aún cuando Información recuperada para el cálculo
no tengan información (210 millones de variables!)
relevante.
Se procesan TODAS las
columnas (210 millones,
30 x 7), y se DESCARTAN
TODAS MENOS una.
Es decir se procesó un 93%
más de información.
16. Almacenamiento en columnas, no filas
Utilizando un esquema de
almacenamiento en columnas
(esquema utilizado por
Infobright)
Se recorren 7 millones de
registros (un millón por cada
día)
50 millones de registros
Se descartan 28 de las 30
Día de la semana
Venta diaria
columnas.
Se procesan sólo las 2
columnas necesarias: día y
venta diaria.
Es decir, sólo se procesa la
información necesaria.
La inteligencia está en la 93% menos de información
forma de almacenamiento y recuperada!
en el algoritmo usado para
extraer los datos.
17. Inteligencia, no hardware
Al momento de cargar los • Almacena esta información en la Knowledge Grid
datos, crea información • La KG está cargada en memoria
(metadata) de los datos • Menos del 1% del tamaño de los datos
automáticamente comprimidos
Utiliza esta información al • Al disminuir los datos que deben accederse,
procesar consultas para aumenta la tasa de respuesta
eliminar/reducir acceso a • Respuestas por debajo del segundo cuando la
datos información está contenida en la KG
• No existe la necesidad de particionar los datos,
Beneficios de la
crear/mantener índices, hacer proyecciones o
arquitectura tuning para mejorar la performance.
18. Paquetes de Datos y Compresión
Paquetes de Datos
Cada paquete contiene 65,536 valores de datos
64K La compresión se realiza a nivel de paquete individual
El algoritmo de compresión cambia de acuerdo con el
tipo de dato y su distribución.
64K
Compresión
Los resultados dependen de la
64K distribución de datos en los paquetes
La media observada en diferentes
implementaciones es 10:1
64K En algunos casos se han detectado
Algoritmos de compresiones mayores a 40:1
compresión Por ejemplo, con una compresión 10:1,
1TB de datos requeriría solamente
100GB de almacenamiento
19. Almacenamiento de los datos
Datos Originales
1TB Datos comprimidos
100 GB
Promedio de compresión 10:1
=
+
Knowledge Grid
< 1 GB
< 1% datos comprimidos
20. Inteligencia, no hardware
Respuesta
Consulta
Cual es el total de
ventas de los últimos
3 meses?
1. Se recibe la consulta.
2. El motor itera sobre el Knowledge Grid
3. Cada iteración elimina Data Packs (necesidad de acceso a datos en disco)
4. Sólo se accede y descomprimen aquellos que son estrictamente necesarios
Aparte de almacenar la información en columnas, se mejora la performance utilizando un
acceso inteligente a los datos
21. Consultas con Knowledge Grid
salario edad cargo dpto
Paquetes
SELECT count(*) ignorados
FROM Empleados Paquetes
WHERE Salario> 100000 ignorados
AND edad < 35
AND cargo = ‘DBA’
AND dpto = ‘ANT’; Paquetes
ignorados
Este paquete será
descomprimido
Irrelevante
Candidato
Todos los valores cumplen
22. Benchmarks realizados
Consulta Analítica Mobile Data Set de Consultas
(15MM eventos)
Alternativa Alternativa Alternativa
+2 horas con <10 segundos 43 minutos con 23 segundos 10 seg. – 15 min. 0.43 – 22
MySQL SQL Server con Oracle segundos
Reporte de BI Carga de datos
Alternativa Alternativa
7 hrs en Informix 17 segundos 11 horas con 11 minutos
MySQL ISAM