SlideShare una empresa de Scribd logo
1 de 63
Trucos en el procesamiento y análisis de
datos con Open Source
Ignacio Bustillo
@IgnacioBustillo
info@stratebi.com
Business Analytics
Cómo hacer menos tonta
la empresa
Periodismo de datos
Periodismo de datos
Visualización
Mapas
Tablas
Gráficos
…
Fuga2: data.elperiodico.com
Dashboard Smartcities
Lo esencial al analizar
la información
Análisis eficiente de datos
Data Warehouse – Almacén de datos
Repositorio centralizado de datos. Permite correlacionar indicadores y
velocidad en consultas
Análisis eficiente de datos
Análisis eficiente de datos
Transaccional DW
Orientados a software Orientados a temas
Utilizados para el funcionamiento del negocio Utilizados para analizar negocio
Usados por empleados comunes Usados por ejecutivos y analistas
Contiene datos detallados Contiene datos resumidos y refinados
Contiene datos aislados Contiene datos integrados
Acceso repetitivo y transac. pequeñas Acceso a medida con consultas complejas
No hay redundancia (3FN) Se prima la rapidez al tamaño en disco
Análisis eficiente de datos
Análisis eficiente de datos
Análisis eficiente de datos
Análisis eficiente de datos
HECHOS
• Responden a la pregunta ¿Qué queremos medir?
• Euros gastados, ventas, edad, unidades, coste, litros, kilos….
• Se agrupan en una tabla: La tabla de hechos o Fact Table:
• Tabla central en un modelo multidimensional.
• Almacena datos numéricos e indicadores clave (PKIs)
• Están almacenados a un determinado nivel de detalle.
• La mayoría de las veces, contiene hechos aditivos.
• Las tablas de hechos tienden a crecen a “lo alto”
Clave del
Producto
Clave de la
tienda
Clave del
Tiempo
Euros Unidades
1 2 12 300 5
1 7 3 1000 7
2 9 5 227 2
Análisis eficiente de datos
DIMENSIONES
• Responden a la pregunta ¿Desde que puntos de vista quieres analizar los hechos?
Por Mes o Año, Ciudad, Sede, Partida, Tipo de cliente …
• Contienen los descriptores textuales de los hechos.
• Están contenidas en tablas, cada dimensión en una tabla
• Las tablas de dimensión tienden a crecen a “lo ancho”
Clave_mes Mes
1 Enero
2 Febrero
Producto Clave_producto
1 Libros
2 DVD
Tienda Clave_tienda
7 Sevilla
2 Córdoba
Análisis eficiente de datos
Análisis eficiente de datos
VS
Canalizando los datos
Herramientas de Extracción, Transformación y
Carga (Load)
ETL
Periodismo de datos
Herramientas ETL
Software libre
Herramientas ETL
Herramientas ETL
Algunas fuentes…
Herramientas ETL
Problemas que surgen:
¿Sabemos programar?
SQL? Javascript? Java? Python? Php?
¿Tenemos paciencia?
…De procesar tantas miles de filas a mano….
…De procesar tantos archivos a mano…
¿Qué significan los datos?
¿Sabemos usar todas las tecnologías?
…Parseo JSON…
…Lectura XLS…
PENTAHO DATA INTEGRATION
PENTAHO DATA INTEGRATION
¿Qué es Pentaho Data Integration?
• PDI es un set de herramientas, que permite diseñar ETLs, mediante transformaciones y trabajos que pueden ser
ejecutadas por las herramientas de Spoon, Pan y Kitchen. Antes se le conocía con el nombre de Kettle.
•Spoon interfaz gráfica para diseño de trasformaciones y trabajos ETL.
•Pan es un motor capaz de ejecutar múltiples transformaciones de datos como leer, manipular y escribir
desde y en distintos orígenes de datos.
•Kitchen es un programa que ejecuta los trabajos diseñados por Spoon. Normalmente estos trabajos son
planificados en modo batch para ejecutar automáticamente a periodos regulares (crontab -e).
PENTAHO DATA INTEGRATION
Características y beneficios
• Permite trabajar con un repositorio en Base de Datos o en Ficheros.
• Su interfaz gráfica te permitirá crear de transformaciones y trabajos de manera intuitiva mediante pasos
modulares ya creados, conexiones con múltiples fuentes, etc...
• Distribución y combinación de diferentes fuentes, en diferentes hosts.
• Interfaz SQL y generador de código automático.
• Crear cálculos de una manera muy sencilla.
• Define qué quieres hacer, no como quieres hacerlo.
• Genera código XML y Java.
• Instalación sencilla – sólo extraer los ficheros, aplicación Java. (ojo con la versión java -version)
• Fácil de mantener, con alto rendimiento y escalabilidad.
• Es posible parametrizar bastantes configuraciones (directorios, conexiones, mail).
• Posee una arquitectura de Plug-in que te permitirá expandir sus funcionalidades.
PENTAHO DATA INTEGRATION
Spoon
• Menú principal (rojo)
• Pestaña vista (verde)
• Pestaña design (azul)
• Menú iconos (amarillo)
• Zona de Trabajo
PENTAHO DATA INTEGRATION
Pestañas
• Pestaña Vista (View):
• Orígenes de Datos.
• Pasos
• Saltos
• Esquemas
• Servidores Esclavos
• Esquemas en Cluster.
• Pestaña Diseño (Design):
• Entrada
• Salida
• Búsqueda
• Transformar
• Uniones
• Scripting
• Data Warehouse
• Mapeado
• Trabajo
• Embebido
• Experimental
PENTAHO DATA INTEGRATION
Menú de Iconos
Icono Descripción
Crear un nuevo trabajo o transformación o CNTRL - N
Abrir un trabajo/transformación de un fichero o del repositorio si estas conectado a él.
Guardar el trabajo/transformación a un fichero o al repositorio
Guardar el trabajo/transformación con un nombre distinto.
Abrir la ventana de impresora.
Ejecutar el trabajo/transformación: ejecuta la transformación actual desde el fichero XML o el repositorio.
Previsualizar la transformación: ejecuta la transformación actual desde memoria. Puedes previsualizar las filas producidas
por el paso seleccionado
Ejecutar la transformación en modo de pruebas permitiéndote la solución de errores de ejecución.
Repetir el proceso de una transformación para una cierta fecha y hora. Esto causará que ciertos pasos (TextFile Input
y Excel Input) sólo procesarán las filas que fallaron para ser interpretadas correctamente a esa fecha y hora particular.
Ejecutar un análisis de impacto: que impacto tiene la transformación en la base de datos usada.
Generar el SQL que es necesario para ejecutar la transformación.
Lanza el explorador de la base de datos permitiéndote previsualizar los datos, ejecutar consultas SQL, generar DDL y más.
PENTAHO DATA INTEGRATION
Componentes de PDI (I)
• Los procesos ETL se dividen en dos componentes principales:
• Transformaciones (.ktr): es el conjunto de pasos básicos que componen el nivel
más bajo de una ETL.
• Trabajos (.kjb): es un conjunto de pasos, trabajos y transformaciones.
PENTAHO DATA INTEGRATION
Componentes de PDI (II)
• Transformaciones:
• Paso: son los elementos atómicos de PDI y cada uno realiza una transformación en
el flujo de datos. (Leer datos, escribir en BBDD, crear cálculos, añadir constantes, ....)
• Salto: es la representación gráfica del flujo de datos entre 2 pasos.
PENTAHO DATA INTEGRATION
Componentes de PDI (III)
• Trabajos:
• Paso: son los elementos atómicos de PDI y cada uno realiza una trabajo. (No
modifican el flujo de datos)
• Salto: representa el orden de ejecución de transformaciones y trabajos.
• Trabajo y Transformación: dentro de un trabajo podemos incluir llamadas a otras
transformaciones y/o trabajos para que sean ejecutadas.
• Un trabajo procesa todos los registros antes de continuar, en cambio, una
transformación es un flujo de datos continuo de manera que los registros avanzan
por los pasos según llegan.
A trabajar!
PASO 1: Download & Instalación
http://sourceforge.net/projects/pentaho/files/Data Integration/
PASO 2: Descomprimir & abrir
PASO 2: Desomprimir & abrir
PASO 2: Let’s play!
Ejercicios!
Charts for dummies
Generar Nombres aleatorios
1) Generar 10 filas
2) Generar aleatorios
3) Filtrar salida
4) Exportar Excel
Estadísticas de Paro
1) Abrir csv
2) Seleccionar valores
3) Agrupaciones
4) Pintar
Estadísticas de Paro
Estadísticas de Paro
EJERCICIO 2
1) Abrir Excel 1 y 2
2) Cruzar Excels
3) Agrupaciones
4) Pintar
Excel con índices de innovación por países Maestro paises EN y ES
+
EJERCICIO 2
Estadísticas innovación
Comentarios Twitter #jdp14
1) Parsear JSON de monitorización #jpd14
2) Pintar
Comentarios Twitter #jdp14

Más contenido relacionado

La actualidad más candente

Introducción al BI con pentaho
Introducción al BI con pentahoIntroducción al BI con pentaho
Introducción al BI con pentaho
Iván Ruiz-Rube
 
066 como implementar un data warehouse de manera paulatina
066 como implementar un data warehouse de manera paulatina066 como implementar un data warehouse de manera paulatina
066 como implementar un data warehouse de manera paulatina
GeneXus
 

La actualidad más candente (20)

Data Visualization con Pentaho
Data Visualization con PentahoData Visualization con Pentaho
Data Visualization con Pentaho
 
Porque Pentaho ?
Porque Pentaho ?Porque Pentaho ?
Porque Pentaho ?
 
Aplicaciones Big Data Marketing
Aplicaciones Big Data MarketingAplicaciones Big Data Marketing
Aplicaciones Big Data Marketing
 
Unidad iii componentes de entorno de inteligencia de negocios
Unidad iii componentes de entorno de inteligencia de negociosUnidad iii componentes de entorno de inteligencia de negocios
Unidad iii componentes de entorno de inteligencia de negocios
 
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
Predictive Analytics with Pentaho Data Mining - Análisis Predictivo con Penta...
 
SAP - PowerBI integration
SAP - PowerBI integrationSAP - PowerBI integration
SAP - PowerBI integration
 
Introducción al BI con pentaho
Introducción al BI con pentahoIntroducción al BI con pentaho
Introducción al BI con pentaho
 
066 como implementar un data warehouse de manera paulatina
066 como implementar un data warehouse de manera paulatina066 como implementar un data warehouse de manera paulatina
066 como implementar un data warehouse de manera paulatina
 
Comparativa herramientas Business Intelligence
Comparativa herramientas Business IntelligenceComparativa herramientas Business Intelligence
Comparativa herramientas Business Intelligence
 
Destinos turisticos inteligentes
Destinos turisticos inteligentesDestinos turisticos inteligentes
Destinos turisticos inteligentes
 
Herramientas de business intelligence
Herramientas de business intelligenceHerramientas de business intelligence
Herramientas de business intelligence
 
Charla Pentaho - UTN
Charla Pentaho - UTNCharla Pentaho - UTN
Charla Pentaho - UTN
 
Inteligencia De Negocios, en Software Libre
Inteligencia De Negocios, en Software LibreInteligencia De Negocios, en Software Libre
Inteligencia De Negocios, en Software Libre
 
Presentacion Starting Pack BI Open Source
Presentacion Starting Pack BI Open SourcePresentacion Starting Pack BI Open Source
Presentacion Starting Pack BI Open Source
 
Sap Business Objects - Sector Banca
Sap Business Objects - Sector BancaSap Business Objects - Sector Banca
Sap Business Objects - Sector Banca
 
Big Data Architecture con Pentaho
Big Data Architecture con PentahoBig Data Architecture con Pentaho
Big Data Architecture con Pentaho
 
Sesion 1 pentaho special-edition 2013
Sesion 1  pentaho special-edition 2013Sesion 1  pentaho special-edition 2013
Sesion 1 pentaho special-edition 2013
 
Ciclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negociosCiclo de vida de la inteligencia de negocios
Ciclo de vida de la inteligencia de negocios
 
Cursos Big Data Open Source
Cursos Big Data Open SourceCursos Big Data Open Source
Cursos Big Data Open Source
 
Business Intelligence (B.I.). La Plataforma Pentaho
Business Intelligence (B.I.). La Plataforma PentahoBusiness Intelligence (B.I.). La Plataforma Pentaho
Business Intelligence (B.I.). La Plataforma Pentaho
 

Destacado

Employing Google Refine to publish Linked Data
Employing Google Refine to publish Linked DataEmploying Google Refine to publish Linked Data
Employing Google Refine to publish Linked Data
Fadi Maali
 
Índice Global de Apertura de Datos [Global Open Data Index presentation Span...
Índice Global de Apertura de Datos [Global Open Data Index presentation Span...Índice Global de Apertura de Datos [Global Open Data Index presentation Span...
Índice Global de Apertura de Datos [Global Open Data Index presentation Span...
okfn
 
Definición de un Modelo de Gestión Documental para la BNE
Definición de un Modelo de Gestión Documental para la BNEDefinición de un Modelo de Gestión Documental para la BNE
Definición de un Modelo de Gestión Documental para la BNE
Ana Carrillo Pozas
 

Destacado (9)

Employing Google Refine to publish Linked Data
Employing Google Refine to publish Linked DataEmploying Google Refine to publish Linked Data
Employing Google Refine to publish Linked Data
 
A Quick Tour of OpenRefine
A Quick Tour of OpenRefineA Quick Tour of OpenRefine
A Quick Tour of OpenRefine
 
Índice Global de Apertura de Datos [Global Open Data Index presentation Span...
Índice Global de Apertura de Datos [Global Open Data Index presentation Span...Índice Global de Apertura de Datos [Global Open Data Index presentation Span...
Índice Global de Apertura de Datos [Global Open Data Index presentation Span...
 
Definición de un Modelo de Gestión Documental para la BNE
Definición de un Modelo de Gestión Documental para la BNEDefinición de un Modelo de Gestión Documental para la BNE
Definición de un Modelo de Gestión Documental para la BNE
 
SmartCity Presentation
SmartCity PresentationSmartCity Presentation
SmartCity Presentation
 
Smart City Analytics
Smart City Analytics Smart City Analytics
Smart City Analytics
 
Reutilización de datos gracias a la visualización de datos
Reutilización de datos gracias a la visualización de datosReutilización de datos gracias a la visualización de datos
Reutilización de datos gracias a la visualización de datos
 
Retos y oportunidades en Archivos y Gestión Documental ante la Web Semántica
Retos y oportunidades en Archivos y Gestión Documental ante la Web SemánticaRetos y oportunidades en Archivos y Gestión Documental ante la Web Semántica
Retos y oportunidades en Archivos y Gestión Documental ante la Web Semántica
 
Biblioapps, o cómo crear aplicaciones móviles para bibliotecas
Biblioapps, o cómo crear aplicaciones móviles para bibliotecasBiblioapps, o cómo crear aplicaciones móviles para bibliotecas
Biblioapps, o cómo crear aplicaciones móviles para bibliotecas
 

Similar a Periodismo de Datos y Visualización con herramientas Open Source

slides-del-curso-de-analisis-de-datos-con-power-bi_cf66119b-6f4c-4e91-9eab-72...
slides-del-curso-de-analisis-de-datos-con-power-bi_cf66119b-6f4c-4e91-9eab-72...slides-del-curso-de-analisis-de-datos-con-power-bi_cf66119b-6f4c-4e91-9eab-72...
slides-del-curso-de-analisis-de-datos-con-power-bi_cf66119b-6f4c-4e91-9eab-72...
SALAZARCOLLASABELANG
 
Manual Analysis Services
Manual Analysis ServicesManual Analysis Services
Manual Analysis Services
brobelo
 
Semana 3 - Bases de Datos Avanzadas - Big Data - Sesion 3.pdf
Semana 3 - Bases de Datos Avanzadas - Big Data - Sesion 3.pdfSemana 3 - Bases de Datos Avanzadas - Big Data - Sesion 3.pdf
Semana 3 - Bases de Datos Avanzadas - Big Data - Sesion 3.pdf
romaldonolascorojas1
 

Similar a Periodismo de Datos y Visualización con herramientas Open Source (20)

Integración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoIntegración de Datos sin límites con Pentaho
Integración de Datos sin límites con Pentaho
 
Software Libre para la Toma de Decisiones
Software Libre para la Toma de DecisionesSoftware Libre para la Toma de Decisiones
Software Libre para la Toma de Decisiones
 
Grupo eGlu Bi
Grupo eGlu BiGrupo eGlu Bi
Grupo eGlu Bi
 
Dts y analysis services 2000
Dts y analysis services 2000Dts y analysis services 2000
Dts y analysis services 2000
 
slides-del-curso-de-analisis-de-datos-con-power-bi_cf66119b-6f4c-4e91-9eab-72...
slides-del-curso-de-analisis-de-datos-con-power-bi_cf66119b-6f4c-4e91-9eab-72...slides-del-curso-de-analisis-de-datos-con-power-bi_cf66119b-6f4c-4e91-9eab-72...
slides-del-curso-de-analisis-de-datos-con-power-bi_cf66119b-6f4c-4e91-9eab-72...
 
Base de datos
Base de datosBase de datos
Base de datos
 
Dts y analysis services 2000
Dts y analysis services 2000Dts y analysis services 2000
Dts y analysis services 2000
 
Presentacion1 convertido
Presentacion1 convertidoPresentacion1 convertido
Presentacion1 convertido
 
Nuevas Herramientas De Bi De Oracle
Nuevas Herramientas De Bi De OracleNuevas Herramientas De Bi De Oracle
Nuevas Herramientas De Bi De Oracle
 
Base de datos
Base de datosBase de datos
Base de datos
 
Curso introduccion microsoft_sql_server_business_intelligence
Curso introduccion microsoft_sql_server_business_intelligenceCurso introduccion microsoft_sql_server_business_intelligence
Curso introduccion microsoft_sql_server_business_intelligence
 
Manual Analysis Services
Manual Analysis ServicesManual Analysis Services
Manual Analysis Services
 
Operations & Data Graph
Operations & Data GraphOperations & Data Graph
Operations & Data Graph
 
Business Analytics 101
Business Analytics 101Business Analytics 101
Business Analytics 101
 
BusinessIntelligence Introduction
BusinessIntelligence IntroductionBusinessIntelligence Introduction
BusinessIntelligence Introduction
 
Semana 3 - Bases de Datos Avanzadas - Big Data - Sesion 3.pdf
Semana 3 - Bases de Datos Avanzadas - Big Data - Sesion 3.pdfSemana 3 - Bases de Datos Avanzadas - Big Data - Sesion 3.pdf
Semana 3 - Bases de Datos Avanzadas - Big Data - Sesion 3.pdf
 
Analisis multidemensional.pdf
Analisis multidemensional.pdfAnalisis multidemensional.pdf
Analisis multidemensional.pdf
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Data Warehouse
Data WarehouseData Warehouse
Data Warehouse
 
Josue
JosueJosue
Josue
 

Más de Stratebi

Más de Stratebi (20)

Azure Synapse
Azure SynapseAzure Synapse
Azure Synapse
 
Options for Dashboards with Python
Options for Dashboards with PythonOptions for Dashboards with Python
Options for Dashboards with Python
 
Dashboards with Python
Dashboards with PythonDashboards with Python
Dashboards with Python
 
PowerBI Tips y buenas practicas
PowerBI Tips y buenas practicasPowerBI Tips y buenas practicas
PowerBI Tips y buenas practicas
 
Machine Learning Meetup Spain
Machine Learning Meetup SpainMachine Learning Meetup Spain
Machine Learning Meetup Spain
 
LinceBI IIoT (Industrial Internet of Things)
LinceBI IIoT (Industrial Internet of Things)LinceBI IIoT (Industrial Internet of Things)
LinceBI IIoT (Industrial Internet of Things)
 
A federated information infrastructure that works
A federated information infrastructure that works A federated information infrastructure that works
A federated information infrastructure that works
 
9 problemas en proyectos Data Analytics
9 problemas en proyectos Data Analytics9 problemas en proyectos Data Analytics
9 problemas en proyectos Data Analytics
 
PowerBI: Soluciones, Aplicaciones y Cursos
PowerBI: Soluciones, Aplicaciones y CursosPowerBI: Soluciones, Aplicaciones y Cursos
PowerBI: Soluciones, Aplicaciones y Cursos
 
Sports Analytics
Sports AnalyticsSports Analytics
Sports Analytics
 
Vertica Extreme Analysis
Vertica Extreme AnalysisVertica Extreme Analysis
Vertica Extreme Analysis
 
Businesss Intelligence con Vertica y PowerBI
Businesss Intelligence con Vertica y PowerBIBusinesss Intelligence con Vertica y PowerBI
Businesss Intelligence con Vertica y PowerBI
 
Vertica Analytics Database general overview
Vertica Analytics Database general overviewVertica Analytics Database general overview
Vertica Analytics Database general overview
 
Talend Cloud en detalle
Talend Cloud en detalleTalend Cloud en detalle
Talend Cloud en detalle
 
Master Data Management (MDM) con Talend
Master Data Management (MDM) con TalendMaster Data Management (MDM) con Talend
Master Data Management (MDM) con Talend
 
Talend Introducion
Talend IntroducionTalend Introducion
Talend Introducion
 
Talent Analytics
Talent AnalyticsTalent Analytics
Talent Analytics
 
El Futuro del Business Intelligence
El Futuro del Business IntelligenceEl Futuro del Business Intelligence
El Futuro del Business Intelligence
 
Talend Solutions
Talend SolutionsTalend Solutions
Talend Solutions
 
PowerBI Salesforce integration
PowerBI Salesforce integrationPowerBI Salesforce integration
PowerBI Salesforce integration
 

Último

Conversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoConversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latino
BESTTech1
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
IrapuatoCmovamos
 

Último (20)

Imágenes-de La-Inteligencia-Artificial-AnaliticayDatos-Beatriz-Garcia-Abril2024
Imágenes-de La-Inteligencia-Artificial-AnaliticayDatos-Beatriz-Garcia-Abril2024Imágenes-de La-Inteligencia-Artificial-AnaliticayDatos-Beatriz-Garcia-Abril2024
Imágenes-de La-Inteligencia-Artificial-AnaliticayDatos-Beatriz-Garcia-Abril2024
 
Las familias más ricas del medio oriente (2024).pdf
Las familias más ricas del medio oriente (2024).pdfLas familias más ricas del medio oriente (2024).pdf
Las familias más ricas del medio oriente (2024).pdf
 
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptxCUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
CUADRO COMPARATIVO DE ARCHIVOS Y CARPETAS.pptx
 
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
 
data lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdfdata lista de ingresantes de la universidad de ucayali 2024.pdf
data lista de ingresantes de la universidad de ucayali 2024.pdf
 
Investigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdfInvestigacion cualitativa y cuantitativa....pdf
Investigacion cualitativa y cuantitativa....pdf
 
El Manierismo. El Manierismo
El Manierismo.              El ManierismoEl Manierismo.              El Manierismo
El Manierismo. El Manierismo
 
Conversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoConversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latino
 
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdfPorcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
 
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANAS
ROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANASROMA Y EL  IMPERIO, CIUDADES  ANTIGUA ROMANAS
ROMA Y EL IMPERIO, CIUDADES ANTIGUA ROMANAS
 
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
PRESENTACION SOBRE LA HOJA DE CALCULO ⠀⠀
 
aine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificaciónaine-2014.pdf/tipos de aines-clasificación
aine-2014.pdf/tipos de aines-clasificación
 
biometria hematica y hemostasia y preanalitica.pptx
biometria hematica y hemostasia y preanalitica.pptxbiometria hematica y hemostasia y preanalitica.pptx
biometria hematica y hemostasia y preanalitica.pptx
 
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
REPORTE DE HOMICIDIO DOLOSO IRAPUATO ABRIL 2024
 
Los idiomas más hablados en el mundo (2024).pdf
Los idiomas más hablados en el mundo  (2024).pdfLos idiomas más hablados en el mundo  (2024).pdf
Los idiomas más hablados en el mundo (2024).pdf
 
La Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdfLa Guerra Biologica - Emiliano Paico Vilchez.pdf
La Guerra Biologica - Emiliano Paico Vilchez.pdf
 
EPIDEMIO CANCER PULMON resumen nnn.pptx
EPIDEMIO CANCER PULMON  resumen nnn.pptxEPIDEMIO CANCER PULMON  resumen nnn.pptx
EPIDEMIO CANCER PULMON resumen nnn.pptx
 
procedimiento paran la planificación en los centros educativos tipo v(multig...
procedimiento  paran la planificación en los centros educativos tipo v(multig...procedimiento  paran la planificación en los centros educativos tipo v(multig...
procedimiento paran la planificación en los centros educativos tipo v(multig...
 
6.3 Hidrologia Geomorfologia Cuenca.pptx
6.3 Hidrologia Geomorfologia Cuenca.pptx6.3 Hidrologia Geomorfologia Cuenca.pptx
6.3 Hidrologia Geomorfologia Cuenca.pptx
 
max-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptxmax-weber-principales-aportes de la sociologia (2).pptx
max-weber-principales-aportes de la sociologia (2).pptx
 

Periodismo de Datos y Visualización con herramientas Open Source

  • 1. Trucos en el procesamiento y análisis de datos con Open Source Ignacio Bustillo @IgnacioBustillo info@stratebi.com
  • 2.
  • 3.
  • 4. Business Analytics Cómo hacer menos tonta la empresa
  • 10. Lo esencial al analizar la información
  • 11. Análisis eficiente de datos Data Warehouse – Almacén de datos Repositorio centralizado de datos. Permite correlacionar indicadores y velocidad en consultas
  • 13. Análisis eficiente de datos Transaccional DW Orientados a software Orientados a temas Utilizados para el funcionamiento del negocio Utilizados para analizar negocio Usados por empleados comunes Usados por ejecutivos y analistas Contiene datos detallados Contiene datos resumidos y refinados Contiene datos aislados Contiene datos integrados Acceso repetitivo y transac. pequeñas Acceso a medida con consultas complejas No hay redundancia (3FN) Se prima la rapidez al tamaño en disco
  • 17. Análisis eficiente de datos HECHOS • Responden a la pregunta ¿Qué queremos medir? • Euros gastados, ventas, edad, unidades, coste, litros, kilos…. • Se agrupan en una tabla: La tabla de hechos o Fact Table: • Tabla central en un modelo multidimensional. • Almacena datos numéricos e indicadores clave (PKIs) • Están almacenados a un determinado nivel de detalle. • La mayoría de las veces, contiene hechos aditivos. • Las tablas de hechos tienden a crecen a “lo alto” Clave del Producto Clave de la tienda Clave del Tiempo Euros Unidades 1 2 12 300 5 1 7 3 1000 7 2 9 5 227 2
  • 18. Análisis eficiente de datos DIMENSIONES • Responden a la pregunta ¿Desde que puntos de vista quieres analizar los hechos? Por Mes o Año, Ciudad, Sede, Partida, Tipo de cliente … • Contienen los descriptores textuales de los hechos. • Están contenidas en tablas, cada dimensión en una tabla • Las tablas de dimensión tienden a crecen a “lo ancho” Clave_mes Mes 1 Enero 2 Febrero Producto Clave_producto 1 Libros 2 DVD Tienda Clave_tienda 7 Sevilla 2 Córdoba
  • 21. Canalizando los datos Herramientas de Extracción, Transformación y Carga (Load) ETL
  • 27.
  • 28.
  • 29.
  • 30.
  • 31.
  • 32.
  • 33.
  • 34.
  • 35. Herramientas ETL Problemas que surgen: ¿Sabemos programar? SQL? Javascript? Java? Python? Php? ¿Tenemos paciencia? …De procesar tantas miles de filas a mano…. …De procesar tantos archivos a mano… ¿Qué significan los datos? ¿Sabemos usar todas las tecnologías? …Parseo JSON… …Lectura XLS…
  • 36.
  • 38. PENTAHO DATA INTEGRATION ¿Qué es Pentaho Data Integration? • PDI es un set de herramientas, que permite diseñar ETLs, mediante transformaciones y trabajos que pueden ser ejecutadas por las herramientas de Spoon, Pan y Kitchen. Antes se le conocía con el nombre de Kettle. •Spoon interfaz gráfica para diseño de trasformaciones y trabajos ETL. •Pan es un motor capaz de ejecutar múltiples transformaciones de datos como leer, manipular y escribir desde y en distintos orígenes de datos. •Kitchen es un programa que ejecuta los trabajos diseñados por Spoon. Normalmente estos trabajos son planificados en modo batch para ejecutar automáticamente a periodos regulares (crontab -e).
  • 39. PENTAHO DATA INTEGRATION Características y beneficios • Permite trabajar con un repositorio en Base de Datos o en Ficheros. • Su interfaz gráfica te permitirá crear de transformaciones y trabajos de manera intuitiva mediante pasos modulares ya creados, conexiones con múltiples fuentes, etc... • Distribución y combinación de diferentes fuentes, en diferentes hosts. • Interfaz SQL y generador de código automático. • Crear cálculos de una manera muy sencilla. • Define qué quieres hacer, no como quieres hacerlo. • Genera código XML y Java. • Instalación sencilla – sólo extraer los ficheros, aplicación Java. (ojo con la versión java -version) • Fácil de mantener, con alto rendimiento y escalabilidad. • Es posible parametrizar bastantes configuraciones (directorios, conexiones, mail). • Posee una arquitectura de Plug-in que te permitirá expandir sus funcionalidades.
  • 40. PENTAHO DATA INTEGRATION Spoon • Menú principal (rojo) • Pestaña vista (verde) • Pestaña design (azul) • Menú iconos (amarillo) • Zona de Trabajo
  • 41. PENTAHO DATA INTEGRATION Pestañas • Pestaña Vista (View): • Orígenes de Datos. • Pasos • Saltos • Esquemas • Servidores Esclavos • Esquemas en Cluster. • Pestaña Diseño (Design): • Entrada • Salida • Búsqueda • Transformar • Uniones • Scripting • Data Warehouse • Mapeado • Trabajo • Embebido • Experimental
  • 42. PENTAHO DATA INTEGRATION Menú de Iconos Icono Descripción Crear un nuevo trabajo o transformación o CNTRL - N Abrir un trabajo/transformación de un fichero o del repositorio si estas conectado a él. Guardar el trabajo/transformación a un fichero o al repositorio Guardar el trabajo/transformación con un nombre distinto. Abrir la ventana de impresora. Ejecutar el trabajo/transformación: ejecuta la transformación actual desde el fichero XML o el repositorio. Previsualizar la transformación: ejecuta la transformación actual desde memoria. Puedes previsualizar las filas producidas por el paso seleccionado Ejecutar la transformación en modo de pruebas permitiéndote la solución de errores de ejecución. Repetir el proceso de una transformación para una cierta fecha y hora. Esto causará que ciertos pasos (TextFile Input y Excel Input) sólo procesarán las filas que fallaron para ser interpretadas correctamente a esa fecha y hora particular. Ejecutar un análisis de impacto: que impacto tiene la transformación en la base de datos usada. Generar el SQL que es necesario para ejecutar la transformación. Lanza el explorador de la base de datos permitiéndote previsualizar los datos, ejecutar consultas SQL, generar DDL y más.
  • 43. PENTAHO DATA INTEGRATION Componentes de PDI (I) • Los procesos ETL se dividen en dos componentes principales: • Transformaciones (.ktr): es el conjunto de pasos básicos que componen el nivel más bajo de una ETL. • Trabajos (.kjb): es un conjunto de pasos, trabajos y transformaciones.
  • 44. PENTAHO DATA INTEGRATION Componentes de PDI (II) • Transformaciones: • Paso: son los elementos atómicos de PDI y cada uno realiza una transformación en el flujo de datos. (Leer datos, escribir en BBDD, crear cálculos, añadir constantes, ....) • Salto: es la representación gráfica del flujo de datos entre 2 pasos.
  • 45. PENTAHO DATA INTEGRATION Componentes de PDI (III) • Trabajos: • Paso: son los elementos atómicos de PDI y cada uno realiza una trabajo. (No modifican el flujo de datos) • Salto: representa el orden de ejecución de transformaciones y trabajos. • Trabajo y Transformación: dentro de un trabajo podemos incluir llamadas a otras transformaciones y/o trabajos para que sean ejecutadas. • Un trabajo procesa todos los registros antes de continuar, en cambio, una transformación es un flujo de datos continuo de manera que los registros avanzan por los pasos según llegan.
  • 46.
  • 48. PASO 1: Download & Instalación http://sourceforge.net/projects/pentaho/files/Data Integration/
  • 49.
  • 55. Generar Nombres aleatorios 1) Generar 10 filas 2) Generar aleatorios 3) Filtrar salida 4) Exportar Excel
  • 56. Estadísticas de Paro 1) Abrir csv 2) Seleccionar valores 3) Agrupaciones 4) Pintar
  • 59. EJERCICIO 2 1) Abrir Excel 1 y 2 2) Cruzar Excels 3) Agrupaciones 4) Pintar Excel con índices de innovación por países Maestro paises EN y ES +
  • 62. Comentarios Twitter #jdp14 1) Parsear JSON de monitorización #jpd14 2) Pintar