SlideShare una empresa de Scribd logo
1 de 38
Descargar para leer sin conexión
Workshop
“Análisis, preparación y visualización de
datos usando herramientas Open Source”
05 - Marzo - 2016
Open Data Day - UIO
OPEN DATA
¿QUÉ ES OPEN DATA?
❏ Poner a disposición de la sociedad los datos
gestionados por la administración pública
❏ Sin restricciones de derecho de autor
❏ Los datos son abiertos cuando:
➔ Accedidos
➔ Usados
➔ Modificados
➔ Compartidos
HISTORIA
❏ El 17 de noviembre de 2003, la Directiva del
Parlamento Europeo, presentaba un Tratado
sobre el acceso de los datos
❏ En el año 2009 el gobierno de Estados Unidos
comunicaba su iniciativa de liberar los datos
❏ El 30 de Noviembre de 2010 el Reino Unido
liberó una licencia gubernamental
PRINCIPIOS DEL OPEN DATA
❏ Los datos deben ser:
➔ Públicos
➔ Detallados
➔ Actualizados
➔ Accesibles
➔ Automatizados
➔ Sin Registro
➔ Abiertos
➔ Libres
BENEFICIOS DEL OPEN DATA
❏ Construir nuevo conocimiento
❏ Más eficiencia en los servicios gubernamentales
y la administración pública
❏ Genera nuevos indicadores económicos y
sociales
❏ Mide el impacto de las políticas públicas
OPEN DATA Y POLITICA
FUNDACIÓN CIUDADANO INTELIGENTE
PROYECTOS
OBSERVATORIO ANTICORRUPCION
ENFOQUE DE
SOLUCIÓN
PROCEDIMIENTO
1
Preguntas a
responder
2 Obtener los
Datos
3 Explorar los
Datos
4Modelar los
Datos
Comunicar y
Visualizar
Resultados
5
ALGUNAS FUENTES DE DATOS
❏ Archivos
➔ Formatos Abiertos: CSV, XML, JSON
➔ Formatos Propietarios: Excel, SPSS
❏ Bases de Datos
➔ PostgreSQL, MySQL, Oracle
❏ APIs
➔ Servicios Web SOAP: XML
➔ Servicios REST: XML/JSON
❏ Documentos (PDFs, páginas web, etc.)
❏ Redes Sociales
FORMATOS ABIERTOS - CSV
Cabecera (Header) Separador (, ; |)
Enclosure (")
Registros (Rows)
FORMATOS ABIERTOS - XML
Etiquetas (Tags)
<tag>...</tag>
Codificación
FORMATOS ABIERTOS - JSON
Valor
Atributo
Arreglo
[ ]
Objeto
{ }
APIs - OPEN DATA BANCO MUNDIAL
http://api.worldbank.org/countries/all/indicators/DT.DOD.DECT.
CD?date=2010:2015&format=xml
❏ Invocación para obtener XML
http://api.worldbank.org/countries/all/indicators/DT.DOD.DECT.
CD?date=2010:2015&format=json
❏ Invocación para obtener JSON
http://api.worldbank.org/countries/all/indicators/DT.DOD.DECT.
CD?date=2010:2015&format=csv
❏ Invocación para obtener CSV
ARQUITECTURA DE
LA SOLUCIÓN
ARQUITECTURA
DATA_MODEL
(DIMENSIONAL)
CSV
ETLsCSV
CUBO DE
DATOS
ANÁLISIS
Y
VISUALIZACIÓN
SQL POWER
ARCHITECT
PENTAHO DATA
INTEGRATION
PENTAHO SCHEMA
WORKBENCH
PENTAHO BI SERVER
SAIKU ANALYTICS
SOFTWARE OPEN SOURCE A USAR
❏ Procesamiento de Datos
➔ Pentaho Data Integration CE v5.4
❏ Entrega de Información
➔ Pentaho Schema Workbench v5.4
➔ Pentaho BI Server CE v5.4, Saiku Analytics
➔ PostgreSQL v9.3
➔ SQL Power Architect v1.0.8
❏ Modelamiento
➔ Oracle JDK v1.7 (Java)
❏ Base de Datos
❏ Software Base
MODELAMIENTO
DIMENSIONAL
CONCEPTOS
❏ Consiste en modelar hechos y dimensiones
para llegar a lo que se conoce como Modelo
Estrella
DIMENSIÓN 1
DIMENSIÓN 2
...
DIMENSIÓN N
HECHOS
CONCEPTOS
DIMENSIONES
❏ Datos Cualitativos
❏ Representan información de una entidad. Ej.
País, Región, Sucursal, Producto
HECHOS
❏ Datos Cuantitativos
❏ Representan un indicador o medida. Ej. ventas,
deuda externa, comisiones
❏ Los indicadores pueden ser agregados (sum,
avg, max, min, count)
EJEMPLO
FECHA
CLIENTE PRODUCTO
LOCAL
VENDEDOR
HECHOS
VENTAS
1..*
POSTGRESQL
❏ Abrir Terminal y abrir pgAdmin III
❏ Ir a File > Add Server
❏ Crear la base de datos data_model
SQL POWER ARCHITECT
❏ Abrir Files
❏ Ir al siguiente directorio
Computer > /opt/pentaho/architect-1.0.8
❏ Iniciar la aplicación architect.jar
❏ Conexión: Connections > Add Source
Connection > New Connection
❏ Creación del modelo: Tools > Forward
Engineer
PROCESAMIENTO DE
DATOS
PENTAHO DATA INTEGRATION
❏ Descargar archivos CSV: http://bit.ly/1TfVKd9 en
el directorio src_data y descomprimir
❏ Crear el directorio src_data en
➔ /home/vagrant/Documents/workshop
../workshop/src_data/DeudaExterna
catalogo_indicadores.csv
catalogo_paises.csv
deuda_externa.csv
PENTAHO DATA INTEGRATION
❏ Abrir Terminal
❏ Ejecutar los siguientes comandos:
➔ cd /opt/pentaho/data-integration
➔ ./spoon.sh
❏ Seleccionar el repositorio workshop
❏ Conexión: Tools > Repository >
Connections > data_model
CUBOS DE DATOS
CONCEPTOS
❏ Un cubo es una colección de múltiples
dimensiones y medidas
FECHA TABLET
VENDEDOR
2013
2014
PRODUCTOPC
2015
SMARTPHONE
JUAN
PEDRO
ANDREA
MEDIDAS
- VENTAS
- COMISIONES
- CANTIDAD
DIMENSIONES
CUBOS, DIMENSIONES Y MEDIDAS
Analogía
❏ Las dimensiones del cubo son a las
dimensiones del modelo dimensional
❏ Las medidas del cubo son a los hechos del
modelo dimensional
Visualización
❏ Un cubo se lo visualiza como una tabla
cruzada o tabla pivot
VISUALIZACIÓN DE UN CUBO
FECHA TABLET
VENDEDOR
2013
2014
PRODUCTOPC
2015
SMARTPHONE
JUAN
PEDRO
ANDREA
TABLET PC SMARTPHONE
2013 2014 2015 2013 2014 2015 2013 2014 2015
JUAN 12 8 14 - - - - - -
PEDRO - - - 22 45 16 - - -
ANDREA - - - - - - 134 122 245
TABLA PIVOT / CRUZADA
PENTAHO SCHEMA WORKBENCH
❏ Conexión: Options > Connection >
data_model
❏ Publicación del Cubo: File > Publish
Admin|password|data_model
❏ Abrir Terminal
❏ Ejecutar los siguientes comandos:
➔ cd /opt/pentaho/schema-workbench
➔ ./workbench.sh
PENTAHO BI-SERVER
❏ Abrir Firefox: http://localhost:8080
❏ Abrir Terminal
❏ Ejecutar los siguientes comandos:
➔ cd /opt/pentaho/biserver-ce
➔ ./start-pentaho.sh
➔ sudo su - pentaho
❏ Conexión: Manage Data Sources > New
Connection > data_model
LINKS DE INTERÉS
❏ Blog Data Warehousing / Business Intelligence
con herramientas Open Source: http:
//ingmmurillo-dwh-bi.blogspot.com/
❏ Documentación API Banco Mundial: http:
//data.worldbank.org/developers/api-
overview/basic-call-structure
❏ Evaluador JSONPath en línea: http://jsonpath.
com
❏ Pentaho CE https://sourceforge.
net/projects/pentaho/files https://sourceforge.
net/projects/mondrian/files
MUCHAS GRACIAS
Para preguntas o sugerencias:
Gabriela Chasifan | gchasifan@thoughtworks.com
Byron Torres | btorres@thoughtworks.com
Mauricio Murillo | mmurillo@thoughtworks.com
Carlos Fuentes | cfuentes@thoughtworks.com

Más contenido relacionado

Similar a Análisis, preparación y visualización de datos usando herramientas Open Source

SESION 1-PRESENTACIÓN.pdf
SESION 1-PRESENTACIÓN.pdfSESION 1-PRESENTACIÓN.pdf
SESION 1-PRESENTACIÓN.pdfmikel544786
 
sdasdasdasdasdasda
sdasdasdasdasdasdasdasdasdasdasdasda
sdasdasdasdasdasdajayerxD
 
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...Software Guru
 
Migrando mis datos a la nube con Azure Data Factory
Migrando mis datos a la nube con Azure Data FactoryMigrando mis datos a la nube con Azure Data Factory
Migrando mis datos a la nube con Azure Data FactoryRaul Martin Sarachaga Diaz
 
Adaptive Big Data Pipelines
Adaptive Big Data PipelinesAdaptive Big Data Pipelines
Adaptive Big Data PipelinesCarlos Fuentes
 
Cómo construir tu propia data platform. From zero to hero.
Cómo construir tu propia data platform. From zero to hero. Cómo construir tu propia data platform. From zero to hero.
Cómo construir tu propia data platform. From zero to hero. GustavoMartin46
 
Introduccion a las Bodegas de Datos
Introduccion a las Bodegas de DatosIntroduccion a las Bodegas de Datos
Introduccion a las Bodegas de DatosJoseph Lopez
 
Trabajo de empresa
Trabajo de empresaTrabajo de empresa
Trabajo de empresaDITHOR
 
Normas icontec carlos andres murCia
Normas icontec carlos andres murCiaNormas icontec carlos andres murCia
Normas icontec carlos andres murCiacarlosmurciaxD
 
TRABAJO ACCESS
TRABAJO ACCESSTRABAJO ACCESS
TRABAJO ACCESSCAMSAN
 

Similar a Análisis, preparación y visualización de datos usando herramientas Open Source (20)

El super
El superEl super
El super
 
El super
El superEl super
El super
 
El super
El superEl super
El super
 
Clase 4 tecno i- periodismo 2015
Clase 4  tecno i- periodismo 2015Clase 4  tecno i- periodismo 2015
Clase 4 tecno i- periodismo 2015
 
298965214-s10-Costos-y-Presupuestos-Cap-1.pdf
298965214-s10-Costos-y-Presupuestos-Cap-1.pdf298965214-s10-Costos-y-Presupuestos-Cap-1.pdf
298965214-s10-Costos-y-Presupuestos-Cap-1.pdf
 
SESION 1-PRESENTACIÓN.pdf
SESION 1-PRESENTACIÓN.pdfSESION 1-PRESENTACIÓN.pdf
SESION 1-PRESENTACIÓN.pdf
 
SESION 1-PRESENTACIÓN.pdf
SESION 1-PRESENTACIÓN.pdfSESION 1-PRESENTACIÓN.pdf
SESION 1-PRESENTACIÓN.pdf
 
Bd
BdBd
Bd
 
sdasdasdasdasdasda
sdasdasdasdasdasdasdasdasdasdasdasda
sdasdasdasdasdasda
 
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
Cómo construir una plataforma poderosa de datos en un ambiente con recursos r...
 
Azure DataFactory
Azure DataFactoryAzure DataFactory
Azure DataFactory
 
Migrando mis datos a la nube con Azure Data Factory
Migrando mis datos a la nube con Azure Data FactoryMigrando mis datos a la nube con Azure Data Factory
Migrando mis datos a la nube con Azure Data Factory
 
Bd
BdBd
Bd
 
Explorando los Sabores de Azure Data Factory
Explorando los Sabores de Azure Data FactoryExplorando los Sabores de Azure Data Factory
Explorando los Sabores de Azure Data Factory
 
Adaptive Big Data Pipelines
Adaptive Big Data PipelinesAdaptive Big Data Pipelines
Adaptive Big Data Pipelines
 
Cómo construir tu propia data platform. From zero to hero.
Cómo construir tu propia data platform. From zero to hero. Cómo construir tu propia data platform. From zero to hero.
Cómo construir tu propia data platform. From zero to hero.
 
Introduccion a las Bodegas de Datos
Introduccion a las Bodegas de DatosIntroduccion a las Bodegas de Datos
Introduccion a las Bodegas de Datos
 
Trabajo de empresa
Trabajo de empresaTrabajo de empresa
Trabajo de empresa
 
Normas icontec carlos andres murCia
Normas icontec carlos andres murCiaNormas icontec carlos andres murCia
Normas icontec carlos andres murCia
 
TRABAJO ACCESS
TRABAJO ACCESSTRABAJO ACCESS
TRABAJO ACCESS
 

Más de Carlos Fuentes

Descubriendo el poder de la Ciencia de Datos.pdf
Descubriendo el poder de la Ciencia de Datos.pdfDescubriendo el poder de la Ciencia de Datos.pdf
Descubriendo el poder de la Ciencia de Datos.pdfCarlos Fuentes
 
Deep learning algo mas que una moda
Deep learning algo mas que una modaDeep learning algo mas que una moda
Deep learning algo mas que una modaCarlos Fuentes
 
Introducción a Data Science
Introducción a Data ScienceIntroducción a Data Science
Introducción a Data ScienceCarlos Fuentes
 

Más de Carlos Fuentes (8)

Descubriendo el poder de la Ciencia de Datos.pdf
Descubriendo el poder de la Ciencia de Datos.pdfDescubriendo el poder de la Ciencia de Datos.pdf
Descubriendo el poder de la Ciencia de Datos.pdf
 
soda-sql
soda-sqlsoda-sql
soda-sql
 
Firebolt vs Snowflake
Firebolt vs SnowflakeFirebolt vs Snowflake
Firebolt vs Snowflake
 
Data Ingestion in AWS
Data Ingestion in AWSData Ingestion in AWS
Data Ingestion in AWS
 
Data Mesh
Data MeshData Mesh
Data Mesh
 
CD4ML
CD4MLCD4ML
CD4ML
 
Deep learning algo mas que una moda
Deep learning algo mas que una modaDeep learning algo mas que una moda
Deep learning algo mas que una moda
 
Introducción a Data Science
Introducción a Data ScienceIntroducción a Data Science
Introducción a Data Science
 

Último

Premios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfPremios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfJC Díaz Herrera
 
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICACNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICAYOSHELINSARAIMAMANIS2
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...israel garcia
 
Familias sionistas dentro de los 10 clanes familiares más ricos por regiones ...
Familias sionistas dentro de los 10 clanes familiares más ricos por regiones ...Familias sionistas dentro de los 10 clanes familiares más ricos por regiones ...
Familias sionistas dentro de los 10 clanes familiares más ricos por regiones ...JC Díaz Herrera
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfJC Díaz Herrera
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfJC Díaz Herrera
 
Biografías y Cuadro compartivo_Cuautle Ocelotl Angel Efren.pdf.pdf
Biografías y Cuadro compartivo_Cuautle Ocelotl Angel Efren.pdf.pdfBiografías y Cuadro compartivo_Cuautle Ocelotl Angel Efren.pdf.pdf
Biografías y Cuadro compartivo_Cuautle Ocelotl Angel Efren.pdf.pdfANGELEFRENCUAUTLEOCE
 
Partes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosPartes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosMarycarmenNuez4
 
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdfLos_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdfJC Díaz Herrera
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOJuan Carlos Fonseca Mata
 
Unidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaUnidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaSilvia García
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfJC Díaz Herrera
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfJC Díaz Herrera
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfJC Díaz Herrera
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfJC Díaz Herrera
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfIrapuatoCmovamos
 
Reducción de la pobreza en Sexenio de AMLO (2018-2024).pdf
Reducción de la pobreza en Sexenio de AMLO (2018-2024).pdfReducción de la pobreza en Sexenio de AMLO (2018-2024).pdf
Reducción de la pobreza en Sexenio de AMLO (2018-2024).pdfJC Díaz Herrera
 
Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfJC Díaz Herrera
 
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdfAnaBelindaArmellonHi
 

Último (20)

Premios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfPremios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdf
 
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICACNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...
 
Familias sionistas dentro de los 10 clanes familiares más ricos por regiones ...
Familias sionistas dentro de los 10 clanes familiares más ricos por regiones ...Familias sionistas dentro de los 10 clanes familiares más ricos por regiones ...
Familias sionistas dentro de los 10 clanes familiares más ricos por regiones ...
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
 
Biografías y Cuadro compartivo_Cuautle Ocelotl Angel Efren.pdf.pdf
Biografías y Cuadro compartivo_Cuautle Ocelotl Angel Efren.pdf.pdfBiografías y Cuadro compartivo_Cuautle Ocelotl Angel Efren.pdf.pdf
Biografías y Cuadro compartivo_Cuautle Ocelotl Angel Efren.pdf.pdf
 
Partes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosPartes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicos
 
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdfLos_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
Los_países_con_la_mayor_cantidad_de_rascacielos (2023).pdf
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATO
 
Unidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaUnidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y química
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdf
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
 
Reducción de la pobreza en Sexenio de AMLO (2018-2024).pdf
Reducción de la pobreza en Sexenio de AMLO (2018-2024).pdfReducción de la pobreza en Sexenio de AMLO (2018-2024).pdf
Reducción de la pobreza en Sexenio de AMLO (2018-2024).pdf
 
Evolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdfEvolución de la fortuna de la familia Slim (1994-2024).pdf
Evolución de la fortuna de la familia Slim (1994-2024).pdf
 
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
2 PROCESO ESTADISTICO PARA LA INVESTIGACION.pdf
 

Análisis, preparación y visualización de datos usando herramientas Open Source

  • 1. Workshop “Análisis, preparación y visualización de datos usando herramientas Open Source” 05 - Marzo - 2016 Open Data Day - UIO
  • 3. ¿QUÉ ES OPEN DATA? ❏ Poner a disposición de la sociedad los datos gestionados por la administración pública ❏ Sin restricciones de derecho de autor ❏ Los datos son abiertos cuando: ➔ Accedidos ➔ Usados ➔ Modificados ➔ Compartidos
  • 4. HISTORIA ❏ El 17 de noviembre de 2003, la Directiva del Parlamento Europeo, presentaba un Tratado sobre el acceso de los datos ❏ En el año 2009 el gobierno de Estados Unidos comunicaba su iniciativa de liberar los datos ❏ El 30 de Noviembre de 2010 el Reino Unido liberó una licencia gubernamental
  • 5. PRINCIPIOS DEL OPEN DATA ❏ Los datos deben ser: ➔ Públicos ➔ Detallados ➔ Actualizados ➔ Accesibles ➔ Automatizados ➔ Sin Registro ➔ Abiertos ➔ Libres
  • 6. BENEFICIOS DEL OPEN DATA ❏ Construir nuevo conocimiento ❏ Más eficiencia en los servicios gubernamentales y la administración pública ❏ Genera nuevos indicadores económicos y sociales ❏ Mide el impacto de las políticas públicas
  • 7. OPEN DATA Y POLITICA
  • 11.
  • 13. PROCEDIMIENTO 1 Preguntas a responder 2 Obtener los Datos 3 Explorar los Datos 4Modelar los Datos Comunicar y Visualizar Resultados 5
  • 14. ALGUNAS FUENTES DE DATOS ❏ Archivos ➔ Formatos Abiertos: CSV, XML, JSON ➔ Formatos Propietarios: Excel, SPSS ❏ Bases de Datos ➔ PostgreSQL, MySQL, Oracle ❏ APIs ➔ Servicios Web SOAP: XML ➔ Servicios REST: XML/JSON ❏ Documentos (PDFs, páginas web, etc.) ❏ Redes Sociales
  • 15. FORMATOS ABIERTOS - CSV Cabecera (Header) Separador (, ; |) Enclosure (") Registros (Rows)
  • 16. FORMATOS ABIERTOS - XML Etiquetas (Tags) <tag>...</tag> Codificación
  • 17. FORMATOS ABIERTOS - JSON Valor Atributo Arreglo [ ] Objeto { }
  • 18. APIs - OPEN DATA BANCO MUNDIAL http://api.worldbank.org/countries/all/indicators/DT.DOD.DECT. CD?date=2010:2015&format=xml ❏ Invocación para obtener XML http://api.worldbank.org/countries/all/indicators/DT.DOD.DECT. CD?date=2010:2015&format=json ❏ Invocación para obtener JSON http://api.worldbank.org/countries/all/indicators/DT.DOD.DECT. CD?date=2010:2015&format=csv ❏ Invocación para obtener CSV
  • 20. ARQUITECTURA DATA_MODEL (DIMENSIONAL) CSV ETLsCSV CUBO DE DATOS ANÁLISIS Y VISUALIZACIÓN SQL POWER ARCHITECT PENTAHO DATA INTEGRATION PENTAHO SCHEMA WORKBENCH PENTAHO BI SERVER SAIKU ANALYTICS
  • 21. SOFTWARE OPEN SOURCE A USAR ❏ Procesamiento de Datos ➔ Pentaho Data Integration CE v5.4 ❏ Entrega de Información ➔ Pentaho Schema Workbench v5.4 ➔ Pentaho BI Server CE v5.4, Saiku Analytics ➔ PostgreSQL v9.3 ➔ SQL Power Architect v1.0.8 ❏ Modelamiento ➔ Oracle JDK v1.7 (Java) ❏ Base de Datos ❏ Software Base
  • 23. CONCEPTOS ❏ Consiste en modelar hechos y dimensiones para llegar a lo que se conoce como Modelo Estrella DIMENSIÓN 1 DIMENSIÓN 2 ... DIMENSIÓN N HECHOS
  • 24. CONCEPTOS DIMENSIONES ❏ Datos Cualitativos ❏ Representan información de una entidad. Ej. País, Región, Sucursal, Producto HECHOS ❏ Datos Cuantitativos ❏ Representan un indicador o medida. Ej. ventas, deuda externa, comisiones ❏ Los indicadores pueden ser agregados (sum, avg, max, min, count)
  • 26. POSTGRESQL ❏ Abrir Terminal y abrir pgAdmin III ❏ Ir a File > Add Server ❏ Crear la base de datos data_model
  • 27. SQL POWER ARCHITECT ❏ Abrir Files ❏ Ir al siguiente directorio Computer > /opt/pentaho/architect-1.0.8 ❏ Iniciar la aplicación architect.jar ❏ Conexión: Connections > Add Source Connection > New Connection ❏ Creación del modelo: Tools > Forward Engineer
  • 29. PENTAHO DATA INTEGRATION ❏ Descargar archivos CSV: http://bit.ly/1TfVKd9 en el directorio src_data y descomprimir ❏ Crear el directorio src_data en ➔ /home/vagrant/Documents/workshop ../workshop/src_data/DeudaExterna catalogo_indicadores.csv catalogo_paises.csv deuda_externa.csv
  • 30. PENTAHO DATA INTEGRATION ❏ Abrir Terminal ❏ Ejecutar los siguientes comandos: ➔ cd /opt/pentaho/data-integration ➔ ./spoon.sh ❏ Seleccionar el repositorio workshop ❏ Conexión: Tools > Repository > Connections > data_model
  • 32. CONCEPTOS ❏ Un cubo es una colección de múltiples dimensiones y medidas FECHA TABLET VENDEDOR 2013 2014 PRODUCTOPC 2015 SMARTPHONE JUAN PEDRO ANDREA MEDIDAS - VENTAS - COMISIONES - CANTIDAD DIMENSIONES
  • 33. CUBOS, DIMENSIONES Y MEDIDAS Analogía ❏ Las dimensiones del cubo son a las dimensiones del modelo dimensional ❏ Las medidas del cubo son a los hechos del modelo dimensional Visualización ❏ Un cubo se lo visualiza como una tabla cruzada o tabla pivot
  • 34. VISUALIZACIÓN DE UN CUBO FECHA TABLET VENDEDOR 2013 2014 PRODUCTOPC 2015 SMARTPHONE JUAN PEDRO ANDREA TABLET PC SMARTPHONE 2013 2014 2015 2013 2014 2015 2013 2014 2015 JUAN 12 8 14 - - - - - - PEDRO - - - 22 45 16 - - - ANDREA - - - - - - 134 122 245 TABLA PIVOT / CRUZADA
  • 35. PENTAHO SCHEMA WORKBENCH ❏ Conexión: Options > Connection > data_model ❏ Publicación del Cubo: File > Publish Admin|password|data_model ❏ Abrir Terminal ❏ Ejecutar los siguientes comandos: ➔ cd /opt/pentaho/schema-workbench ➔ ./workbench.sh
  • 36. PENTAHO BI-SERVER ❏ Abrir Firefox: http://localhost:8080 ❏ Abrir Terminal ❏ Ejecutar los siguientes comandos: ➔ cd /opt/pentaho/biserver-ce ➔ ./start-pentaho.sh ➔ sudo su - pentaho ❏ Conexión: Manage Data Sources > New Connection > data_model
  • 37. LINKS DE INTERÉS ❏ Blog Data Warehousing / Business Intelligence con herramientas Open Source: http: //ingmmurillo-dwh-bi.blogspot.com/ ❏ Documentación API Banco Mundial: http: //data.worldbank.org/developers/api- overview/basic-call-structure ❏ Evaluador JSONPath en línea: http://jsonpath. com ❏ Pentaho CE https://sourceforge. net/projects/pentaho/files https://sourceforge. net/projects/mondrian/files
  • 38. MUCHAS GRACIAS Para preguntas o sugerencias: Gabriela Chasifan | gchasifan@thoughtworks.com Byron Torres | btorres@thoughtworks.com Mauricio Murillo | mmurillo@thoughtworks.com Carlos Fuentes | cfuentes@thoughtworks.com