Taller práctico "Ciclo de vida del dato en ambientes de Business Intelligence" como primer paso a la capacitación de una organización para la explotación de los datos para aumentar la inteligencia de negocios.
Ciclo de vida del dato en ambientes de Business Intelligence
1. El proceso de análisis y
explotación de datos en
proyectos de Business
Intelligence
Módulo 01: Ciclo de vida del Dato en ambientes de BI
Alex Rayón Jerez
alex.rayon@urbegi.com
Octubre, 2014
2. Índice de contenidos
● Big Data e impacto sociedad
● Aplicaciones ámbito empresarial
● Business Intelligence
● Bases de datos
● Tipos de datos
● Ciclo de análisis de datos
● Agregación de datos
● Aspectos legales y éticos
3. Índice de contenidos
● Big Data e impacto sociedad
● Aplicaciones ámbito empresarial
● Business Intelligence
● Bases de datos
● Tipos de datos
● Ciclo de análisis de datos
● Agregación de datos
● Aspectos legales y éticos
4. Big Data y sociedad
Introducción
Según un reciente estudio del
Supervisor Europeo de Protección
de Datos (EDPS), un 57% de los
negocios de la UE utilizan ya algún
sistema para procesar los datos
que generan los 369 millones de
internautas europeos
5. Big Data y sociedad
Las 4 V’s del Big Data
Fuente: http://www.business2community.com/digital-marketing/4-vs-big-data-digital-marketing-0914845
6. Big Data y sociedad
Nueva sociología
● El concepto Big Data no es tecnológica ni
conceptualmente nada nuevo
o Realmente, es el tratamiento de datos de toda la vida
en el campo de la Sociología
Fuente: http://escueladebellasartesmanuelbelgrano.wordpress.com/category/4o-ano/sociologia/
7. Big Data y sociedad
Nueva sociología (II)
● Sin embargo, lo que sí se dispone ahora es de
nuevas tecnologías que facilitan hacer ese
tratamiento de datos
● Por lo tanto, el Big Data, no introduce un
nuevo modelo para hacer las cosas; sino que
aporta una nueva capacidad
8. Big Data y sociedad
Economía digital
● En la economía digital existen cuatro factores
clave
1. La tecnología
2. La capa de servicios asociados
3. La capacidad para generar negocios
4. Las competencias digitales: cultura digital
9. Big Data y sociedad
Economía digital (II)
Fuente: http://mundocontact.com/actualidad/page/119/
La nube se ha consolidado como el
modelo sobre el que se desarrolla
el ecosistema digital
Por ello el acceso se ha convertido,
como anticipara el sociólogo y
economista Jeremy Rifkin, en la
puerta de entrada a la economía
digital
10. Big Data y sociedad
Economía digital (III)
● La nube impone sus propias reglas de
funcionamiento que a su vez van configurando
la arquitectura de la economía digital
● Según estimaciones de Deloitte, la actividad
económica vinculada a la conectividad, solo en
los países en vías de desarrollo, podría
generar un aumento del 72% en la tasa de
crecimiento del PIB, y más de 140 millones de
nuevos puestos de trabajo
11. Big Data y sociedad
La economía digital (IV)
● Cambio demográfico
o Decisiones en manos de generación 70 y 80
o No son aún nativos digitales, pero tienen una serie de
valores distintivos:
Individualismo
Personalización
Inmediatez
Fuente: http://www.todocoleccion.net/mabel-somo-generacion-80-una-noche-amor-45-hispavox-1979-
pedido-minimo-10%E2%82%AC~x25950258
12. Big Data y sociedad
La economía digital (V)
From
Consumer-oriented Internet
towards
Company-oriented Internet
Source: http://pame95.wordpress.com/2012/11/03/mi-ensayo-planeta-web-2-0-la-intercreatividad-y-web-2-
0/
Source: http://antoniotoriz.blogspot.com.es/2013/08/internet-de-las-cosas.html#sthash.hAa2ha7K.dpbs
13. Big Data y sociedad
Transformación digital
Fuente: http://www.mujeresconsejeras.com/estrategia-digital-5-errores-que-puedes-evitar/2014/02/20/
14. Big Data y sociedad
Transformación digital (II)
Source: http://evigo.com/8570-mckinsey-digital-transformation-e-commerce-coming/
15. Big Data y sociedad
Palancas de transformación digital
1)Social Media
● Estrategia de captación y fidelización
● Objetivo: movilizar actitudes para cambiar
comportamientos
● Crecimiento en B2B
● Tráfico en buscadores vs. tráfico en redes
sociales
16. Big Data y sociedad
Palancas de transformación digital (II)
2) Movilidad
● Uso de móvil ya es superior al del PC
o España, Francia y UK lideran el uso de smartphones
● Aplicaciones B2B a punto de superar las
aplicaciones B2C
o De una Internet de consumidores a una Internet de
empresas
o Entornos B2B: desarrollar canales de comunicación
con consumidor final, que sirvan de prescriptores y
hagan pull sobre los distribuidores
17. Big Data y sociedad
Palancas de transformación digital (III)
3) eCommerce
● La tecnología expansiona mercados
● Plan único estrategia on-off
o Vinculado con estrategias pricing y clienting
o Herramientas como Minderest
Fuente: http://www.comunicacion-cultural.com/2012/05/21/la-expansion-internacional-de-las-librerias-abre-nuevos-mercados/comment-page-1/
18. Big Data y sociedad
Marketing digital y datos desestructurados
Las estrategias omnicanal de las empresas
(CRM, Call Center, Web, Social Media, etc.) han
traído muchos problemas a las empresas de
marketing para poder cuantitivizar la presencia
Fuente: http://www.samueldiosdado.com/02/el-cliente-ya-es-multicanal-es-omnicanal/
19. Big Data y sociedad
Marketing digital y datos desestructurados (II)
Source: http://www.i95dev.com/understanding-omni-channel-and-multichannel/
20. Índice de contenidos
● Big Data e impacto sociedad
● Aplicaciones ámbito empresarial
● Business Intelligence
● Bases de datos
● Tipos de datos
● Ciclo de análisis de datos
● Agregación de datos
● Aspectos legales y éticos
23. Aplicaciones empresa
Social Enterprise Stack (III)
Fuente: http://www.forbes.com/sites/louiscolumbus/2012/11/08/cloud-computing-and-enterprise-software-forecast-update-2012/
24. Aplicaciones empresa
El caso de Zappos
Fuente: http://www.automotivedigitalmarketing.com/profiles/blogs/social-network-media-savvy
Fuente: http://catalog.flatworldknowledge.com/bookhub/reader/2861?e=cadden_1.0-ch04_s01
25. Aplicaciones empresa
El caso de Zappos (II)
Fuente: http://www.slideshare.net/CarlaSC/trabajo-final-naming-zappos
26. Aplicaciones empresa
El caso de Zappos (III)
Reflexión BI.01.1: ¿Cuáles son las ventajas
competitivas y competencias clave? ¿Cuán
sostenibles son?
1. Equipo 1: Gran volumen de almacenamiento
2. Equipo 2: B2C y Cultura corporativa
3. Equipo 3: Gestión de la información
4. Equipo 4: Gestión de precios
5. Equipo 5: Logística y Operaciones
6. Equipo 6: Gestión de las relaciones B2B
7. Equipo 7: Ventas
27. Aplicaciones empresa
El caso de Zappos (IV)
Competencia Descripción
¿Cómo contribuye
a los objetivos del
negocio?
¿Cómo las TIC y las
plataformas
digitales ayudan?
¿Es sostenible? ¿Es
escalable?
28. Aplicaciones empresa
Data Layer
● En la actividad digital,
todo genera un dato
o Tarjetas de crédito
o Teléfonos móviles
o Redes sociales
o Proveedores de Internet
o Tarjeta de fidelización de
mercado
Fuente: http://www.privacidadlogica.es/2012/05/31/modelo-de-informe-sobre-sistema-de-control-horario-
basado-en-huella-digital/
29. Aplicaciones empresa
Data Layer (II)
No obtiene respuestas quién posee los datos, sino
quien sabe hacer las preguntas
Fuente: http://www.xiskya.com/2012/12/21/una-pregunta-poderosa-por-favor/
30. Aplicaciones empresa
Data Layer (III)
En la economía digital, captar datos de clientes
es cada vez más crítico
o De
1º Vender
2º Capturar el dato
o A
1º Capturar el dato
2º vender
31. Aplicaciones empresa
Data Layer (IV)
Estrategia de venta directa
1) Gestionar audiencia
2) Capturar datos
3) Convertir a ventas
32. Aplicaciones empresa
Data Layer (V)
1) Gestionar audiencia
● Fijar público objetivo
● Identificar espacios digitales donde
encontrarlos
● Crear espacios propios para captar datos y
crear la Base de Datos
● Definir líneas editoriales y métodos de
captación
33. Aplicaciones empresa
Data Layer (VI)
2) Captar datos
● Creación landing page para captar dato
● Pedir datos necesarios y clasificarlos
● Realizar seguimiento
34. Aplicaciones empresa
Data Layer (VII)
3) Convertir a venta
● Segmentación de usuarios
● Personalización de la oferta
● Planificar acciones
● Realizar seguimiento
35. Aplicaciones empresa
Data Layer (VIII)
Fuente: http://www3.weforum.org/docs/WEF_ITTC_PersonalDataNewAsset_Report_2011.pdf
36. Aplicaciones empresa
Data Layer (IX)
Fuente: http://www.theguardian.com/news/datablog/2014/apr/22/how-much-is-personal-data-worth
37. Aplicaciones empresa
Data Layer (X)
Fuente: http://www.ft.com/intl/cms/s/2/927ca86e-d29b-11e2-88ed-00144feab7de.html#axzz2z2agBB6R
44. Aplicaciones empresa
Data Layer: aplicaciones de negocio (VII)
Reflexión BI.01.2: Pensad en posibles modelos
de negocio alrededor de los datos, considerando:
1. Privacidad
2. Monetización
3. Sostenibilidad
4. Clientes directos e indirectos
5. Producto
6. Plataformas tecnológicas necesarias
45. Aplicaciones empresa
Data Layer: aplicaciones de negocio (VIII)
Modelo EFQM de Excelencia
Fuente: http://www.tqm.es/TQM/ModEur/ModeloEuropeo.htm
48. Aplicaciones empresa
Application Layer (II)
● Aplicaciones para la gestión interna
o Aplicaciones que ayuden y faciliten los procesos
internos en las empresas, tales como:
Selección y el control de personal
Gestión de los gastos
Facturas
Aprovisionamiento
Contabilidad
etc.
49. Aplicaciones empresa
Application Layer (III)
● Aplicaciones de organización
o Aplicaciones que den soporte a los empleados para
mejorar sus tareas y procesos productivos,
permitiéndoles optimizar el tiempo de trabajo, como:
Gestión de emails
Calendarios de reuniones
Videoconferencias
Trabajo en la nube
Gestión de documentos
Trabajo colaborativo
etc.
50. Aplicaciones empresa
Application Layer (IV)
● Aplicaciones de relación con
clientes/ventas
o Aplicaciones dirigidas a mejorar y agilizar la relación
con los clientes de una empresa, y que ayuden a ofrecer
servicios de venta o información a sus clientes más allá
de la tienda física, tales como:
Herramientas de de gestión de la relación con los
clientes (CRM),
Marketing
Venta online
etc.
51. Aplicaciones empresa
Application Layer (V)
ERP: Enterprise Resource Planning
List of ERP Software Packages: http://en.wikipedia.org/wiki/List_of_ERP_software_packages
52. Aplicaciones empresa
Application Layer (VI)
CRM: Customer Relationship Management
Comparación de software CRM: http://en.wikipedia.org/wiki/Comparison_of_CRM_systems
53. Aplicaciones empresa
Application Layer (VII)
SCM: Supply Chain Management
Lista de software SCM: http://www.softwareadvice.com/scm/
55. Aplicaciones empresa
Application Layer (IX)
KMS: Knowledge Management System
Fuente: http://www.prescientdigital.com/articles/content-management/content-management-in-a-knowledge-management-context/
56. Aplicaciones empresa
Application Layer (X)
eCommerce
Fuente: http://www.i-fluxtech.com/web-solution/e-Commerce-website.htm
Comparación de software ecommerce: http://en.wikipedia.org/wiki/Comparison_of_shopping_cart_software
57. Aplicaciones empresa
Social Layer
Fuente: http://www.webvigo.com/blog/el-social-business-intelligence-social-bi/
58. Aplicaciones empresa
Social Layer (II)
La solución no es
contratar a un
Community Manager
Sino redefinir los
objetivos y
procedimientos de
distintas posiciones
ya existentes dentro
de las organizaciones Fuente: http://www.enterpriseirregulars.com/19667/the-enterprise-2-0-conference-boston-
2010-lots-to-see-and-do/
59. Aplicaciones empresa
Social Layer (III)
● Ha habido un boom en tipos de medios
sociales
o La idea ha sido agrupar y conectar personas en
torno a ejes de interés común
o La mayoría han sido gratuitos: ¿dónde está la
rentabilidad? La publicidad (Facebook, Twitter) es una
tarta muy concentrada
o Casos
Pinterest: escaparate de productos y servicios
Pheed: suscripción a contenidos de pago
capitalizando la actividad de personajes célebres
60. Aplicaciones empresa
Social Layer (IV)
“75% of our employees are young people –
digital natives – and this is how they talk
to each other. The only way I am going to
get to them is to talk to them in their
medium.”
Giam Swiegers
CEO Deloitte Australia
62. Aplicaciones empresa
Social Layer (VI)
● Organizaciones 2.0: redárquicas o adhocráticas
o Capacidad innovadora
o Capacidad de adaptación al entorno
● Cultura innovadora
o Nuevo tipo de directivo o estilos de liderazgo
transformadores
o Estilos de gestión de personas
o Procesos de gestión
● Y todo ello, haciendo uso de herramientas 2.0
64. Aplicaciones empresa
Social Layer (VIII)
● Consultores
McKinsey &
Company en su
diario online
McKinsey Quarterly
The rise of the
networked enterprise
65. Aplicaciones empresa
Social Layer (IX)
● Por si esto fuera poco, los
datos recogidos por
McKinsey prueban que
existe una correlación
directa entre la
implementación del
estándar 2.0 y la
generación de
beneficios tangibles y
aumento del ROI
68. Aplicaciones empresa
Social Layer (XII)
● La identidad digital no se
está explotando bien
● La influencia que provocan
determinados perfiles, y
que por ende, generan
engagement
¿Cómo podemos detectar esa
influencia y cuantitivizarla?
Fuente: http://mattica.com/el-futuro-de-la-identidad-digital/
69. Aplicaciones empresa
Social Layer (XII)
Reflexión BI.01.3: Las TIC en la capa social.
¿Qué puede aportar las TIC en?
o Formación
o Selección
o Desarrollo
o Sistemas de Gestión Empresarial
o Marketing
o Liderazgo
o Trabajo en equipo
o etc.
70. Índice de contenidos
● Big Data e impacto sociedad
● Aplicaciones ámbito empresarial
● Business Intelligence
● Bases de datos
● Tipos de datos
● Ciclo de análisis de datos
● Agregación de datos
● Aspectos legales y éticos
71. Business Intelligence
Definición
La raíz conceptual de la inteligencia de
negocios puede relacionarse con el
libro “El Arte de la Guerra” de Sun Tzu
“Para poder ser exitosos en la Guerra,
se debe conocer complemente las
fortalezas y debilidades de uno
mismo, así como las del enemigo. El no
saber alguna de ellas podría significar
la derrota”
Fuente: http://www.taringa.net/posts/apuntes-y-monografias/
17030452/El-arte-de-gobernar-bien.
html
72. Business Intelligence
Definición (II)
En 1989, Howard Dresner, un
investigador de Gartner Group,
popularizó el acrónimo de BI (Business
Intelligence) para indicar
“El conjunto de conceptos y métodos
para mejorar la toma de decisiones en
los negocios, utilizando sistemas de apoyo
basado en hechos”
73. Business Intelligence
Definición (III)
● En la actualidad, incluye una amplia categoría
de metodologías, aplicaciones y tecnologías
que permiten:
o Reunir, acceder, transformar y analizar ...
o …. datos, transacciones e información no
estructurada (interna y externa) …
o …. con el propósito de ayudar a los usuarios de una
compañía a tomar mejores decisiones de negocio
74. Business Intelligence
¿Big Data?
Source: http://de.nr-apps.com/blog/2014/01/09/zukunft-des-handels-big-data-und-bitcoins/
76. Business Intelligence
Modelo integral de una solución BI
Fuente: https://www.pwc.com/ve/es/asesoria-gerencial/boletin/assets/boletin-advisory-edicion-10-2008.pdf
77. Business Intelligence
Modelo integral de una solución BI (II)
SQL
XML
CSV
...
Data
Management /
Integration
Ciclo /
Proceso
datos
Modelo
datos
Dashboard
Report
API
78. Business Intelligence
Modelo integral de una solución BI (III)
Un modelo integral de BI pensado como una refinería de datos
Fuente:
http://www.lavozdelsandinismo.com/economia/
2007-04-16/inicia-en-junio-construccion-de-refineria-
venezolana-en-nicaragua/
79. Business Intelligence
Componentes
● Un motor de BI/Analytics tiene que cumplir
siempre tres funciones básicas
o Obtener datos fuentes
o Disponer de un almacén estructurados de datos listos
para explotación
o Ser capaz de generar reports/informes de los datos
80. Business Intelligence
Componentes (II)
● Estas tres funciones se traducen en:
1 2 3
Proceso Modelo
Plataforma
explotación
Datos
Ciclo de
análisis
de datos
Representación
para explotación
Información y
conocimiento
81. Business Intelligence
Componentes (III)
● Estas tres funciones se traducen en:
1 2 3
Proceso Modelo
Plataforma
explotación
Datos
Ciclo de
análisis
de datos
Representación
para explotación
Información y
conocimiento
Día 1
82. Business Intelligence
Componentes (IV)
● Estas tres funciones se traducen en:
1 2 3
Proceso Modelo
Plataforma
explotación
Datos
Ciclo de
análisis
de datos
Representación
para explotación
Información y
conocimiento
Día 2
83. Business Intelligence
Componentes (V)
● Estas tres funciones se traducen en:
Día 3
1 2 3
Proceso Modelo
Plataforma
explotación
Datos
Ciclo de
análisis
de datos
Representación
para explotación
Información y
conocimiento
84. Índice de contenidos
● Big Data e impacto sociedad
● Aplicaciones ámbito empresarial
● Business Intelligence
● Bases de datos
● Tipos de datos
● Ciclo de análisis de datos
● Agregación de datos
● Aspectos legales y éticos
85. Bases de Datos
Problema en BI
● Los datos para una marca
o Son ubicuos
o Inconsistentes
o No habilitados para explotación → rendimiento!
o Los datos no siempre están en una Base de Datos
o Incompletos
o Perspectiva de captura y la Perspectiva de explotación
no suelen estar alineadas
Fuente: http://site-bakner.1minutesite.es/
86. Bases de Datos
Necesidad de conocer la BBDD
● La búsqueda de evidencias en grandes
volúmenes de datos exige conocer qué tipo
de evidencias son necesarias
● Es decir, conocimiento sobre el dominio y
entender e interpretar los patrones que se
pueden descubrir
87. Bases de Datos
Heterogeneidad
● Las Bases de Datos heterogéneas son un
conjunto de BBDD administradas por
diferentes SGBD
o La heterogeneidad de éstas se debe a que los datos son
de diferentes tipos o formatos
● En el contexto de BBDD heterogéneas se
distinguen tres tipos de heterogeneidad:
o Semántica
o Esquemática
o Sintáctica
88. Bases de Datos
Heterogeneidad: semántica
● Es la diferencia de la información en el
contexto
o Se debe a que el significado de la información se
intercambia y tiene que ser entendido a través de más
sistemas
● Para resolver el conflicto:
o Se recomienda el uso de ontologías
Es la mejor manera de que los individuos
comprendan la información de sistemas o BBDD
muy diferentes
89. Bases de Datos
Heterogeneidad: semántica (II)
● Ontologías
o Si los metadatos sirven para la estructuración del
contenido, las ontologías hacen posible una semántica
para construirlos
o Una ontología es una especificación de una
conceptualización
Es decir, un marco común o una estructura
conceptual sistematizada y de consenso
No sólo para almacenar información, sino también
para poder buscar y recuperarla
90. Bases de Datos
Heterogeneidad: semántica (III)
● Ontologías (cont.)
o Define los términos y las relaciones básicas para la
comprensión de un área del conocimiento, así como
las reglas para poder combinar los términos para
definir las extensiones de este tipo de vocabulario
controlado
91. Bases de Datos
Heterogeneidad: semántica (IV)
● Ontologías (cont.)
o Se usan para:
Favorecer la comunicación entre personas,
organizaciones y aplicaciones
Lograr la interoperabilidad entre sistemas
informáticos
Razonar automáticamente
Ingeniería del software
92. Bases de Datos
Heterogeneidad: semántica (V)
● Ontologías (cont.)
o Se componen de
Conceptos: ideas básicas que se intentan
formalizar. Pueden ser: clases de objetivos,
métodos, planes, estrategias, etc.
Relaciones: interacción y enlace entre los
conceptos de un dominio: Ejemplos: subclase-de,
parte-de, conectado-a, etc.
Funciones: tipo concreto de relación con una
identificación mediante el cálculo de una función
Instancias: representar objetos determinados
Reglas de restricción o axiomas: teoremas que
deben cumplir los elementos de la ontología
93. Bases de Datos
Heterogeneidad: semántica (VI)
● Ontologías (cont.)
o Las ontologías formales se expresan en un lenguaje
estructurado denominado RDF
Convertir las declaraciones de los recursos en
expresiones con la forma sujeto-objeto-predicado
o OWL
Lenguaje de marcado para publicar y compartir
datos usando ontologías
Facilita un modelo de marcado construido sobre
RDF y codificado en XML
94. Bases de Datos
Heterogeneidad: esquemática
● Diferencias en las abstracciones hechas en
cuanto a la definición de clases, atributos y
sus relaciones
● Para solucionar:
o Esquema compartido y mediador de contexto
El usuario se comunica con el esquema
compartido, y éste al resolver los conflictos se
comunica con el mediador de contexto que es el
encargado de mapear la información
Cuando el esquema tenga la solución a la pregunta
se la envía al mediador para que la vuelva a
mapear y así pasársela al usuario
95. Bases de Datos
Heterogeneidad: sintáctica
● Se refiere a las diferencias en las
representaciones de los datos
Fuente: http://www.juntadeandalucia.es/averroes/ceip_san_rafael/DATOS/INTRODUCCION.htm
96. Índice de contenidos
● Big Data e impacto sociedad
● Aplicaciones ámbito empresarial
● Business Intelligence
● Bases de datos
● Tipos de datos
● Ciclo de análisis de datos
● Integración de datos
● Aspectos legales y éticos
97. Tipos de datos
Ventaja competitiva
● Los datos es tanto un arte como una ciencia
o Ciencia
Mucha investigación
Nunca hace Data Mining “sin más”
o Arte
Razonamiento crítico
Visión de negocio
Conocimiento del dominio
98. Tipos de datos
Cambio
● El avance tecnológico ha cambiado
sustantivamente las fuentes de datos
o Se estima que el 80% de la información del mundo
está desestructurada
o Los datos desestructurados están creciendo a un ritmo
de 15 veces superior a los estructurados
o La capacidad de procesamiento está creciendo a un
ritmo tan alto que no tenemos en ese sentido
problemas
o El acceso a la información es realmente fácil para
todos
[Eaton2012]
99. Tipos de datos
Fuentes
● RDBMS (SQL Server, DB2, Oracle, MySQL,
PostgreSQL, Sybase IQ, etc.)
● NoSQL Data: HBase, Cassandra, MongoDB
● OLAP (Mondrian, Palo, XML/A)
● Web (REST, SOAP, XML, JSON)
● Files (CSV, Fixed, Excel, etc.)
● ERP (SAP, Salesforce, OpenERP)
● Hadoop Data: HDFS, Hive
● Web Data: Twitter, Facebook, Log Files, Web Logs
● Others: LDAP/Active Directory, Google Analytics,
etc.
100. Tipos de datos
Fuentes (II)
Source: http://www.bigdata-startups.com/BigData-startup/understanding-sources-big-data-infographic/
102. Tipos de datos
Archivos
● Documentos escaneados
● Formularios
● Registros
● Archivos en papel
● ...
103. Tipos de datos
Documentos
● XLS
● PDF
● CSV
● email
● PPT
● HTML
● XML
● JSON
● ...
104. Tipos de datos
Media
● Imágenes
● Vídeos
● Audio
● Flash
● Streaming
● Podcasts
● ...
105. Tipos de datos
Almacenamiento de datos
● SQL
● NoSQL
● Hadoop
● Repositorio de documentos
● Sistema de ficheros
● ...
106. Tipos de datos
Aplicaciones de negocio
● CRM
● ERP
● CMS
● HRM
● KMS
● SCM
● LMS
● Intranet
● ...
107. Tipos de datos
Web pública
● Portales de datos abiertos
● Institutos de estadística
● Banco Mundial
● Wikipedia
● IMDb
● ...
108. Tipos de datos
Social Media
● Twitter
● LinkedIn
● Facebook
● Tumblr
● Blog
● SlideShare
● Instagram
● Google+
● Chatter
● ….
109. Tipos de datos
Logs
● Eventos
● Servidores
● Aplicaciones
● Procesos de negocio
● CDRs
● Localización móvil
● Uso de aplicaciones móviles
● Clickstream
● ...
110. Tipos de datos
Datos de sensores
● Dispositivos médicos
● Sensores de vehículos
● Satélites
● Videojuegos
● ...
111. Tipos de datos
Comparación
Archivos Docs Media BBDD Aplicac.
Negocio
Web
pública
Social
Media
Logs Sensores
¿Estructura?
¿Semántica?
¿Esquemática
?
¿Sintáctica?
112. Tipos de datos
Desestructurados
Apache Drill
Fuente: http://incubator.apache.org/drill/
113. Índice de contenidos
● Big Data e impacto sociedad
● Aplicaciones ámbito empresarial
● Business Intelligence
● Bases de datos
● Tipos de datos
● Ciclo de análisis de datos
● Agregación de datos
● Aspectos legales y éticos
114. Ciclo de análisis de datos
Introducción
Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
116. Ciclo de análisis de datos
Retos
● Los datos están en todos los sitios
o Datos ubicuos
● Son inconsistentes
o Los registros están expresados de diferentes maneras
en cada sistema
● Problemas de rendimiento
o Hacer consultas a base de datos para resumir los datos
suelen ser largos
o Lleva al Sistema Operativo a una carga máxima
● Los datos no siempre están en Bases de Datos
o Hojas Excel, servicios web, desestructurados, etc.
117. Ciclo de análisis de datos
Retos (II)
● Los datos son incompletos
● Algunos tipos de datos no están registrados en
ningún lugar
[Mazza2012]
o Al no estar expresados, no podrán ser explotados
● La perspectiva de almacenamiento no suele
coincidir con la perspectiva de explotación
● Los usuarios suelen tener recelos para
extraer conclusiones de algunos datos
119. Ciclo de análisis de datos
Modelos (II)
A framework of characteristics for Analytics
Adam Cooper, 2012 [Cooper2012]
120. Ciclo de análisis de datos
Proceso
1) Seleccionar 2) Capturar 3) Agregar 4) Procesar 5) Utilizar 6) Refinar
Más datos no
es más
conocimiento
Extracción,
muestreo y
ética
Proceso de
calidad de
datos
Análisis
+
Acción
Hacer
operativos los
trabajos
anteriores
Post-procesamiento
121. Ciclo de análisis de datos
1) Seleccionar
1) Seleccionar
● Plantear las preguntas/problemas a resolver
● Seleccionar los datos necesarios para responder a las
preguntas formuladas
● Éste es precisamente uno de los retos actuales
o ¿Qué datos son los críticos?
● Hay que poner sensores allí dónde estén los datos más
relevantes
o Para este paso, suele ser interesante contar con
expertos del dominio
122. Ciclo de análisis de datos
1) Seleccionar (II)
1) Seleccionar
● Vivimos en una era en la que tener acceso a datos no es el
problema
o El reto está en determinar qué datos son significativos
y significantes y por qué
Fuente: http://cesar-organizaciones.blogspot.com.es/2011/05/que-es-un-sistema-de-informacion-un.html
123. Ciclo de análisis de datos
1) Seleccionar (III)
1) Seleccionar
“The basic question is
not what can we
measure? The basic
question is what does
a good education look
like? Big questions”
124. Ciclo de análisis de datos
1) Seleccionar (IV)
1) Seleccionar
Actividad BI.01.1. Big questions
1. Consumo
2. Institucional
3. B2B
4. Criminalidad
5. Educación
125. Ciclo de análisis de datos
1) Seleccionar (V)
1) Seleccionar
Actividad BI.01.1. Big questions
● Montar equipos de BI
o Arquitecto BI
Administrador fuentes de datos, gestor ETL,
herramientas tecnológicas
o Data Manager
Administrar datos, minería de datos, analista
calidad de datos, administrar metadatos
o Consultor de negocio
Procesos a optimizar, necesidades cliente
Transversal
- Conocimiento
dominio
- Gestión de
proyecto
126. Ciclo de análisis de datos
1) Seleccionar (VI)
1) Seleccionar
Actividad BI.01.1. Big questions
● ¿Qué problemas le puedo ayudar a la empresa a
resolver?
o Generación de datos para su captura
o Procesamiento
o Explotación de datos
Leer aplicaciones de ámbito empresarial
127. Ciclo de análisis de datos
2) Capturar
2) Capturar
● Extracción de los datos
o Ante la Variedad de las fuentes de datos, se hace
necesario disponer de un proceso ETL
● Así, se podrán transformar datos optimizados para
transacciones a datos optimizados para el análisis y el
reporting
● Se pueden emplear técnicas de muestreo de datos
● Respetar las leyes y la ética
Leer “Aspectos legales y éticos”
Leer “Tipos de datos”
128. Ciclo de análisis de datos
2) Capturar (II)
2) Capturar
Actividad BI.01.2. Integrar en un ETL diferentes
tipos de datos necesarios para responder a las
preguntas y resolver los problemas
● Mínimo 4 diferentes tipos de datos
● Listado de acciones de cumplimiento ético y de
leyes
130. Ciclo de análisis de datos
3) Agregar
3) Agregar
● Reto actual: Variedad marketing omnical
● Necesidad de un modelo de datos normalizado para
disponer de procesos de datos sostenibles
● Tareas
o Limpieza de datos, Integración, Transformación,
Reducción, Modelado, Rectificación de inconsistencias
y anomalías, Normalización
131. Ciclo de análisis de datos
3) Agregar (II)
3) Agregar
Actividad BI.01.3. Preparar los datos para su
posterior explotación
● Definir dimensiones (ir)
● Definir Reglas de Negocio (ir)
● Análisis metadatos (ir)
● Flujo de transformación y Reglas de Negocio
(ir)
Leer “Bases de Datos”
Leer “Agregación de Datos”
132. Ciclo de análisis de datos
4) Procesar
4) Procesar
● Analizar los datos normalizados y preparados
● Decidir contextos de explotación
o Predicción
o Intervención
o Adaptación
o Personalización
o Recomendación
o Alertas tempranas
o Reflexión
133. Ciclo de análisis de datos
4) Procesar (II)
4) Procesar
Motor de
Analytics
Predicción
Adaptación
Personalización
Intervención
...
Recomendación
134. Ciclo de análisis de datos
5) Utilizar
5) Utilizar
● Hacer operativos los trabajos anteriores
● Posibles escenarios de operación
o Dashboard de KPIs
o Informes
o APIs de explotación desde otros sistemas
o ...
135. Ciclo de análisis de datos
5) Utilizar (II)
5) Utilizar
Actividad BI.01.4. Pensar en escenarios de puesta
en valor del conocimiento descubierto
● ¿Qué?
● ¿Cómo?
● ¿Dónde?
● ¿Cuándo?
● ¿Por qué?
136. Ciclo de análisis de datos
6) Refinar
6) Refinar
● Post-procesamiento
o Nuevos atributos al modelo
o Nuevos indicadores
o Nuevos tareas de calidad de datos
o Nuevos métodos de análisis
o ….
137. Índice de contenidos
● Big Data e impacto sociedad
● Aplicaciones ámbito empresarial
● Business Intelligence
● Bases de datos
● Datos estructurados y desestructurados
● Ciclo de análisis de datos
● Agregación de datos
● Aspectos legales y éticos
138. Agregación de datos
Introducción
● El enfoque de ETL no es suficiente para dar
sentido y posibilidad de explotación a los
datos agregados
o Los datos, así, deben ser normalizados para poder
eliminar todos los posibles problemas que pueden
aparecer en un proceso de integración de datos
o Por ello, se habla de agregación/integración de datos
para la normalización de los datos
139. Agregación de datos
Introducción (II)
● Además, la mala calidad de los datos genera
costes de mantenimiento y reparación
● Además de estos aspectos económicos, la mala
calidad de datos también afecta a la
satisfacción del usuario y a la reputación sobre
la toma de decisiones estratégicas
140. Agregación de datos
Introducción (III)
● La agregación/integración de datos es el paso
más complicado de un proyecto de BI
o Datanami: puede llegar a consumir hasta el 60-70% de
un proyecto
o Según otras fuentes, entre un 70 y un 85%
● Aquí tenemos que hablar de integrar todas las
fuentes de datos en un dataset con datos
apropiados para el objetivo concreto que se
tiene en el proyecto
● Se hace necesario, por lo tanto, un proceso
para garantizar la calidad de los datos
141. Agregación de datos
Introducción (IV)
Source: http://www.learningfrontiers.eu/?q=story/will-analytics-transform-education
142. Agregación de datos
Gestión de la calidad de los datos
● La calidad de los datos emergió como una un
área de investigación académica a comienzos
de los 90
o No es nada nuevo tampoco ;-)
● En grandes y pequeñas compañías, la
sensibilidad hacia la importancia de la
calidad de los datos es un fenómeno más
reciente
144. Agregación de datos
Gestión de la calidad de los datos (III)
● El significado principal de la calidad de los
datos es que resulte apropiado para un
particular uso que se quiera realizar
o Aptitud para ser utilizado
o Adecuación a requisitos
o Un concepto relativo dependiente de las necesidades
del usuario
145. Agregación de datos
Gestión de la calidad de los datos (IV)
● De este modo, los mismos datos pueden ser
evaluados en diferentes grados de calidad en
función de las necesidades del usuario
Fuente: http://mitiq.mit.edu/iciq/pdf/an%20evaluation%20framework%20for%20data%20quality%20tools.pdf
146. Agregación de datos
Gestión de la calidad de los datos (V)
● Criterios de medición de la calidad (en función
de necesidades particulares)
o Completitud
Valores de atributos, registros y tablas
o Precisión
Fiabilidad y veracidad
o Consistencia
Respetar una serie de restricciones/reglas de negocio
o Relevancia
Usabilidad para los stakeholders
o Unicidad
Una entidad (marca, producto, persona, servicio, etc.)
es observada en contextos diferentes
[Goasdoué2007]
147. Agregación de datos
Criterios: 1) Completitud
● Falta algún valor? (tabla, columna, instancia)
o Ejemplos
Falta el código postal en el 50% de los registros
● Algunas métricas
o Ratio de valores ausentes (tabla, columna, instancia)
● Para la mejora
o Estimación del valor por técnicas estadísticas
o Ignorar el valor para explotaciones futuras
o Emplearlo, a sabiendas de los problemas que puede
originar
148. Agregación de datos
Criterios: 1) Completitud (II)
● El rendimiento del modelo (el porcentaje de
predicciones acertadas) dentro del intervalo
de confianza establecidos, depende en mucho
de esta criterio de calidad
Fuente: http://es.wikipedia.org/wiki/Intervalo_de_confianza
149. Agregación de datos
Criterios: 2) Precisión
● Cercanía entre el valor v y un valor v’ considerando éste
como la correcta representación de la realidad que el valor v
intenta representar
o Ejemplos
Algunos proveedores que están marcados como
Activos fueron a la quiebra hace meses
● Algunas métricas
o Número de estimaciones desviadas
o Comparaciones con valores reales
Fuente: http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S0864-34662007000200012
150. Agregación de datos
Criterios: 2) Precisión (II)
● Es un parámetro muy relacionado con la
precisión, la fiabilidad y la veracidad
● En la práctica, a pesar de la atención que ha
recibido, es difícil cuantitivizar la precisión de
una medición
o Es una operación muy cara de realizar
o Esto se debe a que para poder realizarlo hay que
disponer de datos de referencia externos
o Por ello, se hacen verificaciones menos estrictas
(patrones de comienzo de códigos, ratios
desproporcionados entre géneros, etc.)
151. Agregación de datos
Criterios: 3) Consistencia
● Los datos son consistentes si satisfacen un
conjunto de restricciones
● Para que sea efectivo, se deben establecer
unas estrategias de control
o Aquí es donde aparece el concepto de “Regla de
negocio”
De este modo, la consistencia se puede ver como
una subdimensión de la precisión
Aún así, la consistencia solo da una medida
indirecta de la precisión
● Esta dimensión es esencial en la práctica
152. Agregación de datos
Criterios: 3) Consistencia (II)
● Métricas
o ratio de % de conjuntos de datos que satisfacen las
restricciones
● En el contexto de las herramientas de calidad
de datos, los flujos de transformación de datos
y sus reglas de negocio se centran
básicamente en controles de consistencia
153. Agregación de datos
Criterios: 4) Relevancia
● ¿Son los datos relevantes para la tarea que se
tiene entre manos?
● Métricas
o Grado de utilidad
● Oportunidades de mejora
o Encuestas
Preguntando a los stakeholders por el grado de
utilidad de las respuestas dadas, ayudará a mejorar
la relevancia de tareas de agregación de datos
futuras (en especial, la primera tarea de selección
de datos)
154. Agregación de datos
Criterios: 4) Relevancia (II)
● Éste es un problema nuclear al Big Data
o Con la aparición de grandes volúmenes de datos, los
usuarios en ocasiones se sienten frustrados por la
incapacidad para sacar algún dato útil entre toda la
maraña de datos
o Por ello, los usuarios pueden tener el prejuicio hacia la
poca utilidad de los datos resultantes de un proyecto
de BI
o Sin embargo, la utilidad juega un papel central en la
aceptación del proyecto
o Por lo tanto, habrá que realmente medirlo (y
mejorarlo, en su caso, si procediera)
155. Agregación de datos
Criterios: 5) Unicidad
● Es un problema que aparece cuando una
entidad del modelo de datos aparece en más
de una ocasión
o Ejemplo
Alexander Rayón y Alex Rayón son el mismo
empleado, pero observado en dos fuentes de datos
diferentes → pudieran parecer dos entidades, al no
coincidir a primera vista
156. Agregación de datos
Criterios: 5) Unicidad (II)
● Métricas
o % de duplicados
o número de instancias superior a las esperadas (más
difícil, por no conocer a priori el número de instancias)
157. Agregación de datos
Conjuntos de datos
Dataset
Instancia / Observación / Puntos de datos
Asignar valores a las características definidas
en el modelo de datos para diferentes
entidades y sus relaciones
Representado a través de un conjunto de
características/atributos/medidas
Atributo de clase
(para problemas de predicción)
159. Agregación de datos
1) Definir
Definir
● Dimensiones
Reglas de negocio
Esquema / Diccionario de datos
Modelo de datos
o Dominio/Contexto: unidad mínima de análisis,
representación y explotación
o Tiempo: real-time o bajo demanda
o Frecuencia: de medición (fija o variable)
o Extracción de atributos: ¿con qué me quedo? (símil de la
extracción de keywords representativas en un texto)
o Jerarquía: para consultas (niveles de abstracción)
o Granularidad: representación para explotación posterior
160. Agregación de datos
1) Definir: Reglas de negocio
Pensando en las dimensiones de calidad de datos
anteriormente expuestas
Source: http://themodernaccountant.com/2012/06/18/pearls-of-wisdom/
161. Agregación de datos
1) Definir: Reglas de negocio (II)
Nivel Esquema: conflictos nominales y estructura
● Homónimos: mismo nombre para diferentes
objetos
● Sinónimos: diferentes nombres para el mismo
objeto
● Diferentes tipos de datos
● Diferentes estructura de componentes
● Diferentes restricciones de integridad
162. Agregación de datos
1) Definir: Reglas de negocio (III)
Nivel Instancia
● Atributo
o Valores nulos, misspellings, valores crípticos, abreviaciones,
valores embebidos, etc.
● Registro
o Dependencias de atributo incorrectas (zip y ciudad)
● Tipo de registro
o Transposiciones de palabras, registros duplicados, registros
contradictorios
● Fuente
o Referencias incorrectas (nº departamento es incorrecto)
● Agregación
o Granularidad (ventas por grupo vs. ventas por producto) o
puntos de tiempo (semanal, diaria, quincenal, etc.)
164. Agregación de datos
1) Definir: Reglas de negocio (V)
Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
165. Agregación de datos
1) Definir: Esquema / Modelo de datos
Source: http://en.wikipedia.org/wiki/Data_modeling
166. Agregación de datos
1) Definir: Metodología
Source: http://www.blockmagic.eu/main/?page_id=54
167. Agregación de datos
2) Procesar
Procesar Poner los datos a cumplir todas las
reglas de negocio
1) Análisis de datos
2) Flujo de transformación y
reglas de negocio
3) Verificación
4) Transformación
- Análisis metadatos de los datos: Profiling (1 a 1) o Mining (patrones)
- Quitar duplicados
- Atomización → desdoblar en varios campos
- Discretización
- Normalización: modelo referencial; unión; unicidad; nulos
- Integridad
- Eliminar ruido (malas observaciones, shocks exógenos, etc.)
- Outlier → obtención de conclusiones
- Valores vacíos: 1) Eliminar instancia; 2) Predecir por interpolación; 3) Usarlo para procesar
- Quitar la tendencia lineal (para fijarse en fluctuaciones… si es lo que interesa)
- Validación → dependencias de atributos para validar y corregir
- Verificar efectividad flujo de transformación y reglas de negocio
- Ejecución en serie
5) Realimentación - Para evitar trabajos futuros sobre los mismos datos
168. Agregación de datos
2) Procesar: Quitar duplicados
Fuente: http://tutorialenexcel.blogspot.com.es/2012/10/15-tutorial-excel-manejando-la.html
169. Agregación de datos
2) Procesar: Atomización
Fuente: http://www.educarchile.cl/ech/pro/app/detalle?ID=133092
170. Agregación de datos
2) Procesar: Discretización
Fuente: http://7542.fi.uba.ar/tecnica/sonido-en-windows/
171. Agregación de datos
2) Procesar: Normalización
Fuente: http://www.anmopyc.es/noticia/boletin_de_normalizacion_julio_2014
172. Agregación de datos
2) Procesar: Integridad
Fuente: http://diariodelapelusa.blogspot.com.es/2013/04/de-la-integridad.html
173. Agregación de datos
2) Procesar: Eliminar ruido
Fuente: http://www.dominandocamtasia.com/blog/como-eliminar-el-ruido-de-un-video
174. Agregación de datos
2) Procesar: Gestión outliers
Fuente: http://mathworld.wolfram.com/Outlier.html
175. Agregación de datos
2) Procesar: Gestión valores vacíos
Fuente: http://www.fengfly.com/plus/view-169414-1.html
176. Agregación de datos
2) Procesar: Quitar la tendencia lineal
Fuente: http://www.monografias.com/trabajos96/regresion-lineal-simplificada-agricola/regresion-lineal-simplificada-agricola.shtml
177. Agregación de datos
2) Procesar: Validación
Fuente: http://www.empleoagil.com/contenido.php?id=22
178. Agregación de datos
3) Publicar
Publicar
Estándar a seguir (extensibilidad, productividad
y evitar fragmentaciones)
¿Modelo de datos?
¿Unidad de registro?
...
179. Agregación de datos
3) Publicar (II)
Fuente: http://www.londonshippingcontainers.co.uk/
180. Agregación de datos
3) Publicar (III)
Source: http://www.activelightning.com/automated_publishing/variable-data-printing.html
181. Agregación de datos
Herramientas
Interactive Data Transformation Tools (IDTs)
1. Pentaho Data Integration: Kettle PDI
2. Talend Open Studio
3. DataCleaner
4. Talend Data Quality
5. Google Refine
6. Data Wrangler
7. Potter's Wheel ABC
182. Agregación de datos
1) Kettle PDI
● Free to decide where and how realize tasks in
terms of:
○ Profiling
○ Cleansing
○ Integrity
○ Validation
● It is based on metadata
185. Agregación de datos
3) DataCleaner
● Profiling tool recommended by Pentaho
○ It can also be integrated with Kettle PDI
● Alternatives:
○ Desktop tool
○ Web tool
○ Plugin in Kettle PDI
186. Agregación de datos
3) DataCleaner (II)
● Features
○ Data cleansing
○ Data dictionary definition
○ Pattern, duplicated, null, etc. search and
detection
○ Monitoring
○ Full results statistics
○ etc.
192. Índice de contenidos
● Big Data e impacto sociedad
● Aplicaciones ámbito empresarial
● Business Intelligence
● Bases de datos
● Tipos de datos
● Ciclo de análisis de datos
● Agregación da datos
● Aspectos legales y éticos
193. Aspectos legales y éticos
Fuente: http://www.educause.edu/ero/article/ethics-big-data-and-analytics-model-application
198. El proceso de análisis y
explotación de datos en
proyectos de Business
Intelligence
Módulo 01: Ciclo de vida del Dato en ambientes de BI
Alex Rayón Jerez
alex.rayon@urbegi.com
Octubre, 2014