SlideShare una empresa de Scribd logo
1 de 89
Procesamiento y
visualización de datos
para generar nuevo
conocimiento
Formación interna UD
Alex Rayón Jerez
alex.rayon@deusto.es, @alrayon
Septiembre, 2015
Pensamiento cuantitativo en mi día a día
Integración de datos heterogéneos
Visualización de datos
Matriz de datos
Procesado y visualización de datos básica
Herramientas para el análisis, integración y
visualización
Procesamiento avanzado
Tabla de contenidos
2
Tabla de contenidos
3
Pensamiento cuantitativo en mi día a día
Integración de datos heterogéneos
Visualización de datos
Matriz de datos
Procesado y visualización de datos básica
Herramientas para el análisis, integración y
visualización
Procesamiento avanzado
Pensamiento cuantitativo
Introducción
Tres clases de conceptos científicos: cualitativos,
comparativos y cuantitativos
Los modelos científicos más básicos son los
conceptuales:
Y es sobre estos pilares sobre los que se puede erigir una
buena ciencia
Los aspectos cuantitativos son siempre posteriores y su
validez depende de los primeros
Sin embargo, se trata de un aspecto que suelen olvidar los
investigadores con harta frecuencia.
4
Pensamiento cuantitativo
Introducción (II)
Comprenden el conjunto de aprendizajes que se
espera de los alumnos para conducirlos a altos
niveles de alfabetización matemática
La abstracción numérica y el razonamiento
numérico son dos habilidades básicas que se
pueden adquirir y son fundamentales
Durante la educación, las actividades mediante el
juego y la resolución de problemas contribuyen
al uso de los principios del contenido y técnicas
5
Pensamiento cuantitativo
Propósito
Usen el razonamiento matemático en situaciones
que demanden:
Establecer relaciones de correspondencia
Cantidad y ubicación entre objetos al contar, estimar,
reconocer atributos, comparar y medir
Comprendan relaciones entre los problemas
Usen procedimientos propios para resolverlos
etc.
6
Pensamiento cuantitativo
Propósito (II)
También que se desarrollen los siguientes
estándares de matemáticas:
Sentido numérico y pensamiento algebraico
Forma, espacio y medida
Manejo de la información
Actitud hacia el estudio de las matemáticas
7
Pensamiento cuantitativo
Fenómeno Big Data
En pocos años el crecimiento de los bancos de
datos ha sido exponencial
Cualquier aparato digital genera gratis mucha información
sobre su uso
Ejemplos: medidores, aparatos TIC, redes, etc.
Muestras de miles de datos y de variables comienzan a ser
habituales
Cada vez hay mayor demanda por descubrir
conocimiento (insights) a un menor coste
Los datos son una ventaja competitiva entre
países, negocios y personas
8
Pensamiento cuantitativo
Fenómeno Big Data (II)
9
Fuente: http://www.slideshare.net/TechnetFrance/rec201-mstechdaysfinal130213033305phpapp02-19779391
Pensamiento cuantitativo
Fenómeno Big Data (III)
10
Fuente: http://www.ashubhatia.com/blog_ind.php?p=742
Tabla de contenidos
11
Pensamiento cuantitativo en mi día a día
Integración de datos heterogéneos
Visualización de datos
Matriz de datos
Procesado y visualización de datos básica
Herramientas para el análisis, integración y
visualización
Procesamiento avanzado
Integración de datos
Introducción
12Fuente: https://tomyrhymond.wordpress.com/category/bigdata/
Integración de datos
El problema
13
La gran variedad de tipos y formatos de datos
utilizados hoy en día exige que los datos se
integren de maneras muy diversas
La mayoría de los programas de integración de
datos son complicados y costosos y suelen estar
destinados a un tipo concreto de base de datos
o de formato de salida
Además, muchos programas de integración de datos
requieren la compra de adaptadores adicionales o
cobran por el código de programa generado
Integración de datos
La solución
14
En contraste con desarrollos a medidas o
procedimientos almacenados, las tecnologías de
integración de datos permiten asumir
proyectos que impliquen:
Transferencia de datos, transformaciones complejas de
datos, el acceso a fuentes de datos múltiples, con
tiempos de latencia apropiados (batch, tiempo real) y
minimizando los riesgos más frecuentes:
Tiempos de desarrollo excesivos
Costes de mantenimiento altos
Dificultades a la hora de responder a las necesidades
empresariales en continuo cambio
Tabla de contenidos
15
Pensamiento cuantitativo en mi día a día
Integración de datos heterogéneos
Visualización de datos
Matriz de datos
Procesado y visualización de datos básica
Herramientas para el análisis, integración y
visualización
Procesamiento avanzado
“Perfection is achieved not
when there is nothing more to
add, but when there is nothing
left to take away”
Antoine de Saint-Exupery
16
Visualización de datos
Introducción
Narrativa
+
Diseño
+
Estadística
17
Visualización de datos
Introducción (II)
Peligro de perderse con los datos
Irrelevante para la tarea que se tiene entre manos
Procesado de una manera inapropiada
Presentado de una manera inapropiada
Source: http://www.planetminecraft.com/server/padlens-maze/
18
Visualización de datos
Introducción (III)
19
Visualización de datos
Visual Analytics
Los buenos gráficos…
Señalan relaciones, tendencias o patrones
Exploran datos para inferir nuevo conocimiento
Hace fácil de entender un concepto, idea o hecho
Permite observar una realidad desde diferentes puntos de
vista
Permite recordar una idea
20
Visualización de datos
Los buenos gráficos
Es una forma de expresión
Como las matemática, la música, la pintura o la escritura
En consecuencia, tiene una serie de reglas que respetar
Source: http://powerlisting.wikia.com/wiki/Mathematics_Manipulation
21
Visualización de datos
Forma de expresión
1) Procesamiento eficiente de información
22
Visualización de datos
Beneficios
2) Relaciones y patrones entre actividades de negocio y operaciones
Fuente: http://www.mediameasurement.com/my-my-a-smoky-eyed-surprise/
23
Visualización de datos
Beneficios (II)
3) Identificar y actuar en tendencias emergentes cuanto antes
Fuente: http://www.propertyweek.com/emerging-trends-sustainability-given-the-green-light/5065937.article
24
Visualización de datos
Beneficios (III)
4) Manipular e interactuar directamente con datos
Fuente: http://blog.visual.ly/interaction-design-for-data-visualizations/
25
Visualización de datos
Beneficios (IV)
5) Fortalecer un nuevo lenguaje de negocio
Fuente: http://www.qualia.hr/businessq/visualize/
26
Visualización de datos
Beneficios (V)
Information is beautiful
Fuente: http://www.informationisbeautiful.net/visualizations/the-microbescope/ 27
Visualización de datos
Popularidad
Vox
Fuente: http://www.vox.com/2014/10/18/6995441/map-greatest-threat-country
28
Visualización de datos
Popularidad (II)
Politikon: Kiko Llaneras
Fuente: http://politikon.es/2014/01/30/personas-datos-gimnasios-y-patrones/
29
Visualización de datos
Popularidad (III)
30
Visualización de datos
Popularidad (IV)
31
Visualización de datos
Popularidad (V)
Source: http://ierg.net/about/briefguide.html#cogtools
32
Visualización de datos
Conceptos
[Keim2006] 33
Visualización de datos
Conceptos: Visual Analytics
[Verbert2014]
34
Visualización de datos
Conceptos: Visual Analytics (II)
35
Visualización de datos
Conceptos: Visual Analytics (III)
The practice of
presenting information
in a way that fosters
efficient and effective
understanding of it
36
Visualización de datos
Conceptos: Diseño de información
Ranking of elementary perceptual tasks [ClevelandMcGill1985]
37
Visualización de datos
Mapeo de datos
Tabla de contenidos
38
Pensamiento cuantitativo en mi día a día
Integración de datos heterogéneos
Visualización de datos
Matriz de datos
Procesado y visualización de datos básica
Herramientas para el análisis, integración y
visualización
Procesamiento avanzado
Matriz de datos
Introducción
Tanto las hojas de cálculo como las bases de datos
tienen tablas, ¿por qué debería utilizar una base
de datos y no una hoja de cálculo?
Al comparar las hojas de cálculo y las bases de
datos se pueden encontrar las siguientes
cuestiones que se verán en mayor detalle
después
39
Matriz de datos
Ejemplo
40
Nombre y apellidos Teléfono Dirección
Juana Salgado 799 23 43 12 Calle Larga 1, Córdoba
Adán García 711 19 77 21 Mérida, Paseo Marítimo 5
Juana Salgado 110 98 98 00 Calle Larga 1
Salgado Juana 312 43 42 22 Sevilla, Calle Larga 1
ADÁN García 231 83 02 04 Paseo Marítimo 5, Mérida
... ... ...
Matriz de datos
Integridad de los datos de referencia
Suponga que está utilizando una hoja de cálculo y
que necesita cambiar la dirección de al menos
una persona
Tiene un pequeño problema: tiene que cambiar la
dirección en muchas filas
Por ejemplo, Juana aparece en tres filas
Pero aparecerá un problema de verdad si olvida cambiar
una de las filas - la dirección asignada a esta persona se
volverá ambigua, y por tanto sus datos perderán
integridad.
Además, no hay una forma sencilla de eliminar una única
persona de la tabla, porque tiene que borrar todas las
filas relativas a esa persona 41
Matriz de datos
Redundancia de datos
En los campos «nombre» y «apellido» y
«dirección» se ha introducido el mismo dato
varias veces
Esto es típico del inefectivo modo de las hojas de cálculo
de almacenar los datos puesto que la base de datos crece
innecesariamente, y por tanto requiere más recursos del
equipo (un tamaño mayor de los datos y un acceso más
lento).
¿Cómo puede solucionar estos problemas con una base de
datos? Puede dividir la información en trozos más
pequeños creando una tabla adicional Personas con solo
dos columnas: Nombre y apellido y Dirección
42
Matriz de datos
Integridad y validez de los datos
Observe la forma en que se introducen los datos
en los campos Nombre y apellido y Dirección
La gente que introduce los datos puede cometer
errores, algunas veces incluso negligentes
En nuestros datos de ejemplo tenemos diversas
secuencias de introducción del nombre y el
apellido (Joan Smith y Smith Joan; Adam y
ADAM) y muchas más formas de introducir la
misma dirección
43
Matriz de datos
Integridad y validez de los datos (II)
Para solucionar este problema
Separando los datos del campo Nombre y apellido en dos
campos independientes: Nombre y Apellido.
Separando los datos del campo Dirección en tres campos
independientes: Calle, Número de casa y Ciudad.
Garantizando la corrección de los datos: asegurándose de
que no hay ningún campo vacío, p. ej. debe introducir
siempre un número de casa.
Gracias a la introducción del campo requerido
condición podemos estar seguros de que los
datos introducidos están completos
44
Matriz de datos
Limitar la visualización de los datos
Una hoja de cálculo muestra todas las líneas y las
columnas de la tabla, que a veces puede ser
molesto en las hojas enormes de datos
Por supuesto, puede filtrar y ordenar las líneas de la hoja de cálculo,
aunque debe extremar los cuidados cuando vaya a hacerlo
Los usuarios de la hoja de cálculo pueden olvidar que la vista de datos
se ha filtrado, lo que puede inducir a cometer errores
Si desea trabajar sobre un pequeño subconjunto de los datos, p. ej. para
enviárselo a otros para que lo editen, puede copiarlo y pegarlo en
otra hoja de cálculo y después de la edición pegar los datos
modificados devueltos a la hoja de cálculo principal. Estas ediciones
“manuales” pueden provocar pérdida de datos o cálculos
incorrectos
45
Matriz de datos
Limitar la visualización de los datos (II)
Para limitar la visualización de los datos, las
aplicaciones de bases de datos ofrecen
consultas, formularios e informes.
Vamos a suponer que la columna recientemente
introducida «Sueldo» contiene datos confidenciales.
¿Cómo puede compartir p. ej. detalles de contacto de las
personas con sus compañeros de trabajo pero sin revelar
sus sueldos? Es posible si comparte solo una consulta y
no la tabla completa
La consulta puede seleccionar todas las columnas excepto
la columna «Sueldo». En el mundo de las bases de datos
una consulta de este tipo se suele conocer como una
«vista». 46
Matriz de datos
Rendimiento y capacidad
Las hojas de cálculo que contienen conjuntos de
datos muy grandes tardan mucho tiempo en
abrirse
Una hoja de cálculo carga multitud de datos en la
memoria del computador al abrirse. La mayor
parte de los datos que se cargan posiblemente
sean innecesarios y no se utilicen en ese
momento
Las bases de datos, a diferencia de las hojas de
cálculo, cargan los datos almacenados en el
computador solo cuando los necesita 47
Matriz de datos
Rendimiento y capacidad (II)
En la mayor parte de las ocasiones, no tendrá que
preocuparse de cómo se almacenan los datos en
la base de datos
Esto significa que, a diferencia de las hojas de
cálculo, las bases de datos no se preocupan de:
La secuencia de las filas, porque puede ordenar las líneas
según sus necesidades
Además, puede ver los mismos datos en diversas vistas con
diferente ordenación.
Lo mismo se aplica también a las columnas (campos) de la
tabla.
48
Matriz de datos
Entrada de datos
Las últimas ediciones de las aplicaciones de
creación de hojas de cálculo le permiten diseñar
formularios para introducir datos
Este tipo de formularios son los más utilizados cuando los
datos no se pueden visualizar adecuadamente en la vista
de tabla, p. ej., si el texto ocupa demasiadas líneas o si
todas las columnas no caben en la pantalla.
En este caso, la forma en la que funciona la hoja de cálculo
es problemática
Los campos para la entrada de la base de datos presentan
dificultades para ubicarlos en la hoja de cálculo, y suelen
ser poco seguros frente a la manipulación (intencionada
49
Matriz de datos
Informes
Las bases de datos activan la agrupación, la
limitación y resumen de datos en un formulario
de un informe
Las hojas de cálculo normalmente se imprimen en
un formulario de pequeñas tablas sin control
completamente automático sobre las divisiones
de las páginas o la disposición de los campos.
50
Matriz de datos
Programación
Las aplicaciones para crear bases de datos suelen
ofrecer lenguajes de programación
Las hojas de cálculo más recientes también tienen estas
capacidades, pero reducen la capacidad de modificar los
campos de la hoja de cálculo y la copia de datos sencilla,
sin olvidar la relevancia de las reglas de identidad que se
mencionaron en los párrafos anteriores
El procesamiento de datos en la hoja de cálculo se suele
hacer mediante una interfaz gráfica de usuario, que
puede reducir la velocidad de procesamiento de los
datos. Las bases de datos pueden trabajar en segundo
plano, fuera de las interfaces gráficas.
51
Matriz de datos
Multiuso
Una forma clásica de compartir los datos
almacenados en una hoja de cálculo con otras
personas es enviar un archivo completo
(normalmente, por correo electrónico) o
proporcionar un archivo de hoja de cálculo en
una red de computadores
Esta forma de trabajar en poco eficaz para grupos de
muchas personas: los datos que pueden ser necesarios
en un momento los puede tener bloqueados otra
persona
52
Matriz de datos
Multiuso (II)
Por otro lado, las bases de datos se han diseñado
pensando que puede haber varios usuarios
accediendo a los datos. Incluso en la versión más
simple, es posible bloquear una fila de un tabla
en concreto, lo que hace posible compartir los
datos de la tabla.
53
Matriz de datos
Seguridad
Asegurar una hoja de cálculo o alguna de sus
secciones con una contraseña es una mera
actividad simbólica
Después de distribuir un archivo de hoja de cálculo por una
red de computadores, la gente puede copiar el archivo e
intentar averiguar la contraseña
A veces no es tan difícil, porque la contraseña está
almacenada en el mismo archivo que la hoja de cálculo
Las características para editar los bloqueos o para bloquear
la copia de una hoja de cálculo (o parte de ella) es igual
de fácil de eludir
54
Matriz de datos
Seguridad (II)
Las bases de datos (salvo que estén almacenadas
en un archivo en lugar de en un servidor) no
suelen estar disponibles en un único archivo
Se suele acceder a ellas usando una red de ordenadores,
normalmente proporcionando un nombre de usuario y
una contraseña
Obtiene acceso solo a esas áreas (tablas, formularios o
incluso filas y columnas seleccionadas) que le han sido
asignadas para definir los adecuados derechos de acceso.
Los derechos de acceso pueden afectar a la capacidad para
editar datos o para acceder a los datos
55
Tabla de contenidos
56
Pensamiento cuantitativo en mi día a día
Integración de datos heterogéneos
Visualización de datos
Matriz de datos
Procesado y visualización de datos básica
Herramientas para el análisis, integración y
visualización
Procesamiento avanzado
Vamos a tener que combinar muchas
herramientas estadísticas en un mismo
problema
Cómo encontrar relaciones y patrones, clasificar,
hacer grupos, etc., será clave
Cómo reducir la dimensión eficazmente
The Elements of Statistical Learning (Hastie
Tibshirani) clave para el futuro
57
Procesado y visualización
Funcionalidades
58
Procesado y visualización
Hoja de cálculo en educación
59
Procesado y visualización
Hacerse preguntas
Hay que saber elegir preguntas relevantes y
utilizar los métodos apropiados
Son muchos artículos publicados que son pura
matemáticas y technicalities sin interés
Además, suelen estar desconectados de los
problemas estadísticos esenciales
60
Procesado y visualización
Tipos de datos
Valores constantes
Un dato que se introduce directamente en una celda.
Puede ser un número, una fecha u hora, o un texto.
Fórmulas
Secuencias formadas por: valores constantes, referencias a
otras celdas, nombres, funciones u operadores
Las fórmulas deben empezar siempre por el signo =
61
Procesado y visualización
Errores en los datos
62
Procesado y visualización
Insertar funciones
Una función es una fórmula predefinida por una
hoja de cálculo que opera uno o más valores y
devuelve un resultado que se muestra en la
celda
La sintaxis de cualquier función es la siguiente:
nombre_función(argumento1, argumento2,...,
argumentoN)
63
Procesado y visualización
Insertar funciones (II)
Hay varias maneras de introducir una función
Las más frecuentes son:
Utilizar el asistente de funciones, en la pestaña de
Fórmulas
Si la función es muy frecuente, podemos utilizar la opción
Autosuma en el menú de Inicio
Si conocemos la sintaxis de la función, podemos escribirla
manualmente
Una función siempre debe ir precedida de un = a
no ser que esté dentro de otra operación
64
Procesado y visualización
Funciones más frecuentes
65
Procesado y visualización
Tabla de una hoja de cálculo
Una tabla de Excel es un conjunto de datos
organizados en filas o registros, en la que la
primera fila contiene las cabeceras de las
columnas (los nombres de los campos), y las
demás filas contienen los datos almacenados.
Las tablas son muy útiles porque además de
almacenar información, incluyen una serie de
operaciones que permiten analizar y
administrar esos datos de forma muy cómoda.
66
Procesado y visualización
Tabla de una hoja de cálculo (II)
Entre las operaciones más interesantes que
podemos realizar con las tablas tenemos:
Ordenar la los registros.
Filtrar el contenido de la tabla por algún criterio.
Utilizar fórmulas para la lista añadiendo algún tipo de
filtrado.
Crear un resumen de los datos.
Aplicar formatos a todos los datos.
67
Procesado y visualización
Tabla de una hoja de cálculo (III)
Para crear una tabla debemos seguir los
siguientes pasos:
Seleccionar el número de celdas (con datos o vacías) que
queremos incluir en la tabla
Seleccionar Tabla en la pestaña Insertar
A continuación aparece el cuadro Crear tabla, en el
podremos seleccionar el rango de celdas a incluir si no lo
hemos hecho todavía. Pulsamos aceptar.
Habremos creado nuestra tabla, ahora podemos darle
diseño.
68
Procesado y visualización
Gráficos
Un gráfico es una representación gráfica de los datos
de una hoja de cálculo que facilita su interpretación
En esta sección aprenderemos cómo crear gráficos a
partir de los datos introducidos en una hoja de
cálculo.
Cuando creamos un gráfico en Excel podemos optar
por crearlo:
Como gráfico incrustado: Insertar gráfico en una hoja
normal como cualquier otro objeto
Como hoja de gráfico: Crear el gráfico en una hoja
exclusiva para él. En estas hojas no existen celdas ni
ningún otro tipo de objeto
69
Procesado y visualización
Gráficos (II)
Es recomendable que antes de crear el gráfico
tengamos seleccionado el rango de celdas que
queremos que participen en el gráfico, ya que
así Excel será capaz de crearlo automáticamente
En caso contrario el gráfico se mostrará en blanco
Existen varios tipos de gráficos a nuestra
disposición
Simplemente hay que seleccionar el que necesitemos y
hacer clic en aceptar
70
Procesado y visualización
Gráficos (III)
Cuando creamos un gráfico automáticamente se
creará un grupo de pestañas Herramientas de
gráficos, que engloba las pestañas de Diseño,
Presentación y Formato.
En la pestaña de Diseño podremos cambiar el tipo de gráfico, cambiar los datos
y elegir el diseño de gráfico que queremos. También podremos mover el
gráfico a otra hoja o crear una hoja de gráfico.
En la pestaña de Presentación se encuentran todas las opciones relativas a qué
queremos ver en el gráfico (título, ejes, tabla de datos, líneas de
cuadrícula...)
En la pestaña de Formato podremos dar un estilo más personalizado a nuestro
gráfico cambiando su relleno, su contorno, etc. También podremos cambiar
el tamaño de sus elementos y situar su posición dentro de la hoja
71
Procesado y visualización
Aplicación: Gestión de calificaciones
Ahora vamos a aplicar todos los conocimientos
teórico-prácticos explicados en un caso aplicable
a la gestión docente. Vamos a crear un cuadro
de calificaciones para una asignatura.
Repasaremos los elementos más importantes del
curso como las funciones, el formato
condicional, creación de tablas, gráficos y
minigráficos
72
Procesado y visualización
Aplicación: Gestión de calificaciones (II)
Enunciado
Dar formato de tabla al rango de celdas que contienen las
calificaciones y cambiar el color de la tabla a verde
Calcular la nota final según las ponderaciones de cada
actividad de evaluación
Escribir unas observaciones según el comentario de la
celda mediante la función SI
Dar formato condicional a la nota final según el
comentario de la celda
Calcular la nota final máxima, el número de alumnos, la
nota media (redondeando a 2 decimales) y el número de
suspensos.
73
Procesado y visualización
Aplicación: Gestión de calificaciones (III)
Enunciado
Ordenar la tabla en función de las notas finales de mayor a menor
Filtrar los resultados de la tabla para que solo aparezcan los
aprobados [5;7). Eliminar el filtro.
Crear un gráfico de las notas finales de la clase
El gráfico debe ser de columnas 3D de color naranja y debe
estar en una hoja aparte llamada 'Gráfico' y cuya pestaña
sea de color rojo.
Crear un minigráfico de línea con el progreso en las notas de cada
alumno a la derecha de la columna de observaciones e
incluirlo en la tabla
Llamar a nuestra hoja 'Cuadro de Calificaciones' y colorear la
etiqueta de azul
74
Procesado y visualización
Aplicación: Gestión de calificaciones (IV)
Enunciado
Crear un gráfico circular en el que aparezca representada
la distribución de suspensos, aprobados, notables y
sobresalientes. Situarlo debajo de la tabla
Para ello vamos a tener que contarlos.
Tabla de contenidos
75
Pensamiento cuantitativo en mi día a día
Integración de datos heterogéneos
Visualización de datos
Matriz de datos
Procesado y visualización de datos básica
Herramientas para el análisis, integración y
visualización
Procesamiento avanzado
Herramientas
Un resumen
76
Herramientas
Microsoft Excel
77
Herramientas
Google Spreadsheets
78
Herramientas
Google Fusion Tables
79
Herramientas
Statwing
80
Herramientas
Plot.ly
81
Herramientas
Supermetrics
82
Herramientas
Tableau Public
83
Herramientas
CartoDB
84
Tabla de contenidos
85
Pensamiento cuantitativo en mi día a día
Integración de datos heterogéneos
Visualización de datos
Matriz de datos
Procesado y visualización de datos básica
Herramientas para el análisis, integración y
visualización
Procesamiento avanzado
Procesamiento avanzado
Introducción
La Estadística actual fue creado por Pearson y
Fisher para tratar con pequeñas muestras
Muestras pequeñas (n<200)
Descripción univariante
Inferencia: homogeneidad de los datos y utilización óptima de la
información
Modelos paramétricos simples y escuetos
Estimación óptima (suficiencia, eficiencia) y contraste de hipótesis
Contrastes de ajuste
Datos categóricos, tablas de contingencia
Modelos de regresión lineal
Modelos multivariantes lineales bajo hipótesis de normalidad
Series temporales lineales univariantes
86
Procesamiento avanzado
Introducción (II)
Limitaciones de estos métodos para una muestra
de 100,000 datos y 500 variables:
Heterogeneidad: diferentes modelos en diferentes zonas
del espacio
Ajuste del modelo: Se rechaza cualquier contraste de
ajuste o modelo paramétrico simple
Eficiencia irrelevante y más importante robustez, grupos
heterogeneidad; relaciones entre las variables
Necesitamos nuevos métodos automáticos de selección y
comparación de modelos
87
Copyright (c) 2015 University of Deusto
This work (but the quoted images, whose rights are reserved to their owners*) is licensed under the Creative
Commons “Attribution-ShareAlike” License. To view a copy of this license, visit
http://creativecommons.org/licenses/by-sa/3.0/
Alex Rayón Jerez
Septiembre 2015
Procesamiento y
visualización de datos
para generar nuevo
conocimiento
Formación interna UD
Alex Rayón Jerez
alex.rayon@deusto.es, @alrayon
Septiembre, 2015

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Análisis y procesamiento de datos para descubrir conocimiento
Análisis y procesamiento de datos para descubrir conocimientoAnálisis y procesamiento de datos para descubrir conocimiento
Análisis y procesamiento de datos para descubrir conocimiento
 
Modelos de propensión en la era del Big Data
Modelos de propensión en la era del Big DataModelos de propensión en la era del Big Data
Modelos de propensión en la era del Big Data
 
Cómo optimizar mi estrategia de marketing a través del big data
Cómo optimizar mi estrategia de marketing a través del big dataCómo optimizar mi estrategia de marketing a través del big data
Cómo optimizar mi estrategia de marketing a través del big data
 
El Big Data y Business Intelligence en mi empresa: ¿de qué me sirve?
El Big Data y Business Intelligence en mi empresa: ¿de qué me sirve?El Big Data y Business Intelligence en mi empresa: ¿de qué me sirve?
El Big Data y Business Intelligence en mi empresa: ¿de qué me sirve?
 
Marketing intelligence: Optimizando la estrategia a través del Big Data
Marketing intelligence: Optimizando la estrategia a través del Big DataMarketing intelligence: Optimizando la estrategia a través del Big Data
Marketing intelligence: Optimizando la estrategia a través del Big Data
 
El Big Data en la dirección comercial: market(ing) intelligence
El Big Data en la dirección comercial: market(ing) intelligenceEl Big Data en la dirección comercial: market(ing) intelligence
El Big Data en la dirección comercial: market(ing) intelligence
 
Customer Lifetime Value Management con Big Data
Customer Lifetime Value Management con Big DataCustomer Lifetime Value Management con Big Data
Customer Lifetime Value Management con Big Data
 
Herramientas y metodologías Big Data para acceder a datos no estructurados
Herramientas y metodologías Big Data para acceder a datos no estructuradosHerramientas y metodologías Big Data para acceder a datos no estructurados
Herramientas y metodologías Big Data para acceder a datos no estructurados
 
Smart Data para la mejora de la educación y sus procesos de enseñanza aprendi...
Smart Data para la mejora de la educación y sus procesos de enseñanza aprendi...Smart Data para la mejora de la educación y sus procesos de enseñanza aprendi...
Smart Data para la mejora de la educación y sus procesos de enseñanza aprendi...
 
Las competencias digitales como método de observación de competencias genéricas
Las competencias digitales como método de observación de competencias genéricasLas competencias digitales como método de observación de competencias genéricas
Las competencias digitales como método de observación de competencias genéricas
 
Mejorando la experiencia de cliente a través del Big Data
Mejorando la experiencia de cliente a través del Big DataMejorando la experiencia de cliente a través del Big Data
Mejorando la experiencia de cliente a través del Big Data
 
Ciclo de vida del dato en ambientes de Business Intelligence
Ciclo de vida del dato en ambientes de Business IntelligenceCiclo de vida del dato en ambientes de Business Intelligence
Ciclo de vida del dato en ambientes de Business Intelligence
 
El scoring bancario en los tiempos del Big Data
El scoring bancario en los tiempos del Big DataEl scoring bancario en los tiempos del Big Data
El scoring bancario en los tiempos del Big Data
 
Curso verano upv_2013_eustat_overalia_guillermo_vilarroig
Curso verano upv_2013_eustat_overalia_guillermo_vilarroigCurso verano upv_2013_eustat_overalia_guillermo_vilarroig
Curso verano upv_2013_eustat_overalia_guillermo_vilarroig
 
Estrategias omnicanal para la mejora de los procesos de comunicación y marke...
	Estrategias omnicanal para la mejora de los procesos de comunicación y marke...	Estrategias omnicanal para la mejora de los procesos de comunicación y marke...
Estrategias omnicanal para la mejora de los procesos de comunicación y marke...
 
Google Analytics enfocado al e-commerce
Google Analytics enfocado al e-commerceGoogle Analytics enfocado al e-commerce
Google Analytics enfocado al e-commerce
 
Proyecto análisis predictivo mercados en base a internet
Proyecto análisis predictivo mercados en base a internetProyecto análisis predictivo mercados en base a internet
Proyecto análisis predictivo mercados en base a internet
 
Curso analitica-web-cebek-2014-overalia
Curso analitica-web-cebek-2014-overaliaCurso analitica-web-cebek-2014-overalia
Curso analitica-web-cebek-2014-overalia
 
Marketing en Internet: claves para triunfar en época de crisis
Marketing en Internet: claves para triunfar en época de crisisMarketing en Internet: claves para triunfar en época de crisis
Marketing en Internet: claves para triunfar en época de crisis
 
Google Analytics básico, por Guillermo Vilarroig (Overalia), en CEBEK
Google Analytics básico, por Guillermo Vilarroig (Overalia), en CEBEKGoogle Analytics básico, por Guillermo Vilarroig (Overalia), en CEBEK
Google Analytics básico, por Guillermo Vilarroig (Overalia), en CEBEK
 

Destacado

Advanced Reporting and ETL for MongoDB: Easily Build a 360-Degree View of You...
Advanced Reporting and ETL for MongoDB: Easily Build a 360-Degree View of You...Advanced Reporting and ETL for MongoDB: Easily Build a 360-Degree View of You...
Advanced Reporting and ETL for MongoDB: Easily Build a 360-Degree View of You...
MongoDB
 

Destacado (9)

Deusto Knowledge Hub como herramienta de publicación y descubrimiento de cono...
Deusto Knowledge Hub como herramienta de publicación y descubrimiento de cono...Deusto Knowledge Hub como herramienta de publicación y descubrimiento de cono...
Deusto Knowledge Hub como herramienta de publicación y descubrimiento de cono...
 
Enterprise Reporting with MongoDB and JasperSoft
Enterprise Reporting with MongoDB and JasperSoftEnterprise Reporting with MongoDB and JasperSoft
Enterprise Reporting with MongoDB and JasperSoft
 
Introducción al software libre y open source
Introducción al software libre y open sourceIntroducción al software libre y open source
Introducción al software libre y open source
 
Fomentando la colaboración en el aula a través de herramientas sociales
Fomentando la colaboración en el aula a través de herramientas socialesFomentando la colaboración en el aula a través de herramientas sociales
Fomentando la colaboración en el aula a través de herramientas sociales
 
Utilizando Google Drive y Google Docs en el aula para trabajar con mis estudi...
Utilizando Google Drive y Google Docs en el aula para trabajar con mis estudi...Utilizando Google Drive y Google Docs en el aula para trabajar con mis estudi...
Utilizando Google Drive y Google Docs en el aula para trabajar con mis estudi...
 
Análisis de Redes Sociales (Social Network Analysis) y Text Mining
Análisis de Redes Sociales (Social Network Analysis) y Text MiningAnálisis de Redes Sociales (Social Network Analysis) y Text Mining
Análisis de Redes Sociales (Social Network Analysis) y Text Mining
 
Advanced Reporting and ETL for MongoDB: Easily Build a 360-Degree View of You...
Advanced Reporting and ETL for MongoDB: Easily Build a 360-Degree View of You...Advanced Reporting and ETL for MongoDB: Easily Build a 360-Degree View of You...
Advanced Reporting and ETL for MongoDB: Easily Build a 360-Degree View of You...
 
Búsqueda, organización y presentación de recursos de aprendizaje
Búsqueda, organización y presentación de recursos de aprendizajeBúsqueda, organización y presentación de recursos de aprendizaje
Búsqueda, organización y presentación de recursos de aprendizaje
 
El Big Data en mi empresa ¿de qué me sirve?
El Big Data en mi empresa  ¿de qué me sirve?El Big Data en mi empresa  ¿de qué me sirve?
El Big Data en mi empresa ¿de qué me sirve?
 

Similar a Procesamiento y visualización de datos para generar nuevo conocimiento

Similar a Procesamiento y visualización de datos para generar nuevo conocimiento (20)

Business intelligence
Business intelligenceBusiness intelligence
Business intelligence
 
Data Science: Correlación curricular
Data Science: Correlación curricularData Science: Correlación curricular
Data Science: Correlación curricular
 
Data Science: Correlación curricular
Data Science: Correlación curricularData Science: Correlación curricular
Data Science: Correlación curricular
 
Profesión: Big Data
Profesión: Big DataProfesión: Big Data
Profesión: Big Data
 
Lineamientos para la visualización de datos
Lineamientos para la visualización de datosLineamientos para la visualización de datos
Lineamientos para la visualización de datos
 
Introducción a Big Data
Introducción a Big DataIntroducción a Big Data
Introducción a Big Data
 
introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------
 
Introducción al Big Data y el Business Intelligence
Introducción al Big Data y el Business IntelligenceIntroducción al Big Data y el Business Intelligence
Introducción al Big Data y el Business Intelligence
 
Unidad 3. Learning Analitycs, Social Media Analitycs, Bigdata, Web 3.0, Web U...
Unidad 3. Learning Analitycs, Social Media Analitycs, Bigdata, Web 3.0, Web U...Unidad 3. Learning Analitycs, Social Media Analitycs, Bigdata, Web 3.0, Web U...
Unidad 3. Learning Analitycs, Social Media Analitycs, Bigdata, Web 3.0, Web U...
 
Big Data Analytics: Oportunidades, Retos y Tendencias
Big Data Analytics: Oportunidades, Retos y TendenciasBig Data Analytics: Oportunidades, Retos y Tendencias
Big Data Analytics: Oportunidades, Retos y Tendencias
 
Ciencia de datos
Ciencia de datosCiencia de datos
Ciencia de datos
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Datos en la era de la información
Datos en la era de la informaciónDatos en la era de la información
Datos en la era de la información
 
Telematica Eicea
Telematica EiceaTelematica Eicea
Telematica Eicea
 
Construyendo un panel de visualización de indicadores clave
Construyendo un panel de visualización de indicadores claveConstruyendo un panel de visualización de indicadores clave
Construyendo un panel de visualización de indicadores clave
 
La geografía y la estadística. dos necesidades para entender big data
La geografía y la estadística. dos necesidades para entender big dataLa geografía y la estadística. dos necesidades para entender big data
La geografía y la estadística. dos necesidades para entender big data
 
Sesion04 analisis-interpretar
Sesion04 analisis-interpretarSesion04 analisis-interpretar
Sesion04 analisis-interpretar
 
Tema1
Tema1Tema1
Tema1
 
Hacia ti capacitación virtual pasos 01, 02, 03
Hacia ti capacitación virtual pasos 01, 02, 03Hacia ti capacitación virtual pasos 01, 02, 03
Hacia ti capacitación virtual pasos 01, 02, 03
 
Gestiona la Información en Tu Empresa
Gestiona la Información en Tu EmpresaGestiona la Información en Tu Empresa
Gestiona la Información en Tu Empresa
 

Más de Alex Rayón Jerez

Más de Alex Rayón Jerez (8)

El poder de los datos: hacia una sociedad inteligente, pero ética
El poder de los datos: hacia una sociedad inteligente, pero éticaEl poder de los datos: hacia una sociedad inteligente, pero ética
El poder de los datos: hacia una sociedad inteligente, pero ética
 
Profesiones de mañana para trabajar hoy
Profesiones de mañana para trabajar hoyProfesiones de mañana para trabajar hoy
Profesiones de mañana para trabajar hoy
 
Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...
Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...
Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...
 
Visual analytics: poniendo en valor el dato a través de la visualización
Visual analytics: poniendo en valor el dato a través de la visualizaciónVisual analytics: poniendo en valor el dato a través de la visualización
Visual analytics: poniendo en valor el dato a través de la visualización
 
Yo como persona emprendedora
Yo como persona emprendedoraYo como persona emprendedora
Yo como persona emprendedora
 
La transformación digital del sector financiero
La transformación digital del sector financieroLa transformación digital del sector financiero
La transformación digital del sector financiero
 
Marketing digital para la captación de más clientes
Marketing digital para la captación de más clientesMarketing digital para la captación de más clientes
Marketing digital para la captación de más clientes
 
Las competencias digitales en mi empresa: ¿en qué me pueden ayudar?
Las competencias digitales en mi empresa: ¿en qué me pueden ayudar?Las competencias digitales en mi empresa: ¿en qué me pueden ayudar?
Las competencias digitales en mi empresa: ¿en qué me pueden ayudar?
 

Último

Ediciones Previas Proyecto de Innovacion Pedagogica ORIGAMI 3D Ccesa007.pdf
Ediciones Previas Proyecto de Innovacion Pedagogica ORIGAMI 3D  Ccesa007.pdfEdiciones Previas Proyecto de Innovacion Pedagogica ORIGAMI 3D  Ccesa007.pdf
Ediciones Previas Proyecto de Innovacion Pedagogica ORIGAMI 3D Ccesa007.pdf
Demetrio Ccesa Rayme
 
Pasos para enviar una tarea en SIANET - sólo estudiantes.pdf
Pasos para enviar una tarea en SIANET - sólo estudiantes.pdfPasos para enviar una tarea en SIANET - sólo estudiantes.pdf
Pasos para enviar una tarea en SIANET - sólo estudiantes.pdf
NELLYKATTY
 
Las Preguntas Educativas entran a las Aulas CIAESA Ccesa007.pdf
Las Preguntas Educativas entran a las Aulas CIAESA  Ccesa007.pdfLas Preguntas Educativas entran a las Aulas CIAESA  Ccesa007.pdf
Las Preguntas Educativas entran a las Aulas CIAESA Ccesa007.pdf
Demetrio Ccesa Rayme
 
FICHA DE LA VIRGEN DE FÁTIMA.pdf educación religiosa primaria de menores
FICHA DE LA VIRGEN DE FÁTIMA.pdf educación religiosa primaria de menoresFICHA DE LA VIRGEN DE FÁTIMA.pdf educación religiosa primaria de menores
FICHA DE LA VIRGEN DE FÁTIMA.pdf educación religiosa primaria de menores
Santosprez2
 
Apunte clase teorica propiedades de la Madera.pdf
Apunte clase teorica propiedades de la Madera.pdfApunte clase teorica propiedades de la Madera.pdf
Apunte clase teorica propiedades de la Madera.pdf
Gonella
 

Último (20)

Ediciones Previas Proyecto de Innovacion Pedagogica ORIGAMI 3D Ccesa007.pdf
Ediciones Previas Proyecto de Innovacion Pedagogica ORIGAMI 3D  Ccesa007.pdfEdiciones Previas Proyecto de Innovacion Pedagogica ORIGAMI 3D  Ccesa007.pdf
Ediciones Previas Proyecto de Innovacion Pedagogica ORIGAMI 3D Ccesa007.pdf
 
Pasos para enviar una tarea en SIANET - sólo estudiantes.pdf
Pasos para enviar una tarea en SIANET - sólo estudiantes.pdfPasos para enviar una tarea en SIANET - sólo estudiantes.pdf
Pasos para enviar una tarea en SIANET - sólo estudiantes.pdf
 
Síndrome piramidal 2024 según alvarez, farrera y wuani
Síndrome piramidal 2024 según alvarez, farrera y wuaniSíndrome piramidal 2024 según alvarez, farrera y wuani
Síndrome piramidal 2024 según alvarez, farrera y wuani
 
Power Point : Motivados por la esperanza
Power Point : Motivados por la esperanzaPower Point : Motivados por la esperanza
Power Point : Motivados por la esperanza
 
Realitat o fake news? – Què causa el canvi climàtic? - La desertització
Realitat o fake news? – Què causa el canvi climàtic? - La desertitzacióRealitat o fake news? – Què causa el canvi climàtic? - La desertització
Realitat o fake news? – Què causa el canvi climàtic? - La desertització
 
Estudios Sociales libro 8vo grado Básico
Estudios Sociales libro 8vo grado BásicoEstudios Sociales libro 8vo grado Básico
Estudios Sociales libro 8vo grado Básico
 
Libros del Ministerio de Educación (2023-2024).pdf
Libros del Ministerio de Educación (2023-2024).pdfLibros del Ministerio de Educación (2023-2024).pdf
Libros del Ministerio de Educación (2023-2024).pdf
 
Las Preguntas Educativas entran a las Aulas CIAESA Ccesa007.pdf
Las Preguntas Educativas entran a las Aulas CIAESA  Ccesa007.pdfLas Preguntas Educativas entran a las Aulas CIAESA  Ccesa007.pdf
Las Preguntas Educativas entran a las Aulas CIAESA Ccesa007.pdf
 
Proyecto de Participación Estudiantil Completo - Bachillerato Ecuador
Proyecto de Participación Estudiantil Completo - Bachillerato EcuadorProyecto de Participación Estudiantil Completo - Bachillerato Ecuador
Proyecto de Participación Estudiantil Completo - Bachillerato Ecuador
 
ACERTIJO CÁLCULOS MATEMÁGICOS EN LA CARRERA OLÍMPICA. Por JAVIER SOLIS NOYOLA
ACERTIJO CÁLCULOS MATEMÁGICOS EN LA CARRERA OLÍMPICA. Por JAVIER SOLIS NOYOLAACERTIJO CÁLCULOS MATEMÁGICOS EN LA CARRERA OLÍMPICA. Por JAVIER SOLIS NOYOLA
ACERTIJO CÁLCULOS MATEMÁGICOS EN LA CARRERA OLÍMPICA. Por JAVIER SOLIS NOYOLA
 
TÉCNICAS OBSERVACIONALES Y TEXTUALES.pdf
TÉCNICAS OBSERVACIONALES Y TEXTUALES.pdfTÉCNICAS OBSERVACIONALES Y TEXTUALES.pdf
TÉCNICAS OBSERVACIONALES Y TEXTUALES.pdf
 
REGLAMENTO FINAL DE EVALUACIÓN 2024 pdf.pdf
REGLAMENTO  FINAL DE EVALUACIÓN 2024 pdf.pdfREGLAMENTO  FINAL DE EVALUACIÓN 2024 pdf.pdf
REGLAMENTO FINAL DE EVALUACIÓN 2024 pdf.pdf
 
FICHA DE LA VIRGEN DE FÁTIMA.pdf educación religiosa primaria de menores
FICHA DE LA VIRGEN DE FÁTIMA.pdf educación religiosa primaria de menoresFICHA DE LA VIRGEN DE FÁTIMA.pdf educación religiosa primaria de menores
FICHA DE LA VIRGEN DE FÁTIMA.pdf educación religiosa primaria de menores
 
Evaluación de los Factores Externos de la Organización.
Evaluación de los Factores Externos de la Organización.Evaluación de los Factores Externos de la Organización.
Evaluación de los Factores Externos de la Organización.
 
El liderazgo en la empresa sostenible, introducción, definición y ejemplo.
El liderazgo en la empresa sostenible, introducción, definición y ejemplo.El liderazgo en la empresa sostenible, introducción, definición y ejemplo.
El liderazgo en la empresa sostenible, introducción, definición y ejemplo.
 
MINEDU BASES JUEGOS ESCOLARES DEPORTIVOS PARADEPORTIVOS 2024.docx
MINEDU BASES JUEGOS ESCOLARES DEPORTIVOS PARADEPORTIVOS 2024.docxMINEDU BASES JUEGOS ESCOLARES DEPORTIVOS PARADEPORTIVOS 2024.docx
MINEDU BASES JUEGOS ESCOLARES DEPORTIVOS PARADEPORTIVOS 2024.docx
 
Padre tu palabra es_himno letra y ACORDES.pdf
Padre tu palabra es_himno letra y ACORDES.pdfPadre tu palabra es_himno letra y ACORDES.pdf
Padre tu palabra es_himno letra y ACORDES.pdf
 
Apunte clase teorica propiedades de la Madera.pdf
Apunte clase teorica propiedades de la Madera.pdfApunte clase teorica propiedades de la Madera.pdf
Apunte clase teorica propiedades de la Madera.pdf
 
Botiquin del amor - Plantillas digitales.pdf
Botiquin del amor - Plantillas digitales.pdfBotiquin del amor - Plantillas digitales.pdf
Botiquin del amor - Plantillas digitales.pdf
 
Salud mental y bullying en adolescentes.
Salud mental y bullying en adolescentes.Salud mental y bullying en adolescentes.
Salud mental y bullying en adolescentes.
 

Procesamiento y visualización de datos para generar nuevo conocimiento

  • 1. Procesamiento y visualización de datos para generar nuevo conocimiento Formación interna UD Alex Rayón Jerez alex.rayon@deusto.es, @alrayon Septiembre, 2015
  • 2. Pensamiento cuantitativo en mi día a día Integración de datos heterogéneos Visualización de datos Matriz de datos Procesado y visualización de datos básica Herramientas para el análisis, integración y visualización Procesamiento avanzado Tabla de contenidos 2
  • 3. Tabla de contenidos 3 Pensamiento cuantitativo en mi día a día Integración de datos heterogéneos Visualización de datos Matriz de datos Procesado y visualización de datos básica Herramientas para el análisis, integración y visualización Procesamiento avanzado
  • 4. Pensamiento cuantitativo Introducción Tres clases de conceptos científicos: cualitativos, comparativos y cuantitativos Los modelos científicos más básicos son los conceptuales: Y es sobre estos pilares sobre los que se puede erigir una buena ciencia Los aspectos cuantitativos son siempre posteriores y su validez depende de los primeros Sin embargo, se trata de un aspecto que suelen olvidar los investigadores con harta frecuencia. 4
  • 5. Pensamiento cuantitativo Introducción (II) Comprenden el conjunto de aprendizajes que se espera de los alumnos para conducirlos a altos niveles de alfabetización matemática La abstracción numérica y el razonamiento numérico son dos habilidades básicas que se pueden adquirir y son fundamentales Durante la educación, las actividades mediante el juego y la resolución de problemas contribuyen al uso de los principios del contenido y técnicas 5
  • 6. Pensamiento cuantitativo Propósito Usen el razonamiento matemático en situaciones que demanden: Establecer relaciones de correspondencia Cantidad y ubicación entre objetos al contar, estimar, reconocer atributos, comparar y medir Comprendan relaciones entre los problemas Usen procedimientos propios para resolverlos etc. 6
  • 7. Pensamiento cuantitativo Propósito (II) También que se desarrollen los siguientes estándares de matemáticas: Sentido numérico y pensamiento algebraico Forma, espacio y medida Manejo de la información Actitud hacia el estudio de las matemáticas 7
  • 8. Pensamiento cuantitativo Fenómeno Big Data En pocos años el crecimiento de los bancos de datos ha sido exponencial Cualquier aparato digital genera gratis mucha información sobre su uso Ejemplos: medidores, aparatos TIC, redes, etc. Muestras de miles de datos y de variables comienzan a ser habituales Cada vez hay mayor demanda por descubrir conocimiento (insights) a un menor coste Los datos son una ventaja competitiva entre países, negocios y personas 8
  • 9. Pensamiento cuantitativo Fenómeno Big Data (II) 9 Fuente: http://www.slideshare.net/TechnetFrance/rec201-mstechdaysfinal130213033305phpapp02-19779391
  • 10. Pensamiento cuantitativo Fenómeno Big Data (III) 10 Fuente: http://www.ashubhatia.com/blog_ind.php?p=742
  • 11. Tabla de contenidos 11 Pensamiento cuantitativo en mi día a día Integración de datos heterogéneos Visualización de datos Matriz de datos Procesado y visualización de datos básica Herramientas para el análisis, integración y visualización Procesamiento avanzado
  • 12. Integración de datos Introducción 12Fuente: https://tomyrhymond.wordpress.com/category/bigdata/
  • 13. Integración de datos El problema 13 La gran variedad de tipos y formatos de datos utilizados hoy en día exige que los datos se integren de maneras muy diversas La mayoría de los programas de integración de datos son complicados y costosos y suelen estar destinados a un tipo concreto de base de datos o de formato de salida Además, muchos programas de integración de datos requieren la compra de adaptadores adicionales o cobran por el código de programa generado
  • 14. Integración de datos La solución 14 En contraste con desarrollos a medidas o procedimientos almacenados, las tecnologías de integración de datos permiten asumir proyectos que impliquen: Transferencia de datos, transformaciones complejas de datos, el acceso a fuentes de datos múltiples, con tiempos de latencia apropiados (batch, tiempo real) y minimizando los riesgos más frecuentes: Tiempos de desarrollo excesivos Costes de mantenimiento altos Dificultades a la hora de responder a las necesidades empresariales en continuo cambio
  • 15. Tabla de contenidos 15 Pensamiento cuantitativo en mi día a día Integración de datos heterogéneos Visualización de datos Matriz de datos Procesado y visualización de datos básica Herramientas para el análisis, integración y visualización Procesamiento avanzado
  • 16. “Perfection is achieved not when there is nothing more to add, but when there is nothing left to take away” Antoine de Saint-Exupery 16 Visualización de datos Introducción
  • 18. Peligro de perderse con los datos Irrelevante para la tarea que se tiene entre manos Procesado de una manera inapropiada Presentado de una manera inapropiada Source: http://www.planetminecraft.com/server/padlens-maze/ 18 Visualización de datos Introducción (III)
  • 20. Los buenos gráficos… Señalan relaciones, tendencias o patrones Exploran datos para inferir nuevo conocimiento Hace fácil de entender un concepto, idea o hecho Permite observar una realidad desde diferentes puntos de vista Permite recordar una idea 20 Visualización de datos Los buenos gráficos
  • 21. Es una forma de expresión Como las matemática, la música, la pintura o la escritura En consecuencia, tiene una serie de reglas que respetar Source: http://powerlisting.wikia.com/wiki/Mathematics_Manipulation 21 Visualización de datos Forma de expresión
  • 22. 1) Procesamiento eficiente de información 22 Visualización de datos Beneficios
  • 23. 2) Relaciones y patrones entre actividades de negocio y operaciones Fuente: http://www.mediameasurement.com/my-my-a-smoky-eyed-surprise/ 23 Visualización de datos Beneficios (II)
  • 24. 3) Identificar y actuar en tendencias emergentes cuanto antes Fuente: http://www.propertyweek.com/emerging-trends-sustainability-given-the-green-light/5065937.article 24 Visualización de datos Beneficios (III)
  • 25. 4) Manipular e interactuar directamente con datos Fuente: http://blog.visual.ly/interaction-design-for-data-visualizations/ 25 Visualización de datos Beneficios (IV)
  • 26. 5) Fortalecer un nuevo lenguaje de negocio Fuente: http://www.qualia.hr/businessq/visualize/ 26 Visualización de datos Beneficios (V)
  • 27. Information is beautiful Fuente: http://www.informationisbeautiful.net/visualizations/the-microbescope/ 27 Visualización de datos Popularidad
  • 29. Politikon: Kiko Llaneras Fuente: http://politikon.es/2014/01/30/personas-datos-gimnasios-y-patrones/ 29 Visualización de datos Popularidad (III)
  • 33. [Keim2006] 33 Visualización de datos Conceptos: Visual Analytics
  • 35. 35 Visualización de datos Conceptos: Visual Analytics (III)
  • 36. The practice of presenting information in a way that fosters efficient and effective understanding of it 36 Visualización de datos Conceptos: Diseño de información
  • 37. Ranking of elementary perceptual tasks [ClevelandMcGill1985] 37 Visualización de datos Mapeo de datos
  • 38. Tabla de contenidos 38 Pensamiento cuantitativo en mi día a día Integración de datos heterogéneos Visualización de datos Matriz de datos Procesado y visualización de datos básica Herramientas para el análisis, integración y visualización Procesamiento avanzado
  • 39. Matriz de datos Introducción Tanto las hojas de cálculo como las bases de datos tienen tablas, ¿por qué debería utilizar una base de datos y no una hoja de cálculo? Al comparar las hojas de cálculo y las bases de datos se pueden encontrar las siguientes cuestiones que se verán en mayor detalle después 39
  • 40. Matriz de datos Ejemplo 40 Nombre y apellidos Teléfono Dirección Juana Salgado 799 23 43 12 Calle Larga 1, Córdoba Adán García 711 19 77 21 Mérida, Paseo Marítimo 5 Juana Salgado 110 98 98 00 Calle Larga 1 Salgado Juana 312 43 42 22 Sevilla, Calle Larga 1 ADÁN García 231 83 02 04 Paseo Marítimo 5, Mérida ... ... ...
  • 41. Matriz de datos Integridad de los datos de referencia Suponga que está utilizando una hoja de cálculo y que necesita cambiar la dirección de al menos una persona Tiene un pequeño problema: tiene que cambiar la dirección en muchas filas Por ejemplo, Juana aparece en tres filas Pero aparecerá un problema de verdad si olvida cambiar una de las filas - la dirección asignada a esta persona se volverá ambigua, y por tanto sus datos perderán integridad. Además, no hay una forma sencilla de eliminar una única persona de la tabla, porque tiene que borrar todas las filas relativas a esa persona 41
  • 42. Matriz de datos Redundancia de datos En los campos «nombre» y «apellido» y «dirección» se ha introducido el mismo dato varias veces Esto es típico del inefectivo modo de las hojas de cálculo de almacenar los datos puesto que la base de datos crece innecesariamente, y por tanto requiere más recursos del equipo (un tamaño mayor de los datos y un acceso más lento). ¿Cómo puede solucionar estos problemas con una base de datos? Puede dividir la información en trozos más pequeños creando una tabla adicional Personas con solo dos columnas: Nombre y apellido y Dirección 42
  • 43. Matriz de datos Integridad y validez de los datos Observe la forma en que se introducen los datos en los campos Nombre y apellido y Dirección La gente que introduce los datos puede cometer errores, algunas veces incluso negligentes En nuestros datos de ejemplo tenemos diversas secuencias de introducción del nombre y el apellido (Joan Smith y Smith Joan; Adam y ADAM) y muchas más formas de introducir la misma dirección 43
  • 44. Matriz de datos Integridad y validez de los datos (II) Para solucionar este problema Separando los datos del campo Nombre y apellido en dos campos independientes: Nombre y Apellido. Separando los datos del campo Dirección en tres campos independientes: Calle, Número de casa y Ciudad. Garantizando la corrección de los datos: asegurándose de que no hay ningún campo vacío, p. ej. debe introducir siempre un número de casa. Gracias a la introducción del campo requerido condición podemos estar seguros de que los datos introducidos están completos 44
  • 45. Matriz de datos Limitar la visualización de los datos Una hoja de cálculo muestra todas las líneas y las columnas de la tabla, que a veces puede ser molesto en las hojas enormes de datos Por supuesto, puede filtrar y ordenar las líneas de la hoja de cálculo, aunque debe extremar los cuidados cuando vaya a hacerlo Los usuarios de la hoja de cálculo pueden olvidar que la vista de datos se ha filtrado, lo que puede inducir a cometer errores Si desea trabajar sobre un pequeño subconjunto de los datos, p. ej. para enviárselo a otros para que lo editen, puede copiarlo y pegarlo en otra hoja de cálculo y después de la edición pegar los datos modificados devueltos a la hoja de cálculo principal. Estas ediciones “manuales” pueden provocar pérdida de datos o cálculos incorrectos 45
  • 46. Matriz de datos Limitar la visualización de los datos (II) Para limitar la visualización de los datos, las aplicaciones de bases de datos ofrecen consultas, formularios e informes. Vamos a suponer que la columna recientemente introducida «Sueldo» contiene datos confidenciales. ¿Cómo puede compartir p. ej. detalles de contacto de las personas con sus compañeros de trabajo pero sin revelar sus sueldos? Es posible si comparte solo una consulta y no la tabla completa La consulta puede seleccionar todas las columnas excepto la columna «Sueldo». En el mundo de las bases de datos una consulta de este tipo se suele conocer como una «vista». 46
  • 47. Matriz de datos Rendimiento y capacidad Las hojas de cálculo que contienen conjuntos de datos muy grandes tardan mucho tiempo en abrirse Una hoja de cálculo carga multitud de datos en la memoria del computador al abrirse. La mayor parte de los datos que se cargan posiblemente sean innecesarios y no se utilicen en ese momento Las bases de datos, a diferencia de las hojas de cálculo, cargan los datos almacenados en el computador solo cuando los necesita 47
  • 48. Matriz de datos Rendimiento y capacidad (II) En la mayor parte de las ocasiones, no tendrá que preocuparse de cómo se almacenan los datos en la base de datos Esto significa que, a diferencia de las hojas de cálculo, las bases de datos no se preocupan de: La secuencia de las filas, porque puede ordenar las líneas según sus necesidades Además, puede ver los mismos datos en diversas vistas con diferente ordenación. Lo mismo se aplica también a las columnas (campos) de la tabla. 48
  • 49. Matriz de datos Entrada de datos Las últimas ediciones de las aplicaciones de creación de hojas de cálculo le permiten diseñar formularios para introducir datos Este tipo de formularios son los más utilizados cuando los datos no se pueden visualizar adecuadamente en la vista de tabla, p. ej., si el texto ocupa demasiadas líneas o si todas las columnas no caben en la pantalla. En este caso, la forma en la que funciona la hoja de cálculo es problemática Los campos para la entrada de la base de datos presentan dificultades para ubicarlos en la hoja de cálculo, y suelen ser poco seguros frente a la manipulación (intencionada 49
  • 50. Matriz de datos Informes Las bases de datos activan la agrupación, la limitación y resumen de datos en un formulario de un informe Las hojas de cálculo normalmente se imprimen en un formulario de pequeñas tablas sin control completamente automático sobre las divisiones de las páginas o la disposición de los campos. 50
  • 51. Matriz de datos Programación Las aplicaciones para crear bases de datos suelen ofrecer lenguajes de programación Las hojas de cálculo más recientes también tienen estas capacidades, pero reducen la capacidad de modificar los campos de la hoja de cálculo y la copia de datos sencilla, sin olvidar la relevancia de las reglas de identidad que se mencionaron en los párrafos anteriores El procesamiento de datos en la hoja de cálculo se suele hacer mediante una interfaz gráfica de usuario, que puede reducir la velocidad de procesamiento de los datos. Las bases de datos pueden trabajar en segundo plano, fuera de las interfaces gráficas. 51
  • 52. Matriz de datos Multiuso Una forma clásica de compartir los datos almacenados en una hoja de cálculo con otras personas es enviar un archivo completo (normalmente, por correo electrónico) o proporcionar un archivo de hoja de cálculo en una red de computadores Esta forma de trabajar en poco eficaz para grupos de muchas personas: los datos que pueden ser necesarios en un momento los puede tener bloqueados otra persona 52
  • 53. Matriz de datos Multiuso (II) Por otro lado, las bases de datos se han diseñado pensando que puede haber varios usuarios accediendo a los datos. Incluso en la versión más simple, es posible bloquear una fila de un tabla en concreto, lo que hace posible compartir los datos de la tabla. 53
  • 54. Matriz de datos Seguridad Asegurar una hoja de cálculo o alguna de sus secciones con una contraseña es una mera actividad simbólica Después de distribuir un archivo de hoja de cálculo por una red de computadores, la gente puede copiar el archivo e intentar averiguar la contraseña A veces no es tan difícil, porque la contraseña está almacenada en el mismo archivo que la hoja de cálculo Las características para editar los bloqueos o para bloquear la copia de una hoja de cálculo (o parte de ella) es igual de fácil de eludir 54
  • 55. Matriz de datos Seguridad (II) Las bases de datos (salvo que estén almacenadas en un archivo en lugar de en un servidor) no suelen estar disponibles en un único archivo Se suele acceder a ellas usando una red de ordenadores, normalmente proporcionando un nombre de usuario y una contraseña Obtiene acceso solo a esas áreas (tablas, formularios o incluso filas y columnas seleccionadas) que le han sido asignadas para definir los adecuados derechos de acceso. Los derechos de acceso pueden afectar a la capacidad para editar datos o para acceder a los datos 55
  • 56. Tabla de contenidos 56 Pensamiento cuantitativo en mi día a día Integración de datos heterogéneos Visualización de datos Matriz de datos Procesado y visualización de datos básica Herramientas para el análisis, integración y visualización Procesamiento avanzado
  • 57. Vamos a tener que combinar muchas herramientas estadísticas en un mismo problema Cómo encontrar relaciones y patrones, clasificar, hacer grupos, etc., será clave Cómo reducir la dimensión eficazmente The Elements of Statistical Learning (Hastie Tibshirani) clave para el futuro 57 Procesado y visualización Funcionalidades
  • 58. 58 Procesado y visualización Hoja de cálculo en educación
  • 59. 59 Procesado y visualización Hacerse preguntas Hay que saber elegir preguntas relevantes y utilizar los métodos apropiados Son muchos artículos publicados que son pura matemáticas y technicalities sin interés Además, suelen estar desconectados de los problemas estadísticos esenciales
  • 60. 60 Procesado y visualización Tipos de datos Valores constantes Un dato que se introduce directamente en una celda. Puede ser un número, una fecha u hora, o un texto. Fórmulas Secuencias formadas por: valores constantes, referencias a otras celdas, nombres, funciones u operadores Las fórmulas deben empezar siempre por el signo =
  • 62. 62 Procesado y visualización Insertar funciones Una función es una fórmula predefinida por una hoja de cálculo que opera uno o más valores y devuelve un resultado que se muestra en la celda La sintaxis de cualquier función es la siguiente: nombre_función(argumento1, argumento2,..., argumentoN)
  • 63. 63 Procesado y visualización Insertar funciones (II) Hay varias maneras de introducir una función Las más frecuentes son: Utilizar el asistente de funciones, en la pestaña de Fórmulas Si la función es muy frecuente, podemos utilizar la opción Autosuma en el menú de Inicio Si conocemos la sintaxis de la función, podemos escribirla manualmente Una función siempre debe ir precedida de un = a no ser que esté dentro de otra operación
  • 65. 65 Procesado y visualización Tabla de una hoja de cálculo Una tabla de Excel es un conjunto de datos organizados en filas o registros, en la que la primera fila contiene las cabeceras de las columnas (los nombres de los campos), y las demás filas contienen los datos almacenados. Las tablas son muy útiles porque además de almacenar información, incluyen una serie de operaciones que permiten analizar y administrar esos datos de forma muy cómoda.
  • 66. 66 Procesado y visualización Tabla de una hoja de cálculo (II) Entre las operaciones más interesantes que podemos realizar con las tablas tenemos: Ordenar la los registros. Filtrar el contenido de la tabla por algún criterio. Utilizar fórmulas para la lista añadiendo algún tipo de filtrado. Crear un resumen de los datos. Aplicar formatos a todos los datos.
  • 67. 67 Procesado y visualización Tabla de una hoja de cálculo (III) Para crear una tabla debemos seguir los siguientes pasos: Seleccionar el número de celdas (con datos o vacías) que queremos incluir en la tabla Seleccionar Tabla en la pestaña Insertar A continuación aparece el cuadro Crear tabla, en el podremos seleccionar el rango de celdas a incluir si no lo hemos hecho todavía. Pulsamos aceptar. Habremos creado nuestra tabla, ahora podemos darle diseño.
  • 68. 68 Procesado y visualización Gráficos Un gráfico es una representación gráfica de los datos de una hoja de cálculo que facilita su interpretación En esta sección aprenderemos cómo crear gráficos a partir de los datos introducidos en una hoja de cálculo. Cuando creamos un gráfico en Excel podemos optar por crearlo: Como gráfico incrustado: Insertar gráfico en una hoja normal como cualquier otro objeto Como hoja de gráfico: Crear el gráfico en una hoja exclusiva para él. En estas hojas no existen celdas ni ningún otro tipo de objeto
  • 69. 69 Procesado y visualización Gráficos (II) Es recomendable que antes de crear el gráfico tengamos seleccionado el rango de celdas que queremos que participen en el gráfico, ya que así Excel será capaz de crearlo automáticamente En caso contrario el gráfico se mostrará en blanco Existen varios tipos de gráficos a nuestra disposición Simplemente hay que seleccionar el que necesitemos y hacer clic en aceptar
  • 70. 70 Procesado y visualización Gráficos (III) Cuando creamos un gráfico automáticamente se creará un grupo de pestañas Herramientas de gráficos, que engloba las pestañas de Diseño, Presentación y Formato. En la pestaña de Diseño podremos cambiar el tipo de gráfico, cambiar los datos y elegir el diseño de gráfico que queremos. También podremos mover el gráfico a otra hoja o crear una hoja de gráfico. En la pestaña de Presentación se encuentran todas las opciones relativas a qué queremos ver en el gráfico (título, ejes, tabla de datos, líneas de cuadrícula...) En la pestaña de Formato podremos dar un estilo más personalizado a nuestro gráfico cambiando su relleno, su contorno, etc. También podremos cambiar el tamaño de sus elementos y situar su posición dentro de la hoja
  • 71. 71 Procesado y visualización Aplicación: Gestión de calificaciones Ahora vamos a aplicar todos los conocimientos teórico-prácticos explicados en un caso aplicable a la gestión docente. Vamos a crear un cuadro de calificaciones para una asignatura. Repasaremos los elementos más importantes del curso como las funciones, el formato condicional, creación de tablas, gráficos y minigráficos
  • 72. 72 Procesado y visualización Aplicación: Gestión de calificaciones (II) Enunciado Dar formato de tabla al rango de celdas que contienen las calificaciones y cambiar el color de la tabla a verde Calcular la nota final según las ponderaciones de cada actividad de evaluación Escribir unas observaciones según el comentario de la celda mediante la función SI Dar formato condicional a la nota final según el comentario de la celda Calcular la nota final máxima, el número de alumnos, la nota media (redondeando a 2 decimales) y el número de suspensos.
  • 73. 73 Procesado y visualización Aplicación: Gestión de calificaciones (III) Enunciado Ordenar la tabla en función de las notas finales de mayor a menor Filtrar los resultados de la tabla para que solo aparezcan los aprobados [5;7). Eliminar el filtro. Crear un gráfico de las notas finales de la clase El gráfico debe ser de columnas 3D de color naranja y debe estar en una hoja aparte llamada 'Gráfico' y cuya pestaña sea de color rojo. Crear un minigráfico de línea con el progreso en las notas de cada alumno a la derecha de la columna de observaciones e incluirlo en la tabla Llamar a nuestra hoja 'Cuadro de Calificaciones' y colorear la etiqueta de azul
  • 74. 74 Procesado y visualización Aplicación: Gestión de calificaciones (IV) Enunciado Crear un gráfico circular en el que aparezca representada la distribución de suspensos, aprobados, notables y sobresalientes. Situarlo debajo de la tabla Para ello vamos a tener que contarlos.
  • 75. Tabla de contenidos 75 Pensamiento cuantitativo en mi día a día Integración de datos heterogéneos Visualización de datos Matriz de datos Procesado y visualización de datos básica Herramientas para el análisis, integración y visualización Procesamiento avanzado
  • 85. Tabla de contenidos 85 Pensamiento cuantitativo en mi día a día Integración de datos heterogéneos Visualización de datos Matriz de datos Procesado y visualización de datos básica Herramientas para el análisis, integración y visualización Procesamiento avanzado
  • 86. Procesamiento avanzado Introducción La Estadística actual fue creado por Pearson y Fisher para tratar con pequeñas muestras Muestras pequeñas (n<200) Descripción univariante Inferencia: homogeneidad de los datos y utilización óptima de la información Modelos paramétricos simples y escuetos Estimación óptima (suficiencia, eficiencia) y contraste de hipótesis Contrastes de ajuste Datos categóricos, tablas de contingencia Modelos de regresión lineal Modelos multivariantes lineales bajo hipótesis de normalidad Series temporales lineales univariantes 86
  • 87. Procesamiento avanzado Introducción (II) Limitaciones de estos métodos para una muestra de 100,000 datos y 500 variables: Heterogeneidad: diferentes modelos en diferentes zonas del espacio Ajuste del modelo: Se rechaza cualquier contraste de ajuste o modelo paramétrico simple Eficiencia irrelevante y más importante robustez, grupos heterogeneidad; relaciones entre las variables Necesitamos nuevos métodos automáticos de selección y comparación de modelos 87
  • 88. Copyright (c) 2015 University of Deusto This work (but the quoted images, whose rights are reserved to their owners*) is licensed under the Creative Commons “Attribution-ShareAlike” License. To view a copy of this license, visit http://creativecommons.org/licenses/by-sa/3.0/ Alex Rayón Jerez Septiembre 2015
  • 89. Procesamiento y visualización de datos para generar nuevo conocimiento Formación interna UD Alex Rayón Jerez alex.rayon@deusto.es, @alrayon Septiembre, 2015