Curso de formación interna "Procesamiento y visualización de datos para generar nuevo conocimiento" en la Universidad de Deusto. Procesamiento de datos a pequeña y precisa escala (Smart Data) para mejorar mi día a día en la universidad.
Sesión de aprendizaje Planifica Textos argumentativo.docx
Procesamiento y visualización de datos para generar nuevo conocimiento
1. Procesamiento y
visualización de datos
para generar nuevo
conocimiento
Formación interna UD
Alex Rayón Jerez
alex.rayon@deusto.es, @alrayon
Septiembre, 2015
2. Pensamiento cuantitativo en mi día a día
Integración de datos heterogéneos
Visualización de datos
Matriz de datos
Procesado y visualización de datos básica
Herramientas para el análisis, integración y
visualización
Procesamiento avanzado
Tabla de contenidos
2
3. Tabla de contenidos
3
Pensamiento cuantitativo en mi día a día
Integración de datos heterogéneos
Visualización de datos
Matriz de datos
Procesado y visualización de datos básica
Herramientas para el análisis, integración y
visualización
Procesamiento avanzado
4. Pensamiento cuantitativo
Introducción
Tres clases de conceptos científicos: cualitativos,
comparativos y cuantitativos
Los modelos científicos más básicos son los
conceptuales:
Y es sobre estos pilares sobre los que se puede erigir una
buena ciencia
Los aspectos cuantitativos son siempre posteriores y su
validez depende de los primeros
Sin embargo, se trata de un aspecto que suelen olvidar los
investigadores con harta frecuencia.
4
5. Pensamiento cuantitativo
Introducción (II)
Comprenden el conjunto de aprendizajes que se
espera de los alumnos para conducirlos a altos
niveles de alfabetización matemática
La abstracción numérica y el razonamiento
numérico son dos habilidades básicas que se
pueden adquirir y son fundamentales
Durante la educación, las actividades mediante el
juego y la resolución de problemas contribuyen
al uso de los principios del contenido y técnicas
5
6. Pensamiento cuantitativo
Propósito
Usen el razonamiento matemático en situaciones
que demanden:
Establecer relaciones de correspondencia
Cantidad y ubicación entre objetos al contar, estimar,
reconocer atributos, comparar y medir
Comprendan relaciones entre los problemas
Usen procedimientos propios para resolverlos
etc.
6
7. Pensamiento cuantitativo
Propósito (II)
También que se desarrollen los siguientes
estándares de matemáticas:
Sentido numérico y pensamiento algebraico
Forma, espacio y medida
Manejo de la información
Actitud hacia el estudio de las matemáticas
7
8. Pensamiento cuantitativo
Fenómeno Big Data
En pocos años el crecimiento de los bancos de
datos ha sido exponencial
Cualquier aparato digital genera gratis mucha información
sobre su uso
Ejemplos: medidores, aparatos TIC, redes, etc.
Muestras de miles de datos y de variables comienzan a ser
habituales
Cada vez hay mayor demanda por descubrir
conocimiento (insights) a un menor coste
Los datos son una ventaja competitiva entre
países, negocios y personas
8
9. Pensamiento cuantitativo
Fenómeno Big Data (II)
9
Fuente: http://www.slideshare.net/TechnetFrance/rec201-mstechdaysfinal130213033305phpapp02-19779391
11. Tabla de contenidos
11
Pensamiento cuantitativo en mi día a día
Integración de datos heterogéneos
Visualización de datos
Matriz de datos
Procesado y visualización de datos básica
Herramientas para el análisis, integración y
visualización
Procesamiento avanzado
13. Integración de datos
El problema
13
La gran variedad de tipos y formatos de datos
utilizados hoy en día exige que los datos se
integren de maneras muy diversas
La mayoría de los programas de integración de
datos son complicados y costosos y suelen estar
destinados a un tipo concreto de base de datos
o de formato de salida
Además, muchos programas de integración de datos
requieren la compra de adaptadores adicionales o
cobran por el código de programa generado
14. Integración de datos
La solución
14
En contraste con desarrollos a medidas o
procedimientos almacenados, las tecnologías de
integración de datos permiten asumir
proyectos que impliquen:
Transferencia de datos, transformaciones complejas de
datos, el acceso a fuentes de datos múltiples, con
tiempos de latencia apropiados (batch, tiempo real) y
minimizando los riesgos más frecuentes:
Tiempos de desarrollo excesivos
Costes de mantenimiento altos
Dificultades a la hora de responder a las necesidades
empresariales en continuo cambio
15. Tabla de contenidos
15
Pensamiento cuantitativo en mi día a día
Integración de datos heterogéneos
Visualización de datos
Matriz de datos
Procesado y visualización de datos básica
Herramientas para el análisis, integración y
visualización
Procesamiento avanzado
16. “Perfection is achieved not
when there is nothing more to
add, but when there is nothing
left to take away”
Antoine de Saint-Exupery
16
Visualización de datos
Introducción
18. Peligro de perderse con los datos
Irrelevante para la tarea que se tiene entre manos
Procesado de una manera inapropiada
Presentado de una manera inapropiada
Source: http://www.planetminecraft.com/server/padlens-maze/
18
Visualización de datos
Introducción (III)
20. Los buenos gráficos…
Señalan relaciones, tendencias o patrones
Exploran datos para inferir nuevo conocimiento
Hace fácil de entender un concepto, idea o hecho
Permite observar una realidad desde diferentes puntos de
vista
Permite recordar una idea
20
Visualización de datos
Los buenos gráficos
21. Es una forma de expresión
Como las matemática, la música, la pintura o la escritura
En consecuencia, tiene una serie de reglas que respetar
Source: http://powerlisting.wikia.com/wiki/Mathematics_Manipulation
21
Visualización de datos
Forma de expresión
23. 2) Relaciones y patrones entre actividades de negocio y operaciones
Fuente: http://www.mediameasurement.com/my-my-a-smoky-eyed-surprise/
23
Visualización de datos
Beneficios (II)
24. 3) Identificar y actuar en tendencias emergentes cuanto antes
Fuente: http://www.propertyweek.com/emerging-trends-sustainability-given-the-green-light/5065937.article
24
Visualización de datos
Beneficios (III)
25. 4) Manipular e interactuar directamente con datos
Fuente: http://blog.visual.ly/interaction-design-for-data-visualizations/
25
Visualización de datos
Beneficios (IV)
26. 5) Fortalecer un nuevo lenguaje de negocio
Fuente: http://www.qualia.hr/businessq/visualize/
26
Visualización de datos
Beneficios (V)
27. Information is beautiful
Fuente: http://www.informationisbeautiful.net/visualizations/the-microbescope/ 27
Visualización de datos
Popularidad
36. The practice of
presenting information
in a way that fosters
efficient and effective
understanding of it
36
Visualización de datos
Conceptos: Diseño de información
37. Ranking of elementary perceptual tasks [ClevelandMcGill1985]
37
Visualización de datos
Mapeo de datos
38. Tabla de contenidos
38
Pensamiento cuantitativo en mi día a día
Integración de datos heterogéneos
Visualización de datos
Matriz de datos
Procesado y visualización de datos básica
Herramientas para el análisis, integración y
visualización
Procesamiento avanzado
39. Matriz de datos
Introducción
Tanto las hojas de cálculo como las bases de datos
tienen tablas, ¿por qué debería utilizar una base
de datos y no una hoja de cálculo?
Al comparar las hojas de cálculo y las bases de
datos se pueden encontrar las siguientes
cuestiones que se verán en mayor detalle
después
39
41. Matriz de datos
Integridad de los datos de referencia
Suponga que está utilizando una hoja de cálculo y
que necesita cambiar la dirección de al menos
una persona
Tiene un pequeño problema: tiene que cambiar la
dirección en muchas filas
Por ejemplo, Juana aparece en tres filas
Pero aparecerá un problema de verdad si olvida cambiar
una de las filas - la dirección asignada a esta persona se
volverá ambigua, y por tanto sus datos perderán
integridad.
Además, no hay una forma sencilla de eliminar una única
persona de la tabla, porque tiene que borrar todas las
filas relativas a esa persona 41
42. Matriz de datos
Redundancia de datos
En los campos «nombre» y «apellido» y
«dirección» se ha introducido el mismo dato
varias veces
Esto es típico del inefectivo modo de las hojas de cálculo
de almacenar los datos puesto que la base de datos crece
innecesariamente, y por tanto requiere más recursos del
equipo (un tamaño mayor de los datos y un acceso más
lento).
¿Cómo puede solucionar estos problemas con una base de
datos? Puede dividir la información en trozos más
pequeños creando una tabla adicional Personas con solo
dos columnas: Nombre y apellido y Dirección
42
43. Matriz de datos
Integridad y validez de los datos
Observe la forma en que se introducen los datos
en los campos Nombre y apellido y Dirección
La gente que introduce los datos puede cometer
errores, algunas veces incluso negligentes
En nuestros datos de ejemplo tenemos diversas
secuencias de introducción del nombre y el
apellido (Joan Smith y Smith Joan; Adam y
ADAM) y muchas más formas de introducir la
misma dirección
43
44. Matriz de datos
Integridad y validez de los datos (II)
Para solucionar este problema
Separando los datos del campo Nombre y apellido en dos
campos independientes: Nombre y Apellido.
Separando los datos del campo Dirección en tres campos
independientes: Calle, Número de casa y Ciudad.
Garantizando la corrección de los datos: asegurándose de
que no hay ningún campo vacío, p. ej. debe introducir
siempre un número de casa.
Gracias a la introducción del campo requerido
condición podemos estar seguros de que los
datos introducidos están completos
44
45. Matriz de datos
Limitar la visualización de los datos
Una hoja de cálculo muestra todas las líneas y las
columnas de la tabla, que a veces puede ser
molesto en las hojas enormes de datos
Por supuesto, puede filtrar y ordenar las líneas de la hoja de cálculo,
aunque debe extremar los cuidados cuando vaya a hacerlo
Los usuarios de la hoja de cálculo pueden olvidar que la vista de datos
se ha filtrado, lo que puede inducir a cometer errores
Si desea trabajar sobre un pequeño subconjunto de los datos, p. ej. para
enviárselo a otros para que lo editen, puede copiarlo y pegarlo en
otra hoja de cálculo y después de la edición pegar los datos
modificados devueltos a la hoja de cálculo principal. Estas ediciones
“manuales” pueden provocar pérdida de datos o cálculos
incorrectos
45
46. Matriz de datos
Limitar la visualización de los datos (II)
Para limitar la visualización de los datos, las
aplicaciones de bases de datos ofrecen
consultas, formularios e informes.
Vamos a suponer que la columna recientemente
introducida «Sueldo» contiene datos confidenciales.
¿Cómo puede compartir p. ej. detalles de contacto de las
personas con sus compañeros de trabajo pero sin revelar
sus sueldos? Es posible si comparte solo una consulta y
no la tabla completa
La consulta puede seleccionar todas las columnas excepto
la columna «Sueldo». En el mundo de las bases de datos
una consulta de este tipo se suele conocer como una
«vista». 46
47. Matriz de datos
Rendimiento y capacidad
Las hojas de cálculo que contienen conjuntos de
datos muy grandes tardan mucho tiempo en
abrirse
Una hoja de cálculo carga multitud de datos en la
memoria del computador al abrirse. La mayor
parte de los datos que se cargan posiblemente
sean innecesarios y no se utilicen en ese
momento
Las bases de datos, a diferencia de las hojas de
cálculo, cargan los datos almacenados en el
computador solo cuando los necesita 47
48. Matriz de datos
Rendimiento y capacidad (II)
En la mayor parte de las ocasiones, no tendrá que
preocuparse de cómo se almacenan los datos en
la base de datos
Esto significa que, a diferencia de las hojas de
cálculo, las bases de datos no se preocupan de:
La secuencia de las filas, porque puede ordenar las líneas
según sus necesidades
Además, puede ver los mismos datos en diversas vistas con
diferente ordenación.
Lo mismo se aplica también a las columnas (campos) de la
tabla.
48
49. Matriz de datos
Entrada de datos
Las últimas ediciones de las aplicaciones de
creación de hojas de cálculo le permiten diseñar
formularios para introducir datos
Este tipo de formularios son los más utilizados cuando los
datos no se pueden visualizar adecuadamente en la vista
de tabla, p. ej., si el texto ocupa demasiadas líneas o si
todas las columnas no caben en la pantalla.
En este caso, la forma en la que funciona la hoja de cálculo
es problemática
Los campos para la entrada de la base de datos presentan
dificultades para ubicarlos en la hoja de cálculo, y suelen
ser poco seguros frente a la manipulación (intencionada
49
50. Matriz de datos
Informes
Las bases de datos activan la agrupación, la
limitación y resumen de datos en un formulario
de un informe
Las hojas de cálculo normalmente se imprimen en
un formulario de pequeñas tablas sin control
completamente automático sobre las divisiones
de las páginas o la disposición de los campos.
50
51. Matriz de datos
Programación
Las aplicaciones para crear bases de datos suelen
ofrecer lenguajes de programación
Las hojas de cálculo más recientes también tienen estas
capacidades, pero reducen la capacidad de modificar los
campos de la hoja de cálculo y la copia de datos sencilla,
sin olvidar la relevancia de las reglas de identidad que se
mencionaron en los párrafos anteriores
El procesamiento de datos en la hoja de cálculo se suele
hacer mediante una interfaz gráfica de usuario, que
puede reducir la velocidad de procesamiento de los
datos. Las bases de datos pueden trabajar en segundo
plano, fuera de las interfaces gráficas.
51
52. Matriz de datos
Multiuso
Una forma clásica de compartir los datos
almacenados en una hoja de cálculo con otras
personas es enviar un archivo completo
(normalmente, por correo electrónico) o
proporcionar un archivo de hoja de cálculo en
una red de computadores
Esta forma de trabajar en poco eficaz para grupos de
muchas personas: los datos que pueden ser necesarios
en un momento los puede tener bloqueados otra
persona
52
53. Matriz de datos
Multiuso (II)
Por otro lado, las bases de datos se han diseñado
pensando que puede haber varios usuarios
accediendo a los datos. Incluso en la versión más
simple, es posible bloquear una fila de un tabla
en concreto, lo que hace posible compartir los
datos de la tabla.
53
54. Matriz de datos
Seguridad
Asegurar una hoja de cálculo o alguna de sus
secciones con una contraseña es una mera
actividad simbólica
Después de distribuir un archivo de hoja de cálculo por una
red de computadores, la gente puede copiar el archivo e
intentar averiguar la contraseña
A veces no es tan difícil, porque la contraseña está
almacenada en el mismo archivo que la hoja de cálculo
Las características para editar los bloqueos o para bloquear
la copia de una hoja de cálculo (o parte de ella) es igual
de fácil de eludir
54
55. Matriz de datos
Seguridad (II)
Las bases de datos (salvo que estén almacenadas
en un archivo en lugar de en un servidor) no
suelen estar disponibles en un único archivo
Se suele acceder a ellas usando una red de ordenadores,
normalmente proporcionando un nombre de usuario y
una contraseña
Obtiene acceso solo a esas áreas (tablas, formularios o
incluso filas y columnas seleccionadas) que le han sido
asignadas para definir los adecuados derechos de acceso.
Los derechos de acceso pueden afectar a la capacidad para
editar datos o para acceder a los datos
55
56. Tabla de contenidos
56
Pensamiento cuantitativo en mi día a día
Integración de datos heterogéneos
Visualización de datos
Matriz de datos
Procesado y visualización de datos básica
Herramientas para el análisis, integración y
visualización
Procesamiento avanzado
57. Vamos a tener que combinar muchas
herramientas estadísticas en un mismo
problema
Cómo encontrar relaciones y patrones, clasificar,
hacer grupos, etc., será clave
Cómo reducir la dimensión eficazmente
The Elements of Statistical Learning (Hastie
Tibshirani) clave para el futuro
57
Procesado y visualización
Funcionalidades
59. 59
Procesado y visualización
Hacerse preguntas
Hay que saber elegir preguntas relevantes y
utilizar los métodos apropiados
Son muchos artículos publicados que son pura
matemáticas y technicalities sin interés
Además, suelen estar desconectados de los
problemas estadísticos esenciales
60. 60
Procesado y visualización
Tipos de datos
Valores constantes
Un dato que se introduce directamente en una celda.
Puede ser un número, una fecha u hora, o un texto.
Fórmulas
Secuencias formadas por: valores constantes, referencias a
otras celdas, nombres, funciones u operadores
Las fórmulas deben empezar siempre por el signo =
62. 62
Procesado y visualización
Insertar funciones
Una función es una fórmula predefinida por una
hoja de cálculo que opera uno o más valores y
devuelve un resultado que se muestra en la
celda
La sintaxis de cualquier función es la siguiente:
nombre_función(argumento1, argumento2,...,
argumentoN)
63. 63
Procesado y visualización
Insertar funciones (II)
Hay varias maneras de introducir una función
Las más frecuentes son:
Utilizar el asistente de funciones, en la pestaña de
Fórmulas
Si la función es muy frecuente, podemos utilizar la opción
Autosuma en el menú de Inicio
Si conocemos la sintaxis de la función, podemos escribirla
manualmente
Una función siempre debe ir precedida de un = a
no ser que esté dentro de otra operación
65. 65
Procesado y visualización
Tabla de una hoja de cálculo
Una tabla de Excel es un conjunto de datos
organizados en filas o registros, en la que la
primera fila contiene las cabeceras de las
columnas (los nombres de los campos), y las
demás filas contienen los datos almacenados.
Las tablas son muy útiles porque además de
almacenar información, incluyen una serie de
operaciones que permiten analizar y
administrar esos datos de forma muy cómoda.
66. 66
Procesado y visualización
Tabla de una hoja de cálculo (II)
Entre las operaciones más interesantes que
podemos realizar con las tablas tenemos:
Ordenar la los registros.
Filtrar el contenido de la tabla por algún criterio.
Utilizar fórmulas para la lista añadiendo algún tipo de
filtrado.
Crear un resumen de los datos.
Aplicar formatos a todos los datos.
67. 67
Procesado y visualización
Tabla de una hoja de cálculo (III)
Para crear una tabla debemos seguir los
siguientes pasos:
Seleccionar el número de celdas (con datos o vacías) que
queremos incluir en la tabla
Seleccionar Tabla en la pestaña Insertar
A continuación aparece el cuadro Crear tabla, en el
podremos seleccionar el rango de celdas a incluir si no lo
hemos hecho todavía. Pulsamos aceptar.
Habremos creado nuestra tabla, ahora podemos darle
diseño.
68. 68
Procesado y visualización
Gráficos
Un gráfico es una representación gráfica de los datos
de una hoja de cálculo que facilita su interpretación
En esta sección aprenderemos cómo crear gráficos a
partir de los datos introducidos en una hoja de
cálculo.
Cuando creamos un gráfico en Excel podemos optar
por crearlo:
Como gráfico incrustado: Insertar gráfico en una hoja
normal como cualquier otro objeto
Como hoja de gráfico: Crear el gráfico en una hoja
exclusiva para él. En estas hojas no existen celdas ni
ningún otro tipo de objeto
69. 69
Procesado y visualización
Gráficos (II)
Es recomendable que antes de crear el gráfico
tengamos seleccionado el rango de celdas que
queremos que participen en el gráfico, ya que
así Excel será capaz de crearlo automáticamente
En caso contrario el gráfico se mostrará en blanco
Existen varios tipos de gráficos a nuestra
disposición
Simplemente hay que seleccionar el que necesitemos y
hacer clic en aceptar
70. 70
Procesado y visualización
Gráficos (III)
Cuando creamos un gráfico automáticamente se
creará un grupo de pestañas Herramientas de
gráficos, que engloba las pestañas de Diseño,
Presentación y Formato.
En la pestaña de Diseño podremos cambiar el tipo de gráfico, cambiar los datos
y elegir el diseño de gráfico que queremos. También podremos mover el
gráfico a otra hoja o crear una hoja de gráfico.
En la pestaña de Presentación se encuentran todas las opciones relativas a qué
queremos ver en el gráfico (título, ejes, tabla de datos, líneas de
cuadrícula...)
En la pestaña de Formato podremos dar un estilo más personalizado a nuestro
gráfico cambiando su relleno, su contorno, etc. También podremos cambiar
el tamaño de sus elementos y situar su posición dentro de la hoja
71. 71
Procesado y visualización
Aplicación: Gestión de calificaciones
Ahora vamos a aplicar todos los conocimientos
teórico-prácticos explicados en un caso aplicable
a la gestión docente. Vamos a crear un cuadro
de calificaciones para una asignatura.
Repasaremos los elementos más importantes del
curso como las funciones, el formato
condicional, creación de tablas, gráficos y
minigráficos
72. 72
Procesado y visualización
Aplicación: Gestión de calificaciones (II)
Enunciado
Dar formato de tabla al rango de celdas que contienen las
calificaciones y cambiar el color de la tabla a verde
Calcular la nota final según las ponderaciones de cada
actividad de evaluación
Escribir unas observaciones según el comentario de la
celda mediante la función SI
Dar formato condicional a la nota final según el
comentario de la celda
Calcular la nota final máxima, el número de alumnos, la
nota media (redondeando a 2 decimales) y el número de
suspensos.
73. 73
Procesado y visualización
Aplicación: Gestión de calificaciones (III)
Enunciado
Ordenar la tabla en función de las notas finales de mayor a menor
Filtrar los resultados de la tabla para que solo aparezcan los
aprobados [5;7). Eliminar el filtro.
Crear un gráfico de las notas finales de la clase
El gráfico debe ser de columnas 3D de color naranja y debe
estar en una hoja aparte llamada 'Gráfico' y cuya pestaña
sea de color rojo.
Crear un minigráfico de línea con el progreso en las notas de cada
alumno a la derecha de la columna de observaciones e
incluirlo en la tabla
Llamar a nuestra hoja 'Cuadro de Calificaciones' y colorear la
etiqueta de azul
74. 74
Procesado y visualización
Aplicación: Gestión de calificaciones (IV)
Enunciado
Crear un gráfico circular en el que aparezca representada
la distribución de suspensos, aprobados, notables y
sobresalientes. Situarlo debajo de la tabla
Para ello vamos a tener que contarlos.
75. Tabla de contenidos
75
Pensamiento cuantitativo en mi día a día
Integración de datos heterogéneos
Visualización de datos
Matriz de datos
Procesado y visualización de datos básica
Herramientas para el análisis, integración y
visualización
Procesamiento avanzado
85. Tabla de contenidos
85
Pensamiento cuantitativo en mi día a día
Integración de datos heterogéneos
Visualización de datos
Matriz de datos
Procesado y visualización de datos básica
Herramientas para el análisis, integración y
visualización
Procesamiento avanzado
86. Procesamiento avanzado
Introducción
La Estadística actual fue creado por Pearson y
Fisher para tratar con pequeñas muestras
Muestras pequeñas (n<200)
Descripción univariante
Inferencia: homogeneidad de los datos y utilización óptima de la
información
Modelos paramétricos simples y escuetos
Estimación óptima (suficiencia, eficiencia) y contraste de hipótesis
Contrastes de ajuste
Datos categóricos, tablas de contingencia
Modelos de regresión lineal
Modelos multivariantes lineales bajo hipótesis de normalidad
Series temporales lineales univariantes
86
87. Procesamiento avanzado
Introducción (II)
Limitaciones de estos métodos para una muestra
de 100,000 datos y 500 variables:
Heterogeneidad: diferentes modelos en diferentes zonas
del espacio
Ajuste del modelo: Se rechaza cualquier contraste de
ajuste o modelo paramétrico simple
Eficiencia irrelevante y más importante robustez, grupos
heterogeneidad; relaciones entre las variables
Necesitamos nuevos métodos automáticos de selección y
comparación de modelos
87
88. Copyright (c) 2015 University of Deusto
This work (but the quoted images, whose rights are reserved to their owners*) is licensed under the Creative
Commons “Attribution-ShareAlike” License. To view a copy of this license, visit
http://creativecommons.org/licenses/by-sa/3.0/
Alex Rayón Jerez
Septiembre 2015
89. Procesamiento y
visualización de datos
para generar nuevo
conocimiento
Formación interna UD
Alex Rayón Jerez
alex.rayon@deusto.es, @alrayon
Septiembre, 2015