Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Procesamiento y visualización de datos para generar nuevo conocimiento

1.094 visualizaciones

Publicado el

Curso de formación interna "Procesamiento y visualización de datos para generar nuevo conocimiento" en la Universidad de Deusto. Procesamiento de datos a pequeña y precisa escala (Smart Data) para mejorar mi día a día en la universidad.

Publicado en: Educación
  • Sé el primero en comentar

Procesamiento y visualización de datos para generar nuevo conocimiento

  1. 1. Procesamiento y visualización de datos para generar nuevo conocimiento Formación interna UD Alex Rayón Jerez alex.rayon@deusto.es, @alrayon Septiembre, 2015
  2. 2. Pensamiento cuantitativo en mi día a día Integración de datos heterogéneos Visualización de datos Matriz de datos Procesado y visualización de datos básica Herramientas para el análisis, integración y visualización Procesamiento avanzado Tabla de contenidos 2
  3. 3. Tabla de contenidos 3 Pensamiento cuantitativo en mi día a día Integración de datos heterogéneos Visualización de datos Matriz de datos Procesado y visualización de datos básica Herramientas para el análisis, integración y visualización Procesamiento avanzado
  4. 4. Pensamiento cuantitativo Introducción Tres clases de conceptos científicos: cualitativos, comparativos y cuantitativos Los modelos científicos más básicos son los conceptuales: Y es sobre estos pilares sobre los que se puede erigir una buena ciencia Los aspectos cuantitativos son siempre posteriores y su validez depende de los primeros Sin embargo, se trata de un aspecto que suelen olvidar los investigadores con harta frecuencia. 4
  5. 5. Pensamiento cuantitativo Introducción (II) Comprenden el conjunto de aprendizajes que se espera de los alumnos para conducirlos a altos niveles de alfabetización matemática La abstracción numérica y el razonamiento numérico son dos habilidades básicas que se pueden adquirir y son fundamentales Durante la educación, las actividades mediante el juego y la resolución de problemas contribuyen al uso de los principios del contenido y técnicas 5
  6. 6. Pensamiento cuantitativo Propósito Usen el razonamiento matemático en situaciones que demanden: Establecer relaciones de correspondencia Cantidad y ubicación entre objetos al contar, estimar, reconocer atributos, comparar y medir Comprendan relaciones entre los problemas Usen procedimientos propios para resolverlos etc. 6
  7. 7. Pensamiento cuantitativo Propósito (II) También que se desarrollen los siguientes estándares de matemáticas: Sentido numérico y pensamiento algebraico Forma, espacio y medida Manejo de la información Actitud hacia el estudio de las matemáticas 7
  8. 8. Pensamiento cuantitativo Fenómeno Big Data En pocos años el crecimiento de los bancos de datos ha sido exponencial Cualquier aparato digital genera gratis mucha información sobre su uso Ejemplos: medidores, aparatos TIC, redes, etc. Muestras de miles de datos y de variables comienzan a ser habituales Cada vez hay mayor demanda por descubrir conocimiento (insights) a un menor coste Los datos son una ventaja competitiva entre países, negocios y personas 8
  9. 9. Pensamiento cuantitativo Fenómeno Big Data (II) 9 Fuente: http://www.slideshare.net/TechnetFrance/rec201-mstechdaysfinal130213033305phpapp02-19779391
  10. 10. Pensamiento cuantitativo Fenómeno Big Data (III) 10 Fuente: http://www.ashubhatia.com/blog_ind.php?p=742
  11. 11. Tabla de contenidos 11 Pensamiento cuantitativo en mi día a día Integración de datos heterogéneos Visualización de datos Matriz de datos Procesado y visualización de datos básica Herramientas para el análisis, integración y visualización Procesamiento avanzado
  12. 12. Integración de datos Introducción 12Fuente: https://tomyrhymond.wordpress.com/category/bigdata/
  13. 13. Integración de datos El problema 13 La gran variedad de tipos y formatos de datos utilizados hoy en día exige que los datos se integren de maneras muy diversas La mayoría de los programas de integración de datos son complicados y costosos y suelen estar destinados a un tipo concreto de base de datos o de formato de salida Además, muchos programas de integración de datos requieren la compra de adaptadores adicionales o cobran por el código de programa generado
  14. 14. Integración de datos La solución 14 En contraste con desarrollos a medidas o procedimientos almacenados, las tecnologías de integración de datos permiten asumir proyectos que impliquen: Transferencia de datos, transformaciones complejas de datos, el acceso a fuentes de datos múltiples, con tiempos de latencia apropiados (batch, tiempo real) y minimizando los riesgos más frecuentes: Tiempos de desarrollo excesivos Costes de mantenimiento altos Dificultades a la hora de responder a las necesidades empresariales en continuo cambio
  15. 15. Tabla de contenidos 15 Pensamiento cuantitativo en mi día a día Integración de datos heterogéneos Visualización de datos Matriz de datos Procesado y visualización de datos básica Herramientas para el análisis, integración y visualización Procesamiento avanzado
  16. 16. “Perfection is achieved not when there is nothing more to add, but when there is nothing left to take away” Antoine de Saint-Exupery 16 Visualización de datos Introducción
  17. 17. Narrativa + Diseño + Estadística 17 Visualización de datos Introducción (II)
  18. 18. Peligro de perderse con los datos Irrelevante para la tarea que se tiene entre manos Procesado de una manera inapropiada Presentado de una manera inapropiada Source: http://www.planetminecraft.com/server/padlens-maze/ 18 Visualización de datos Introducción (III)
  19. 19. 19 Visualización de datos Visual Analytics
  20. 20. Los buenos gráficos… Señalan relaciones, tendencias o patrones Exploran datos para inferir nuevo conocimiento Hace fácil de entender un concepto, idea o hecho Permite observar una realidad desde diferentes puntos de vista Permite recordar una idea 20 Visualización de datos Los buenos gráficos
  21. 21. Es una forma de expresión Como las matemática, la música, la pintura o la escritura En consecuencia, tiene una serie de reglas que respetar Source: http://powerlisting.wikia.com/wiki/Mathematics_Manipulation 21 Visualización de datos Forma de expresión
  22. 22. 1) Procesamiento eficiente de información 22 Visualización de datos Beneficios
  23. 23. 2) Relaciones y patrones entre actividades de negocio y operaciones Fuente: http://www.mediameasurement.com/my-my-a-smoky-eyed-surprise/ 23 Visualización de datos Beneficios (II)
  24. 24. 3) Identificar y actuar en tendencias emergentes cuanto antes Fuente: http://www.propertyweek.com/emerging-trends-sustainability-given-the-green-light/5065937.article 24 Visualización de datos Beneficios (III)
  25. 25. 4) Manipular e interactuar directamente con datos Fuente: http://blog.visual.ly/interaction-design-for-data-visualizations/ 25 Visualización de datos Beneficios (IV)
  26. 26. 5) Fortalecer un nuevo lenguaje de negocio Fuente: http://www.qualia.hr/businessq/visualize/ 26 Visualización de datos Beneficios (V)
  27. 27. Information is beautiful Fuente: http://www.informationisbeautiful.net/visualizations/the-microbescope/ 27 Visualización de datos Popularidad
  28. 28. Vox Fuente: http://www.vox.com/2014/10/18/6995441/map-greatest-threat-country 28 Visualización de datos Popularidad (II)
  29. 29. Politikon: Kiko Llaneras Fuente: http://politikon.es/2014/01/30/personas-datos-gimnasios-y-patrones/ 29 Visualización de datos Popularidad (III)
  30. 30. 30 Visualización de datos Popularidad (IV)
  31. 31. 31 Visualización de datos Popularidad (V)
  32. 32. Source: http://ierg.net/about/briefguide.html#cogtools 32 Visualización de datos Conceptos
  33. 33. [Keim2006] 33 Visualización de datos Conceptos: Visual Analytics
  34. 34. [Verbert2014] 34 Visualización de datos Conceptos: Visual Analytics (II)
  35. 35. 35 Visualización de datos Conceptos: Visual Analytics (III)
  36. 36. The practice of presenting information in a way that fosters efficient and effective understanding of it 36 Visualización de datos Conceptos: Diseño de información
  37. 37. Ranking of elementary perceptual tasks [ClevelandMcGill1985] 37 Visualización de datos Mapeo de datos
  38. 38. Tabla de contenidos 38 Pensamiento cuantitativo en mi día a día Integración de datos heterogéneos Visualización de datos Matriz de datos Procesado y visualización de datos básica Herramientas para el análisis, integración y visualización Procesamiento avanzado
  39. 39. Matriz de datos Introducción Tanto las hojas de cálculo como las bases de datos tienen tablas, ¿por qué debería utilizar una base de datos y no una hoja de cálculo? Al comparar las hojas de cálculo y las bases de datos se pueden encontrar las siguientes cuestiones que se verán en mayor detalle después 39
  40. 40. Matriz de datos Ejemplo 40 Nombre y apellidos Teléfono Dirección Juana Salgado 799 23 43 12 Calle Larga 1, Córdoba Adán García 711 19 77 21 Mérida, Paseo Marítimo 5 Juana Salgado 110 98 98 00 Calle Larga 1 Salgado Juana 312 43 42 22 Sevilla, Calle Larga 1 ADÁN García 231 83 02 04 Paseo Marítimo 5, Mérida ... ... ...
  41. 41. Matriz de datos Integridad de los datos de referencia Suponga que está utilizando una hoja de cálculo y que necesita cambiar la dirección de al menos una persona Tiene un pequeño problema: tiene que cambiar la dirección en muchas filas Por ejemplo, Juana aparece en tres filas Pero aparecerá un problema de verdad si olvida cambiar una de las filas - la dirección asignada a esta persona se volverá ambigua, y por tanto sus datos perderán integridad. Además, no hay una forma sencilla de eliminar una única persona de la tabla, porque tiene que borrar todas las filas relativas a esa persona 41
  42. 42. Matriz de datos Redundancia de datos En los campos «nombre» y «apellido» y «dirección» se ha introducido el mismo dato varias veces Esto es típico del inefectivo modo de las hojas de cálculo de almacenar los datos puesto que la base de datos crece innecesariamente, y por tanto requiere más recursos del equipo (un tamaño mayor de los datos y un acceso más lento). ¿Cómo puede solucionar estos problemas con una base de datos? Puede dividir la información en trozos más pequeños creando una tabla adicional Personas con solo dos columnas: Nombre y apellido y Dirección 42
  43. 43. Matriz de datos Integridad y validez de los datos Observe la forma en que se introducen los datos en los campos Nombre y apellido y Dirección La gente que introduce los datos puede cometer errores, algunas veces incluso negligentes En nuestros datos de ejemplo tenemos diversas secuencias de introducción del nombre y el apellido (Joan Smith y Smith Joan; Adam y ADAM) y muchas más formas de introducir la misma dirección 43
  44. 44. Matriz de datos Integridad y validez de los datos (II) Para solucionar este problema Separando los datos del campo Nombre y apellido en dos campos independientes: Nombre y Apellido. Separando los datos del campo Dirección en tres campos independientes: Calle, Número de casa y Ciudad. Garantizando la corrección de los datos: asegurándose de que no hay ningún campo vacío, p. ej. debe introducir siempre un número de casa. Gracias a la introducción del campo requerido condición podemos estar seguros de que los datos introducidos están completos 44
  45. 45. Matriz de datos Limitar la visualización de los datos Una hoja de cálculo muestra todas las líneas y las columnas de la tabla, que a veces puede ser molesto en las hojas enormes de datos Por supuesto, puede filtrar y ordenar las líneas de la hoja de cálculo, aunque debe extremar los cuidados cuando vaya a hacerlo Los usuarios de la hoja de cálculo pueden olvidar que la vista de datos se ha filtrado, lo que puede inducir a cometer errores Si desea trabajar sobre un pequeño subconjunto de los datos, p. ej. para enviárselo a otros para que lo editen, puede copiarlo y pegarlo en otra hoja de cálculo y después de la edición pegar los datos modificados devueltos a la hoja de cálculo principal. Estas ediciones “manuales” pueden provocar pérdida de datos o cálculos incorrectos 45
  46. 46. Matriz de datos Limitar la visualización de los datos (II) Para limitar la visualización de los datos, las aplicaciones de bases de datos ofrecen consultas, formularios e informes. Vamos a suponer que la columna recientemente introducida «Sueldo» contiene datos confidenciales. ¿Cómo puede compartir p. ej. detalles de contacto de las personas con sus compañeros de trabajo pero sin revelar sus sueldos? Es posible si comparte solo una consulta y no la tabla completa La consulta puede seleccionar todas las columnas excepto la columna «Sueldo». En el mundo de las bases de datos una consulta de este tipo se suele conocer como una «vista». 46
  47. 47. Matriz de datos Rendimiento y capacidad Las hojas de cálculo que contienen conjuntos de datos muy grandes tardan mucho tiempo en abrirse Una hoja de cálculo carga multitud de datos en la memoria del computador al abrirse. La mayor parte de los datos que se cargan posiblemente sean innecesarios y no se utilicen en ese momento Las bases de datos, a diferencia de las hojas de cálculo, cargan los datos almacenados en el computador solo cuando los necesita 47
  48. 48. Matriz de datos Rendimiento y capacidad (II) En la mayor parte de las ocasiones, no tendrá que preocuparse de cómo se almacenan los datos en la base de datos Esto significa que, a diferencia de las hojas de cálculo, las bases de datos no se preocupan de: La secuencia de las filas, porque puede ordenar las líneas según sus necesidades Además, puede ver los mismos datos en diversas vistas con diferente ordenación. Lo mismo se aplica también a las columnas (campos) de la tabla. 48
  49. 49. Matriz de datos Entrada de datos Las últimas ediciones de las aplicaciones de creación de hojas de cálculo le permiten diseñar formularios para introducir datos Este tipo de formularios son los más utilizados cuando los datos no se pueden visualizar adecuadamente en la vista de tabla, p. ej., si el texto ocupa demasiadas líneas o si todas las columnas no caben en la pantalla. En este caso, la forma en la que funciona la hoja de cálculo es problemática Los campos para la entrada de la base de datos presentan dificultades para ubicarlos en la hoja de cálculo, y suelen ser poco seguros frente a la manipulación (intencionada 49
  50. 50. Matriz de datos Informes Las bases de datos activan la agrupación, la limitación y resumen de datos en un formulario de un informe Las hojas de cálculo normalmente se imprimen en un formulario de pequeñas tablas sin control completamente automático sobre las divisiones de las páginas o la disposición de los campos. 50
  51. 51. Matriz de datos Programación Las aplicaciones para crear bases de datos suelen ofrecer lenguajes de programación Las hojas de cálculo más recientes también tienen estas capacidades, pero reducen la capacidad de modificar los campos de la hoja de cálculo y la copia de datos sencilla, sin olvidar la relevancia de las reglas de identidad que se mencionaron en los párrafos anteriores El procesamiento de datos en la hoja de cálculo se suele hacer mediante una interfaz gráfica de usuario, que puede reducir la velocidad de procesamiento de los datos. Las bases de datos pueden trabajar en segundo plano, fuera de las interfaces gráficas. 51
  52. 52. Matriz de datos Multiuso Una forma clásica de compartir los datos almacenados en una hoja de cálculo con otras personas es enviar un archivo completo (normalmente, por correo electrónico) o proporcionar un archivo de hoja de cálculo en una red de computadores Esta forma de trabajar en poco eficaz para grupos de muchas personas: los datos que pueden ser necesarios en un momento los puede tener bloqueados otra persona 52
  53. 53. Matriz de datos Multiuso (II) Por otro lado, las bases de datos se han diseñado pensando que puede haber varios usuarios accediendo a los datos. Incluso en la versión más simple, es posible bloquear una fila de un tabla en concreto, lo que hace posible compartir los datos de la tabla. 53
  54. 54. Matriz de datos Seguridad Asegurar una hoja de cálculo o alguna de sus secciones con una contraseña es una mera actividad simbólica Después de distribuir un archivo de hoja de cálculo por una red de computadores, la gente puede copiar el archivo e intentar averiguar la contraseña A veces no es tan difícil, porque la contraseña está almacenada en el mismo archivo que la hoja de cálculo Las características para editar los bloqueos o para bloquear la copia de una hoja de cálculo (o parte de ella) es igual de fácil de eludir 54
  55. 55. Matriz de datos Seguridad (II) Las bases de datos (salvo que estén almacenadas en un archivo en lugar de en un servidor) no suelen estar disponibles en un único archivo Se suele acceder a ellas usando una red de ordenadores, normalmente proporcionando un nombre de usuario y una contraseña Obtiene acceso solo a esas áreas (tablas, formularios o incluso filas y columnas seleccionadas) que le han sido asignadas para definir los adecuados derechos de acceso. Los derechos de acceso pueden afectar a la capacidad para editar datos o para acceder a los datos 55
  56. 56. Tabla de contenidos 56 Pensamiento cuantitativo en mi día a día Integración de datos heterogéneos Visualización de datos Matriz de datos Procesado y visualización de datos básica Herramientas para el análisis, integración y visualización Procesamiento avanzado
  57. 57. Vamos a tener que combinar muchas herramientas estadísticas en un mismo problema Cómo encontrar relaciones y patrones, clasificar, hacer grupos, etc., será clave Cómo reducir la dimensión eficazmente The Elements of Statistical Learning (Hastie Tibshirani) clave para el futuro 57 Procesado y visualización Funcionalidades
  58. 58. 58 Procesado y visualización Hoja de cálculo en educación
  59. 59. 59 Procesado y visualización Hacerse preguntas Hay que saber elegir preguntas relevantes y utilizar los métodos apropiados Son muchos artículos publicados que son pura matemáticas y technicalities sin interés Además, suelen estar desconectados de los problemas estadísticos esenciales
  60. 60. 60 Procesado y visualización Tipos de datos Valores constantes Un dato que se introduce directamente en una celda. Puede ser un número, una fecha u hora, o un texto. Fórmulas Secuencias formadas por: valores constantes, referencias a otras celdas, nombres, funciones u operadores Las fórmulas deben empezar siempre por el signo =
  61. 61. 61 Procesado y visualización Errores en los datos
  62. 62. 62 Procesado y visualización Insertar funciones Una función es una fórmula predefinida por una hoja de cálculo que opera uno o más valores y devuelve un resultado que se muestra en la celda La sintaxis de cualquier función es la siguiente: nombre_función(argumento1, argumento2,..., argumentoN)
  63. 63. 63 Procesado y visualización Insertar funciones (II) Hay varias maneras de introducir una función Las más frecuentes son: Utilizar el asistente de funciones, en la pestaña de Fórmulas Si la función es muy frecuente, podemos utilizar la opción Autosuma en el menú de Inicio Si conocemos la sintaxis de la función, podemos escribirla manualmente Una función siempre debe ir precedida de un = a no ser que esté dentro de otra operación
  64. 64. 64 Procesado y visualización Funciones más frecuentes
  65. 65. 65 Procesado y visualización Tabla de una hoja de cálculo Una tabla de Excel es un conjunto de datos organizados en filas o registros, en la que la primera fila contiene las cabeceras de las columnas (los nombres de los campos), y las demás filas contienen los datos almacenados. Las tablas son muy útiles porque además de almacenar información, incluyen una serie de operaciones que permiten analizar y administrar esos datos de forma muy cómoda.
  66. 66. 66 Procesado y visualización Tabla de una hoja de cálculo (II) Entre las operaciones más interesantes que podemos realizar con las tablas tenemos: Ordenar la los registros. Filtrar el contenido de la tabla por algún criterio. Utilizar fórmulas para la lista añadiendo algún tipo de filtrado. Crear un resumen de los datos. Aplicar formatos a todos los datos.
  67. 67. 67 Procesado y visualización Tabla de una hoja de cálculo (III) Para crear una tabla debemos seguir los siguientes pasos: Seleccionar el número de celdas (con datos o vacías) que queremos incluir en la tabla Seleccionar Tabla en la pestaña Insertar A continuación aparece el cuadro Crear tabla, en el podremos seleccionar el rango de celdas a incluir si no lo hemos hecho todavía. Pulsamos aceptar. Habremos creado nuestra tabla, ahora podemos darle diseño.
  68. 68. 68 Procesado y visualización Gráficos Un gráfico es una representación gráfica de los datos de una hoja de cálculo que facilita su interpretación En esta sección aprenderemos cómo crear gráficos a partir de los datos introducidos en una hoja de cálculo. Cuando creamos un gráfico en Excel podemos optar por crearlo: Como gráfico incrustado: Insertar gráfico en una hoja normal como cualquier otro objeto Como hoja de gráfico: Crear el gráfico en una hoja exclusiva para él. En estas hojas no existen celdas ni ningún otro tipo de objeto
  69. 69. 69 Procesado y visualización Gráficos (II) Es recomendable que antes de crear el gráfico tengamos seleccionado el rango de celdas que queremos que participen en el gráfico, ya que así Excel será capaz de crearlo automáticamente En caso contrario el gráfico se mostrará en blanco Existen varios tipos de gráficos a nuestra disposición Simplemente hay que seleccionar el que necesitemos y hacer clic en aceptar
  70. 70. 70 Procesado y visualización Gráficos (III) Cuando creamos un gráfico automáticamente se creará un grupo de pestañas Herramientas de gráficos, que engloba las pestañas de Diseño, Presentación y Formato. En la pestaña de Diseño podremos cambiar el tipo de gráfico, cambiar los datos y elegir el diseño de gráfico que queremos. También podremos mover el gráfico a otra hoja o crear una hoja de gráfico. En la pestaña de Presentación se encuentran todas las opciones relativas a qué queremos ver en el gráfico (título, ejes, tabla de datos, líneas de cuadrícula...) En la pestaña de Formato podremos dar un estilo más personalizado a nuestro gráfico cambiando su relleno, su contorno, etc. También podremos cambiar el tamaño de sus elementos y situar su posición dentro de la hoja
  71. 71. 71 Procesado y visualización Aplicación: Gestión de calificaciones Ahora vamos a aplicar todos los conocimientos teórico-prácticos explicados en un caso aplicable a la gestión docente. Vamos a crear un cuadro de calificaciones para una asignatura. Repasaremos los elementos más importantes del curso como las funciones, el formato condicional, creación de tablas, gráficos y minigráficos
  72. 72. 72 Procesado y visualización Aplicación: Gestión de calificaciones (II) Enunciado Dar formato de tabla al rango de celdas que contienen las calificaciones y cambiar el color de la tabla a verde Calcular la nota final según las ponderaciones de cada actividad de evaluación Escribir unas observaciones según el comentario de la celda mediante la función SI Dar formato condicional a la nota final según el comentario de la celda Calcular la nota final máxima, el número de alumnos, la nota media (redondeando a 2 decimales) y el número de suspensos.
  73. 73. 73 Procesado y visualización Aplicación: Gestión de calificaciones (III) Enunciado Ordenar la tabla en función de las notas finales de mayor a menor Filtrar los resultados de la tabla para que solo aparezcan los aprobados [5;7). Eliminar el filtro. Crear un gráfico de las notas finales de la clase El gráfico debe ser de columnas 3D de color naranja y debe estar en una hoja aparte llamada 'Gráfico' y cuya pestaña sea de color rojo. Crear un minigráfico de línea con el progreso en las notas de cada alumno a la derecha de la columna de observaciones e incluirlo en la tabla Llamar a nuestra hoja 'Cuadro de Calificaciones' y colorear la etiqueta de azul
  74. 74. 74 Procesado y visualización Aplicación: Gestión de calificaciones (IV) Enunciado Crear un gráfico circular en el que aparezca representada la distribución de suspensos, aprobados, notables y sobresalientes. Situarlo debajo de la tabla Para ello vamos a tener que contarlos.
  75. 75. Tabla de contenidos 75 Pensamiento cuantitativo en mi día a día Integración de datos heterogéneos Visualización de datos Matriz de datos Procesado y visualización de datos básica Herramientas para el análisis, integración y visualización Procesamiento avanzado
  76. 76. Herramientas Un resumen 76
  77. 77. Herramientas Microsoft Excel 77
  78. 78. Herramientas Google Spreadsheets 78
  79. 79. Herramientas Google Fusion Tables 79
  80. 80. Herramientas Statwing 80
  81. 81. Herramientas Plot.ly 81
  82. 82. Herramientas Supermetrics 82
  83. 83. Herramientas Tableau Public 83
  84. 84. Herramientas CartoDB 84
  85. 85. Tabla de contenidos 85 Pensamiento cuantitativo en mi día a día Integración de datos heterogéneos Visualización de datos Matriz de datos Procesado y visualización de datos básica Herramientas para el análisis, integración y visualización Procesamiento avanzado
  86. 86. Procesamiento avanzado Introducción La Estadística actual fue creado por Pearson y Fisher para tratar con pequeñas muestras Muestras pequeñas (n<200) Descripción univariante Inferencia: homogeneidad de los datos y utilización óptima de la información Modelos paramétricos simples y escuetos Estimación óptima (suficiencia, eficiencia) y contraste de hipótesis Contrastes de ajuste Datos categóricos, tablas de contingencia Modelos de regresión lineal Modelos multivariantes lineales bajo hipótesis de normalidad Series temporales lineales univariantes 86
  87. 87. Procesamiento avanzado Introducción (II) Limitaciones de estos métodos para una muestra de 100,000 datos y 500 variables: Heterogeneidad: diferentes modelos en diferentes zonas del espacio Ajuste del modelo: Se rechaza cualquier contraste de ajuste o modelo paramétrico simple Eficiencia irrelevante y más importante robustez, grupos heterogeneidad; relaciones entre las variables Necesitamos nuevos métodos automáticos de selección y comparación de modelos 87
  88. 88. Copyright (c) 2015 University of Deusto This work (but the quoted images, whose rights are reserved to their owners*) is licensed under the Creative Commons “Attribution-ShareAlike” License. To view a copy of this license, visit http://creativecommons.org/licenses/by-sa/3.0/ Alex Rayón Jerez Septiembre 2015
  89. 89. Procesamiento y visualización de datos para generar nuevo conocimiento Formación interna UD Alex Rayón Jerez alex.rayon@deusto.es, @alrayon Septiembre, 2015

×