Se ha denunciado esta presentación.
Se está descargando tu SlideShare. ×

Datamining y Machine Learning para Ciencias Biológicas

Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Próximo SlideShare
Técnicas mineria de datos
Técnicas mineria de datos
Cargando en…3
×

Eche un vistazo a continuación

1 de 59 Anuncio
Anuncio

Más Contenido Relacionado

Presentaciones para usted (20)

Similares a Datamining y Machine Learning para Ciencias Biológicas (20)

Anuncio

Más de Carlos Manuel Estévez-Bretón Riveros (14)

Más reciente (20)

Anuncio

Datamining y Machine Learning para Ciencias Biológicas

  1. 1. Minería de Datos y Aprendizaje Estadístico en Ciencias Biológicas Carlos Manuel Estévez-Bretón MSc., PhD(c) - 2015
  2. 2. Algo a cerca de mi PhD(c) en el Lab de Sistemas Inteligentes - UNAL. • Analizo funcionalmente el metabolismo. • Propongo una analogía lingüística. • Aplico Sistemas inteligentes para obtener información Otros Proyectos: Proponer desde la Biología de Sistemas moléculas para un nanosensor de MTB Proteínas de secreción en helmintos Sistema de Recomendación de fuentes de financiamiento científico
  3. 3. Modelamiento Estadístico Dos Culturas Statistical Science 2001, Vol. 16, No. 3, 199–231
  4. 4. • Una asume que los datos son generados por un modelo estocástico de datos. • La otra usa modelos algorítmicos y trata los mecanismos de datos como desconocidos Modelamiento Estadístico Dos Culturas
  5. 5. La estadística y los datos naturaleza xy Los datos se generan en una «caja negra» X es un vector de variables de entrada (independientes) y son las variables de respuesta Dentro de la caja negra la naturaleza funciona asociando las variables del «predictor» con las de «respuesta»
  6. 6. La estadística y los datos naturaleza xy Dos objetivos en el análisis de datos: Predicción: Ser capaz de predecir que respuestas van a ver de acuerdo a las variables de entrada futuras Información: Extraer algo de cómo la naturaleza asocia variables de respuesta a las de entrada.
  7. 7. Cultura del Modelamiento de Datos naturaleza xy Inicia asumiendo un modelo estocástico de datos para el interior de la caja negra Ej. : Un modelo comúnmente usado es que los datos son generados por «sorteos» independientes variables de respuesta = f ( variables del predictor, ruido aleatorio, parámetros)
  8. 8. Cultura del Modelamiento de Datos regresión lineal regresión logistica Cox xy El valor de los parámetros son estimados a partir de datos y entonces el modelo es usado para información y/o predicción. Validación del modelo Si o No, usando pruebas de bondad de ajuste y examen de residuales. Estimación de la población. 98% de todos los estadísticos
  9. 9. Cultura del Modelamiento Algorítmico El análisis considera el interior de la caja complejo y desconocido. La aproximación es la de encontrar una función f(x), que es un algoritmo que opera en x para predecir y. desconocido xy • árboles de decisión • redes neurales • …
  10. 10. Cultura del Modelamiento Algorítmico desconocido xy • árboles de decisión • redes neurales • … Validación del modelo. Medido por la precisión de predicción. Estimación de la población. 2% de los estadísticos, muchos de otras áreas del conocimiento.
  11. 11. Relación entre las Ciencias
  12. 12. Relación entre las Ciencias http://today.slac.stanford.edu/images/2009/colloquium-web-collide.jpg La relación esta dada por la transversalidad de las Tecnologías de la Información y la Comunicación
  13. 13. Interdisciplinariedad Modificado de :http://www.slideshare.net/AdrianCuyugan/text-mining-association-rules-and-decision-tree-learning-484 Bibliotecología Matemáticas Procesamiento de Lenguaje Natural Minería de Datos Aprendizaje Automatizado (Machine Learning) Minería de Texto Estadística IA Administración de Bases de Datos Ciencias de la Computación
  14. 14. Aprendizaje Automático ML Minería de Datos Conocimiento Curado Sistemas Inteligentes (IA) Ciencias de la Computación BigData Modificado de: https://inovancetech.com/buzzwords.html Sistemas Inteligentes (AI): son un subcampo de las Ciencias Computacionales (CC). Aprendizaje Automatizado (ML): Método para desarrollar algoritmos para reconocer patrones dentro de los datos.. Minería de Datos (DM): Es una Comprende la totalidad del proceso de descubrimiento de información, preparación datos y limpieza de datos, análisis, postprocesamiento y visualización de resultados. Usa técnicas desarrolladas en ML y estadística
  15. 15. Subcategorías de DM Regresión Aprendizaje por reglas de asociación Detección de Anomalías Clasificación Agrupamiento «Summarization» Existen diferentes métodos y algoritmos para cada Categoría. Ej: Clasificación: SVM, ANN, CTrees, CN.2, RandomForest, KNN, NaiveBayes, Regresión Logística Regresión: SVM, Lineal, KNN, PADE, PLS, Media. Agrupamiento: Jerárquico, Grafos de Interacción, MDS, SOM, K-Means, Mapas de Distancias.
  16. 16. Aprendizaje por reglas de Asociación
  17. 17. Aprendizaje por reglas de Asociación SOM Reducción de Dimencionalidad AgrupamientoReglas de Asociación Modelamiento Estadístico Recomendadores Métodos de Kernel Aprendizaje Supervisado Aprendizaje NO Supervisado
  18. 18. Supervisado Refuerzo No Supervisado Aprendizaje • Datos Etiquetados • Retroalimentación Directa • Predice la salida/futuro • Sin Etiquetas • Sin Retroalimentación • Busca la «estructura subyacente» • Procesos de decisión • Sistemas de bonificación • Aprende series de actos
  19. 19. No Supervisado No se tienen etiquetas o marcas. No se conocen a priori las relaciones entre los datos Metagenómica
  20. 20. No Supervisado http://us.hudson.com/portals/US/images/blogs/legal/wp/2011/09/Unsupervised-Learning2.jpg
  21. 21. Supervisado Se sabe que experimentos se realizaron, su significado, condiciones. Cientos o miles de datos plenamente identificados. Transcriptómica: Microarreglos, RNA Seq
  22. 22. Supervisado http://kurniawan03.blog.binusian.org/files/2014/05/Supervised-Learning1.jpg
  23. 23. Aprendizaje Supervisado Colecta de Datos Crudos Pre-Procesamiento Datos Faltantes Extracción de Características Muestreo Entrenamiento del Conjunto de Datos Validación Cruzada Pre-Procesamiento Evaluar Conjunto de Datos Nuevos datos Extracción de Características Reducción de Dimensionalidad Escalar Características Refinamiento Selección del Modelo Métricas de Desempeño Entrenamiento de Algoritmo de Aprendizaje Optimización de Hiperparámetros Post-Procesamiento Clasificación Final/ Modelo de Regresión Adaptado: de Sebastian Raschka
  24. 24. • Escalamiento de características • Ej. estandarización • Rápida convergencia • Distancias en la misma escala (k-NN Dist. Euclidiana) • Centrado por media • Datos distribuidos normalmente • Estabilidad numérica evitando pequeños pesos. • Valores faltantes • Remover características (columnas) • Remover muestras (filas) • Imputar (media, Vecindad, …) • Muestreo • División aleatoria entre conjuntos de datos de entrenamiento y validación. • Típicamente 60/40, 70/30, 80/20 • No usar conjunto de validación hasta el puro final (sobreentrenamiento)
  25. 25. Nomenclatura sepal length sepal width petal length petal width class 5.1 3.5 1.4 0.2 Iris-setosa 4.9 3.0 1.4 0.2 Iris-setosa 4.7 3.2 1.3 0.2 Iris-setosa 4.6 3.1 1.5 0.2 Iris-setosa 5.0 3.6 1.4 0.2 Iris-setosa 5.4 3.9 1.7 0.4 Iris-setosa 4.6 3.4 1.4 0.3 Iris-setosa Iris Instancias (muestras, observaciones) Características (atributos, dimensiones, experimentos) Clases (objetivo)
  26. 26. Variables Categóricas Color Tamaño Precio Clase 1 verde M 10.1 clase1 2 rojo L 13.5 clase2 3 azul XL 15.3 clase1 Color= azul Color= verde Color= Rojo Precio Clase Tamaño 1 0 1 0 10.1 0 1 2 0 0 1 13.5 1 2 3 1 0 0 15.3 0 3 nominal azul (1,0,0) verde (0,0,1) rojo (0,1,0) ordinal M 1 L 2 XL 3
  27. 27. Validación cruzada Es una de las técnicas para evaluar diferentes selecciones de combinaciones de características. Existen multiples sabores de validación cruzada, el más común podría ser «k-fold cross-validation». Conjunto de Datos Completo Conjunto de Datos de Entrenamiento Conjunto de Datos de Validación Conjunto de Validación Conjunto de Validación Conjunto de Validación Conjunto de Validación fold 1 fold 2 fold 3 fold 4 k-fold cross-validation (k=4) 1ª iteración 2ª iteración 3ª iteración 4 iteración calc error calc error calc error calc error cálculo de error promedio
  28. 28. Evaluación del Modelo 1-Especificidad/Taza de falsas alarmas Taza de Error = 1 - Exactitud Variable de Respuesta Evaluada: Y es realmente: Positiva Negativa Positiva Negativa # Falsa Negativa #Verdadera Negativa # Falsa Positiva #Verdadera Positiva VP+VN P+N Exactitud = Precisión = VP VP+FP Recall/Sensibilidad= VP VP+FN Especificidad /Verdadera Taza de Error = VN VN+FP Matriz de Confusión
  29. 29. Evaluación del Modelo http://www.intechopen.com/source/html/38584/media/image56.jpeg Área bajo la Curva ROC - AUC http://wwww.cbgstat.com/v2/method_ROC_curve_MedCalc/images/ROC_curve_MedCalc_Snap17.gif Taza de Falsos Positivos True positive rate TazadeVerdaderosPositivos
  30. 30. Clasificación & Agrupamiento
  31. 31. Clasifiquen…
  32. 32. ¿Cuantas Cases hay? ¿Cuáles objetos en cada una? ¿Qué hace que estén en Cada Clase?
  33. 33. Fácil, no?
  34. 34. Ahora…
  35. 35. ¿Cuantas Cases hay? ¿Cuáles objetos en cada una? ¿Qué hace que estén en Cada Clase?
  36. 36. …. y ahora….
  37. 37. 15-7 FOSSILS (continued) 15. Classification And Evolution LIVING CAMINALCULES FOSSIL CAMINALCULES (numbers in parentheses indicate age in millions of years) 15. Classification And Evolution LIVING CAMINALCULES FOSSIL CAMINALCULES (numbers in parentheses indicate age in millions of years)
  38. 38. ¿Un poco mas complicado? ¿Por qué?
  39. 39. Etiquetas Características
  40. 40. Aprendizaje
  41. 41. Clasificación X2 X1 ? 1) Aprender de los datos de entrenamiento 2) Mapear nuevos datos (nunca vistos)
  42. 42. Clasificadores Comunes Perceptron Multicapa Bayesiano Ingenuo Regresión Logística KNN- K Vecinos más Cercanos Redes Neurales Artificiales - AAN / Aprendizaje Profundo Máquinas de Soporte Vectorial - SVM Árboles de Decisión C4.5
  43. 43. C4.5 • Construye un clasificador en forma de un árbol de decisión. • Usa ganancia de Información en el proceso de generación del árbol. • A pesar de que otros sistemas también incorporan podado, C4.5 utiliza un proceso de podado de un solo paso para mitigar el sobreentrenamiento. • Puede trabajar tanto con datos continuos como con discretos. • Third, C4.5 can work with both continuous and discrete data. Hace esto especificando rangos o umbrales para los datos continuos convirtiendo así a los datos continuos en datos discretos.
  44. 44. K Nearest Neighbor - KNN • Este es un método de clasificación no paramétrico, que estima el valor de la función de densidad de probabilidad o directamente la probabilidad a posteriori de que un elemento x pertenezca a la clase Cj a partir de la información proporcionada por el conjunto de prototipos. • En el proceso de aprendizaje no se hace ninguna suposición acerca de la distribución de las variables predictoras.
  45. 45. Support Vector Machine (SVM) • Muestren hiperplanos que son capaces de separar dos o múltiples clases. Eventualmente el hiperplano con el mayor margen se selecciona, el margen es definido como la distancia mínima de los puntos de muestra al hiperplano. Las muestra (puntos) que forman el margen son llamadas vectores de soporte y establecen el modelo SVM
  46. 46. Support Vector Machine (SVM)
  47. 47. Clasificador Bayesiano • El Teorema de Bayes: calcula el la probabilidad posterior basado en la probabilidad del prior, en lo que se llama también verosimilitud. • Un clasificador Bayesiano Ingenuo asume que todos los atributos son condicionalmente independientes, de este modo, computar la verosimilitud se simplifica al cálculo del producto de las probabilidades condicionales de los atributos de los individuos observados dada una clase.
  48. 48. Clasificador Bayesiano Verosimilitud Probabilidad de la clase prior Probabilidad del posterior Predictor de Probabilidad del prior Posterior = Anterior * Probabilidad Evidencia
  49. 49. Redes Neurales Artificiales (ANN) • Clasificadores de tipo grafo bioinspirados en el cerebro animal donde los los nodos interconectados representan neuronas.
  50. 50. Árboles de Decisión • Son grafos tipo árbol, en los que los nodos del grafo evalúan ciertas condiciones en un grupo particular de características y las ramas van dividiendo la decisión hasta llegar a los nodos hoja. • Las hojas representan los niveles mas bajos en el grafo y determina las etiquetas de las clases. El árbol óptimo se entrena minimizando con «Gini Impurity*» o maximizando la ganancia de información. *Es una medida de que tan frecuentemente un elemento del conjunto escogido aleatoriamente puede ser etiquetado de forma incorrecta, si este fuera aleatoriamente marcado acorde a la distribución de etiquetas en el subconjunto.
  51. 51. Hiperparámetros • Los hiperparámetros de un clasificador o estimador que no son directamente aprendidos en el paso de aprendizaje estadístico de los datos de entrenamiento, son optimizados de forma separada. • El objetivo de la optimización de hiperparámetros es el de mejorar el desempeño del un clasificador y lograr una buena generalización del algoritmo de aprendizaje. • Un método popular de optimización es «grid Search», que típicamente es implementado como una búsqueda, en contraste con la optimización aleatoria. • Después de todas las posibles combinaciones de parámetros para un modelo, se evalúan, se retiene la mejor combinación.
  52. 52. Agrupamiento Jerárquico • Es un método de agrupamiento que busca construir una jerarquía de grupos. Usa estrategias de dos tipos: • Aglomerativa: Una aproximación «Bottom UP», cada observación inicia con un único grupo, y pares de grupos van emergiendo a medida que uno se mueve hacia la parte superior de la jerarquía. • Divisiva: Es la aproximación «Top Down» todas las observaciones forman un único grupo en el que las divisiones ocurren recursivamente a medida que se mueve hacia abajo en la jerarquía. • En general, las uniones y divisiones son determinadas de forma voraz. • El resultado del agrupamiento usualmente ese presenta en forma de dendrograma
  53. 53. k-means k-means crea k grupos de un conjunto de objetos de forma tal que los miembros de los grupos sean los mas similares entre ellos. Es una técnica de análisis de agrupamiento popular en la exploración de conjuntos de datos. ¿Cómo sabe cuál es el mejor k? Silhouette
  54. 54. Mapa Auto-Organizado - SOM • Es un tipo de red neuronal artificial, entrenada usando aprendizaje no supervisado para producir una representación discreta del espacio de las muestras de entrada, llamado mapa. • Usan una función de vecindad para preservar las propiedades topológicas del espacio de entrada. • Son útiles para visualizar vistas de baja dimensión de datos de alta dimensión, semejante a un escalado multidimensional.
  55. 55. Nada es gratis… Los modelos son una simplificación de la realidad La simplificación es basada en presunciones (sesgo del modelo) Las presunciones fallan en algunas ocaciones No existe un único modelo que funcione igual de bien para todas las situaciones
  56. 56. ¿Cuál Algoritmo Escoger? • ¿Cuál es el tamaño y dimensionalidad del conjunto de entrenamiento? • ¿Son los datos lineaments separables? • ¿Que tanto hay que preocuparse por la eficiencia computacional • Construcción del modelo vs tiempo real de predicción • Aprendizaje: • ansioso vs perezoso / en línea vs en lote / desempeño de predicción vs velocidad • ¿Debe tenerse cuidado en la interpretabilidad de los resultados? • ….

×