Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.
Minería de Datos y Aprendizaje
Estadístico en Ciencias Biológicas
Carlos Manuel Estévez-Bretón MSc., PhD(c) - 2015
Algo a cerca de mi
PhD(c) en el Lab de Sistemas
Inteligentes - UNAL.
• Analizo funcionalmente el
metabolismo.
• Propongo u...
Modelamiento Estadístico
Dos Culturas Statistical Science
2001, Vol. 16, No. 3, 199–231
• Una asume que los datos
son generados por un
modelo estocástico de
datos.
• La otra usa modelos
algorítmicos y trata los...
La estadística y los datos
naturaleza xy
Los datos se generan
en una «caja negra»
X es un vector de
variables de entrada
(...
La estadística y los datos
naturaleza xy
Dos objetivos en el análisis de datos:
Predicción: Ser capaz de
predecir que resp...
Cultura del Modelamiento de Datos
naturaleza xy
Inicia asumiendo un modelo
estocástico de datos para
el interior de la caj...
Cultura del Modelamiento de Datos
regresión lineal
regresión logistica
Cox
xy
El valor de los parámetros son
estimados a p...
Cultura del Modelamiento Algorítmico
El análisis considera el
interior de la caja complejo
y desconocido.
La aproximación ...
Cultura del Modelamiento Algorítmico
desconocido xy
• árboles de decisión
• redes neurales
• …
Validación del modelo.
Medi...
Relación entre las Ciencias
Relación entre las Ciencias
http://today.slac.stanford.edu/images/2009/colloquium-web-collide.jpg
La relación esta dada po...
Interdisciplinariedad
Modificado de :http://www.slideshare.net/AdrianCuyugan/text-mining-association-rules-and-decision-tre...
Aprendizaje
Automático
ML
Minería de
Datos
Conocimiento
Curado
Sistemas Inteligentes
(IA)
Ciencias de la Computación
BigDa...
Subcategorías de DM
Regresión
Aprendizaje
por reglas de
asociación
Detección
de
Anomalías
Clasificación
Agrupamiento
«Summa...
Aprendizaje por reglas de Asociación
Aprendizaje por reglas de Asociación
SOM
Reducción de
Dimencionalidad
AgrupamientoReglas de Asociación
Modelamiento
Estadí...
Supervisado
Refuerzo
No
Supervisado
Aprendizaje
• Datos Etiquetados
• Retroalimentación Directa
• Predice la salida/futuro...
No Supervisado
No se tienen etiquetas o marcas.
No se conocen a priori las
relaciones entre los datos
Metagenómica
No Supervisado
http://us.hudson.com/portals/US/images/blogs/legal/wp/2011/09/Unsupervised-Learning2.jpg
Supervisado
Se sabe que experimentos se
realizaron, su significado,
condiciones.
Cientos o miles de datos
plenamente identi...
Supervisado
http://kurniawan03.blog.binusian.org/files/2014/05/Supervised-Learning1.jpg
Aprendizaje
Supervisado
Colecta de Datos Crudos
Pre-Procesamiento
Datos Faltantes
Extracción de Características
Muestreo
E...
• Escalamiento de características
• Ej. estandarización
• Rápida convergencia
• Distancias en la misma escala
(k-NN Dist. ...
Nomenclatura
sepal length sepal width petal length petal width class
5.1 3.5 1.4 0.2 Iris-setosa
4.9 3.0 1.4 0.2 Iris-seto...
Variables Categóricas
Color Tamaño Precio Clase
1 verde M 10.1 clase1
2 rojo L 13.5 clase2
3 azul XL 15.3 clase1
Color=
az...
Validación cruzada
Es una de las técnicas para evaluar
diferentes selecciones de
combinaciones de características.
Existen...
Evaluación del Modelo
1-Especificidad/Taza de falsas alarmas
Taza de Error = 1 - Exactitud
Variable de Respuesta Evaluada:
...
Evaluación del Modelo
http://www.intechopen.com/source/html/38584/media/image56.jpeg
Área bajo la Curva
ROC - AUC
http://w...
Clasificación &
Agrupamiento
Clasifiquen…
¿Cuantas Cases hay?
¿Cuáles objetos en cada una?
¿Qué hace que estén en Cada Clase?
Fácil, no?
Ahora…
¿Cuantas Cases hay?
¿Cuáles objetos en cada una?
¿Qué hace que estén en Cada Clase?
…. y ahora….
15-7
FOSSILS (continued)
15. Classification And Evolution
LIVING CAMINALCULES
FOSSIL CAMINALCULES
(numbers in parentheses ...
¿Un poco mas complicado?
¿Por qué?
Etiquetas
Características
Aprendizaje
Clasificación
X2
X1
?
1) Aprender de los
datos de entrenamiento
2) Mapear nuevos
datos (nunca vistos)
Clasificadores Comunes
Perceptron Multicapa
Bayesiano Ingenuo
Regresión Logística
KNN- K Vecinos
más Cercanos
Redes Neurale...
C4.5
• Construye un clasificador en forma de un árbol de decisión.
• Usa ganancia de Información en el proceso de generació...
K Nearest Neighbor - KNN
• Este es un método de clasificación no
paramétrico, que estima el valor de la
función de densidad...
Support Vector Machine (SVM)
• Muestren hiperplanos que son capaces
de separar dos o múltiples clases.
Eventualmente el hi...
Support Vector Machine (SVM)
Clasificador Bayesiano
• El Teorema de Bayes: calcula el la
probabilidad posterior basado en la
probabilidad del prior, en ...
Clasificador Bayesiano
Verosimilitud
Probabilidad de
la clase prior
Probabilidad del
posterior
Predictor de
Probabilidad de...
Redes Neurales Artificiales (ANN)
• Clasificadores de tipo grafo
bioinspirados en el cerebro animal
donde los los nodos inte...
Árboles de Decisión
• Son grafos tipo árbol, en los que los
nodos del grafo evalúan ciertas
condiciones en un grupo partic...
Hiperparámetros
• Los hiperparámetros de un clasificador o estimador que no son directamente
aprendidos en el paso de apren...
Agrupamiento Jerárquico
• Es un método de agrupamiento que busca construir una jerarquía de
grupos. Usa estrategias de dos...
k-means
k-means crea k grupos de un conjunto
de objetos de forma tal que los
miembros de los grupos sean los mas
similares...
Mapa Auto-Organizado - SOM
• Es un tipo de red neuronal artificial,
entrenada usando aprendizaje no
supervisado para produc...
Nada es gratis…
Los modelos son una simplificación de la realidad
La simplificación es basada en presunciones
(sesgo del mod...
¿Cuál Algoritmo Escoger?
• ¿Cuál es el tamaño y dimensionalidad del conjunto de entrenamiento?
• ¿Son los datos lineaments...
Datamining y Machine Learning para Ciencias Biológicas
Datamining y Machine Learning para Ciencias Biológicas
Datamining y Machine Learning para Ciencias Biológicas
Próxima SlideShare
Cargando en…5
×
  • Inicia sesión para ver los comentarios

Datamining y Machine Learning para Ciencias Biológicas

  1. 1. Minería de Datos y Aprendizaje Estadístico en Ciencias Biológicas Carlos Manuel Estévez-Bretón MSc., PhD(c) - 2015
  2. 2. Algo a cerca de mi PhD(c) en el Lab de Sistemas Inteligentes - UNAL. • Analizo funcionalmente el metabolismo. • Propongo una analogía lingüística. • Aplico Sistemas inteligentes para obtener información Otros Proyectos: Proponer desde la Biología de Sistemas moléculas para un nanosensor de MTB Proteínas de secreción en helmintos Sistema de Recomendación de fuentes de financiamiento científico
  3. 3. Modelamiento Estadístico Dos Culturas Statistical Science 2001, Vol. 16, No. 3, 199–231
  4. 4. • Una asume que los datos son generados por un modelo estocástico de datos. • La otra usa modelos algorítmicos y trata los mecanismos de datos como desconocidos Modelamiento Estadístico Dos Culturas
  5. 5. La estadística y los datos naturaleza xy Los datos se generan en una «caja negra» X es un vector de variables de entrada (independientes) y son las variables de respuesta Dentro de la caja negra la naturaleza funciona asociando las variables del «predictor» con las de «respuesta»
  6. 6. La estadística y los datos naturaleza xy Dos objetivos en el análisis de datos: Predicción: Ser capaz de predecir que respuestas van a ver de acuerdo a las variables de entrada futuras Información: Extraer algo de cómo la naturaleza asocia variables de respuesta a las de entrada.
  7. 7. Cultura del Modelamiento de Datos naturaleza xy Inicia asumiendo un modelo estocástico de datos para el interior de la caja negra Ej. : Un modelo comúnmente usado es que los datos son generados por «sorteos» independientes variables de respuesta = f ( variables del predictor, ruido aleatorio, parámetros)
  8. 8. Cultura del Modelamiento de Datos regresión lineal regresión logistica Cox xy El valor de los parámetros son estimados a partir de datos y entonces el modelo es usado para información y/o predicción. Validación del modelo Si o No, usando pruebas de bondad de ajuste y examen de residuales. Estimación de la población. 98% de todos los estadísticos
  9. 9. Cultura del Modelamiento Algorítmico El análisis considera el interior de la caja complejo y desconocido. La aproximación es la de encontrar una función f(x), que es un algoritmo que opera en x para predecir y. desconocido xy • árboles de decisión • redes neurales • …
  10. 10. Cultura del Modelamiento Algorítmico desconocido xy • árboles de decisión • redes neurales • … Validación del modelo. Medido por la precisión de predicción. Estimación de la población. 2% de los estadísticos, muchos de otras áreas del conocimiento.
  11. 11. Relación entre las Ciencias
  12. 12. Relación entre las Ciencias http://today.slac.stanford.edu/images/2009/colloquium-web-collide.jpg La relación esta dada por la transversalidad de las Tecnologías de la Información y la Comunicación
  13. 13. Interdisciplinariedad Modificado de :http://www.slideshare.net/AdrianCuyugan/text-mining-association-rules-and-decision-tree-learning-484 Bibliotecología Matemáticas Procesamiento de Lenguaje Natural Minería de Datos Aprendizaje Automatizado (Machine Learning) Minería de Texto Estadística IA Administración de Bases de Datos Ciencias de la Computación
  14. 14. Aprendizaje Automático ML Minería de Datos Conocimiento Curado Sistemas Inteligentes (IA) Ciencias de la Computación BigData Modificado de: https://inovancetech.com/buzzwords.html Sistemas Inteligentes (AI): son un subcampo de las Ciencias Computacionales (CC). Aprendizaje Automatizado (ML): Método para desarrollar algoritmos para reconocer patrones dentro de los datos.. Minería de Datos (DM): Es una Comprende la totalidad del proceso de descubrimiento de información, preparación datos y limpieza de datos, análisis, postprocesamiento y visualización de resultados. Usa técnicas desarrolladas en ML y estadística
  15. 15. Subcategorías de DM Regresión Aprendizaje por reglas de asociación Detección de Anomalías Clasificación Agrupamiento «Summarization» Existen diferentes métodos y algoritmos para cada Categoría. Ej: Clasificación: SVM, ANN, CTrees, CN.2, RandomForest, KNN, NaiveBayes, Regresión Logística Regresión: SVM, Lineal, KNN, PADE, PLS, Media. Agrupamiento: Jerárquico, Grafos de Interacción, MDS, SOM, K-Means, Mapas de Distancias.
  16. 16. Aprendizaje por reglas de Asociación
  17. 17. Aprendizaje por reglas de Asociación SOM Reducción de Dimencionalidad AgrupamientoReglas de Asociación Modelamiento Estadístico Recomendadores Métodos de Kernel Aprendizaje Supervisado Aprendizaje NO Supervisado
  18. 18. Supervisado Refuerzo No Supervisado Aprendizaje • Datos Etiquetados • Retroalimentación Directa • Predice la salida/futuro • Sin Etiquetas • Sin Retroalimentación • Busca la «estructura subyacente» • Procesos de decisión • Sistemas de bonificación • Aprende series de actos
  19. 19. No Supervisado No se tienen etiquetas o marcas. No se conocen a priori las relaciones entre los datos Metagenómica
  20. 20. No Supervisado http://us.hudson.com/portals/US/images/blogs/legal/wp/2011/09/Unsupervised-Learning2.jpg
  21. 21. Supervisado Se sabe que experimentos se realizaron, su significado, condiciones. Cientos o miles de datos plenamente identificados. Transcriptómica: Microarreglos, RNA Seq
  22. 22. Supervisado http://kurniawan03.blog.binusian.org/files/2014/05/Supervised-Learning1.jpg
  23. 23. Aprendizaje Supervisado Colecta de Datos Crudos Pre-Procesamiento Datos Faltantes Extracción de Características Muestreo Entrenamiento del Conjunto de Datos Validación Cruzada Pre-Procesamiento Evaluar Conjunto de Datos Nuevos datos Extracción de Características Reducción de Dimensionalidad Escalar Características Refinamiento Selección del Modelo Métricas de Desempeño Entrenamiento de Algoritmo de Aprendizaje Optimización de Hiperparámetros Post-Procesamiento Clasificación Final/ Modelo de Regresión Adaptado: de Sebastian Raschka
  24. 24. • Escalamiento de características • Ej. estandarización • Rápida convergencia • Distancias en la misma escala (k-NN Dist. Euclidiana) • Centrado por media • Datos distribuidos normalmente • Estabilidad numérica evitando pequeños pesos. • Valores faltantes • Remover características (columnas) • Remover muestras (filas) • Imputar (media, Vecindad, …) • Muestreo • División aleatoria entre conjuntos de datos de entrenamiento y validación. • Típicamente 60/40, 70/30, 80/20 • No usar conjunto de validación hasta el puro final (sobreentrenamiento)
  25. 25. Nomenclatura sepal length sepal width petal length petal width class 5.1 3.5 1.4 0.2 Iris-setosa 4.9 3.0 1.4 0.2 Iris-setosa 4.7 3.2 1.3 0.2 Iris-setosa 4.6 3.1 1.5 0.2 Iris-setosa 5.0 3.6 1.4 0.2 Iris-setosa 5.4 3.9 1.7 0.4 Iris-setosa 4.6 3.4 1.4 0.3 Iris-setosa Iris Instancias (muestras, observaciones) Características (atributos, dimensiones, experimentos) Clases (objetivo)
  26. 26. Variables Categóricas Color Tamaño Precio Clase 1 verde M 10.1 clase1 2 rojo L 13.5 clase2 3 azul XL 15.3 clase1 Color= azul Color= verde Color= Rojo Precio Clase Tamaño 1 0 1 0 10.1 0 1 2 0 0 1 13.5 1 2 3 1 0 0 15.3 0 3 nominal azul (1,0,0) verde (0,0,1) rojo (0,1,0) ordinal M 1 L 2 XL 3
  27. 27. Validación cruzada Es una de las técnicas para evaluar diferentes selecciones de combinaciones de características. Existen multiples sabores de validación cruzada, el más común podría ser «k-fold cross-validation». Conjunto de Datos Completo Conjunto de Datos de Entrenamiento Conjunto de Datos de Validación Conjunto de Validación Conjunto de Validación Conjunto de Validación Conjunto de Validación fold 1 fold 2 fold 3 fold 4 k-fold cross-validation (k=4) 1ª iteración 2ª iteración 3ª iteración 4 iteración calc error calc error calc error calc error cálculo de error promedio
  28. 28. Evaluación del Modelo 1-Especificidad/Taza de falsas alarmas Taza de Error = 1 - Exactitud Variable de Respuesta Evaluada: Y es realmente: Positiva Negativa Positiva Negativa # Falsa Negativa #Verdadera Negativa # Falsa Positiva #Verdadera Positiva VP+VN P+N Exactitud = Precisión = VP VP+FP Recall/Sensibilidad= VP VP+FN Especificidad /Verdadera Taza de Error = VN VN+FP Matriz de Confusión
  29. 29. Evaluación del Modelo http://www.intechopen.com/source/html/38584/media/image56.jpeg Área bajo la Curva ROC - AUC http://wwww.cbgstat.com/v2/method_ROC_curve_MedCalc/images/ROC_curve_MedCalc_Snap17.gif Taza de Falsos Positivos True positive rate TazadeVerdaderosPositivos
  30. 30. Clasificación & Agrupamiento
  31. 31. Clasifiquen…
  32. 32. ¿Cuantas Cases hay? ¿Cuáles objetos en cada una? ¿Qué hace que estén en Cada Clase?
  33. 33. Fácil, no?
  34. 34. Ahora…
  35. 35. ¿Cuantas Cases hay? ¿Cuáles objetos en cada una? ¿Qué hace que estén en Cada Clase?
  36. 36. …. y ahora….
  37. 37. 15-7 FOSSILS (continued) 15. Classification And Evolution LIVING CAMINALCULES FOSSIL CAMINALCULES (numbers in parentheses indicate age in millions of years) 15. Classification And Evolution LIVING CAMINALCULES FOSSIL CAMINALCULES (numbers in parentheses indicate age in millions of years)
  38. 38. ¿Un poco mas complicado? ¿Por qué?
  39. 39. Etiquetas Características
  40. 40. Aprendizaje
  41. 41. Clasificación X2 X1 ? 1) Aprender de los datos de entrenamiento 2) Mapear nuevos datos (nunca vistos)
  42. 42. Clasificadores Comunes Perceptron Multicapa Bayesiano Ingenuo Regresión Logística KNN- K Vecinos más Cercanos Redes Neurales Artificiales - AAN / Aprendizaje Profundo Máquinas de Soporte Vectorial - SVM Árboles de Decisión C4.5
  43. 43. C4.5 • Construye un clasificador en forma de un árbol de decisión. • Usa ganancia de Información en el proceso de generación del árbol. • A pesar de que otros sistemas también incorporan podado, C4.5 utiliza un proceso de podado de un solo paso para mitigar el sobreentrenamiento. • Puede trabajar tanto con datos continuos como con discretos. • Third, C4.5 can work with both continuous and discrete data. Hace esto especificando rangos o umbrales para los datos continuos convirtiendo así a los datos continuos en datos discretos.
  44. 44. K Nearest Neighbor - KNN • Este es un método de clasificación no paramétrico, que estima el valor de la función de densidad de probabilidad o directamente la probabilidad a posteriori de que un elemento x pertenezca a la clase Cj a partir de la información proporcionada por el conjunto de prototipos. • En el proceso de aprendizaje no se hace ninguna suposición acerca de la distribución de las variables predictoras.
  45. 45. Support Vector Machine (SVM) • Muestren hiperplanos que son capaces de separar dos o múltiples clases. Eventualmente el hiperplano con el mayor margen se selecciona, el margen es definido como la distancia mínima de los puntos de muestra al hiperplano. Las muestra (puntos) que forman el margen son llamadas vectores de soporte y establecen el modelo SVM
  46. 46. Support Vector Machine (SVM)
  47. 47. Clasificador Bayesiano • El Teorema de Bayes: calcula el la probabilidad posterior basado en la probabilidad del prior, en lo que se llama también verosimilitud. • Un clasificador Bayesiano Ingenuo asume que todos los atributos son condicionalmente independientes, de este modo, computar la verosimilitud se simplifica al cálculo del producto de las probabilidades condicionales de los atributos de los individuos observados dada una clase.
  48. 48. Clasificador Bayesiano Verosimilitud Probabilidad de la clase prior Probabilidad del posterior Predictor de Probabilidad del prior Posterior = Anterior * Probabilidad Evidencia
  49. 49. Redes Neurales Artificiales (ANN) • Clasificadores de tipo grafo bioinspirados en el cerebro animal donde los los nodos interconectados representan neuronas.
  50. 50. Árboles de Decisión • Son grafos tipo árbol, en los que los nodos del grafo evalúan ciertas condiciones en un grupo particular de características y las ramas van dividiendo la decisión hasta llegar a los nodos hoja. • Las hojas representan los niveles mas bajos en el grafo y determina las etiquetas de las clases. El árbol óptimo se entrena minimizando con «Gini Impurity*» o maximizando la ganancia de información. *Es una medida de que tan frecuentemente un elemento del conjunto escogido aleatoriamente puede ser etiquetado de forma incorrecta, si este fuera aleatoriamente marcado acorde a la distribución de etiquetas en el subconjunto.
  51. 51. Hiperparámetros • Los hiperparámetros de un clasificador o estimador que no son directamente aprendidos en el paso de aprendizaje estadístico de los datos de entrenamiento, son optimizados de forma separada. • El objetivo de la optimización de hiperparámetros es el de mejorar el desempeño del un clasificador y lograr una buena generalización del algoritmo de aprendizaje. • Un método popular de optimización es «grid Search», que típicamente es implementado como una búsqueda, en contraste con la optimización aleatoria. • Después de todas las posibles combinaciones de parámetros para un modelo, se evalúan, se retiene la mejor combinación.
  52. 52. Agrupamiento Jerárquico • Es un método de agrupamiento que busca construir una jerarquía de grupos. Usa estrategias de dos tipos: • Aglomerativa: Una aproximación «Bottom UP», cada observación inicia con un único grupo, y pares de grupos van emergiendo a medida que uno se mueve hacia la parte superior de la jerarquía. • Divisiva: Es la aproximación «Top Down» todas las observaciones forman un único grupo en el que las divisiones ocurren recursivamente a medida que se mueve hacia abajo en la jerarquía. • En general, las uniones y divisiones son determinadas de forma voraz. • El resultado del agrupamiento usualmente ese presenta en forma de dendrograma
  53. 53. k-means k-means crea k grupos de un conjunto de objetos de forma tal que los miembros de los grupos sean los mas similares entre ellos. Es una técnica de análisis de agrupamiento popular en la exploración de conjuntos de datos. ¿Cómo sabe cuál es el mejor k? Silhouette
  54. 54. Mapa Auto-Organizado - SOM • Es un tipo de red neuronal artificial, entrenada usando aprendizaje no supervisado para producir una representación discreta del espacio de las muestras de entrada, llamado mapa. • Usan una función de vecindad para preservar las propiedades topológicas del espacio de entrada. • Son útiles para visualizar vistas de baja dimensión de datos de alta dimensión, semejante a un escalado multidimensional.
  55. 55. Nada es gratis… Los modelos son una simplificación de la realidad La simplificación es basada en presunciones (sesgo del modelo) Las presunciones fallan en algunas ocaciones No existe un único modelo que funcione igual de bien para todas las situaciones
  56. 56. ¿Cuál Algoritmo Escoger? • ¿Cuál es el tamaño y dimensionalidad del conjunto de entrenamiento? • ¿Son los datos lineaments separables? • ¿Que tanto hay que preocuparse por la eficiencia computacional • Construcción del modelo vs tiempo real de predicción • Aprendizaje: • ansioso vs perezoso / en línea vs en lote / desempeño de predicción vs velocidad • ¿Debe tenerse cuidado en la interpretabilidad de los resultados? • ….

×