Del modelado de conocimiento en entornosAAL al descubrimiento de rutinas en redes        de sensores a gran escala        ...
Índice1. Introducción a Inteligencia Ambiental2. Modelado del Usuario: Problemas3. Ámbitos de Aplicación y Técnicas  a)Ont...
Inteligencia Ambiental~Smart Environments, Computación Ubicua, Pervasive ComputingModelado del usuario, Modelado del compo...
Modelado del Usuario●   Similar al problema de reconocimiento de actividades pero con    diferente escala temporal.●   Pro...
Ámbitos de Aplicación y Técnicas●   Web Content. (Low, 2011)●   Click-to-Ratio, Ads Prediction. (Ahmed, 2011)●   Correo We...
Ontologías●   Representación explícita del conocimiento del dominio.●   Permiten razonar utilizando lógica de primer orden...
Probabilistic Topic Models●   Métodos para organizar información de forma automática. Pasos:    1. Encuentran los patrones...
Latent Dirichlet Allocation (LDA)Basado en LSA/LSI, pLSI(Blei et. Al 2003)Asume distribuciones de Dirichlet en las priors....
Solo se observan palabras.El objetivo es inferir las variables ocultas.Calcular la distribución condicionada en los docume...
Distribución de Dirichlet●   Es la distribución conjugada de la multinomial●   Una distribución posterior, se dice que sig...
LDA as a Graphical ModelDistribución conjunta de las latent variables y los documentos
LDAD documentos se representan como un sparse vector de |w|ocurrencias de las palabras de un vocabulario V.Calcula la dist...
Inferencia (entrenando el modelo)Distribución conjunta de las latent variables y los documentos:Posterior:Aplicando Infere...
¿Porque LDA “funciona”?LDA busca 2 objetivos:1. Para cada documento, utilizar sus palabras en el menor númerode tópicos po...
Extensiones de LDA●   Correlated Topic Models (CTM)●   Dynamic Topic Models (DTM)●   Supervised Topic Models (sLDA)●   Rel...
Experimentos en redes de sensores●   El objetivo es generar un modelo del uso y del comportamiento    de las rutinas de lo...
Experimentos (II)●   El problema se puede formular como:    ●   Descubrir el conjunto de tópicos de un corpus (conjunto de...
InnotekMarzo 2010 – Marzo 2011Log room occupancy at 1 min freq135 sensores. >3M activaciones|V| = 38.880. |D| = 9.140
http://www.youtube.com/watch?v=HjCcVp6Yoog
MERLMarzo 2006 – Dic 2007290 sensores. >30M activaciones|V| = 83.520. |D| = 88.795
http://youtu.be/r3kyvnUyT20
MERL vs INNOTEKO...Cambridge (US) vs Geel (Belgium)
Ejemplos Rutinas InnotekT4. 1.02 ocupada 11:00-19:00 ~0.53T10. Relación entre 1.02 y 2.04T27. 0.06 ocupada entre 9:00-14:0...
Ejemplos Rutinas MERLT0. dejar el edificio entre 19:00-21:00, ocupar la sala de conf entre 17:00-19:00,alguien en la cocin...
Conclusiones●   LDA es un modelo no supervisado que se puede    aplicar con éxito en redes de sensores.●   A pesar de asum...
ReferenciasY. Low, D. Agarwal, A. J. Smola. Multiple Domain User Personalization. KDD 2011.A. Ahmed, Y. Low, M. Aly, V. Jo...
Gracias por la atención       ¿Preguntas?                  CreditsErik Degroof and Luc Peeters (Innotek Dataset) Chris Wre...
Seminario deustotech 13marzo-2013
Próxima SlideShare
Cargando en…5
×

Seminario deustotech 13marzo-2013

790 visualizaciones

Publicado el

Del modelado de conocimiento en entornos
AAL al descubrimiento de rutinas en redes
de sensores a gran escala.

Seminario DeustoTech 13 de Marzo del 2013

Publicado en: Tecnología
0 comentarios
1 recomendación
Estadísticas
Notas
  • Sé el primero en comentar

Sin descargas
Visualizaciones
Visualizaciones totales
790
En SlideShare
0
De insertados
0
Número de insertados
11
Acciones
Compartido
0
Descargas
2
Comentarios
0
Recomendaciones
1
Insertados 0
No insertados

No hay notas en la diapositiva.

Seminario deustotech 13marzo-2013

  1. 1. Del modelado de conocimiento en entornosAAL al descubrimiento de rutinas en redes de sensores a gran escala Federico Castanedo fcastanedo@deusto.es http://fcastanedo.com @fcastanedo
  2. 2. Índice1. Introducción a Inteligencia Ambiental2. Modelado del Usuario: Problemas3. Ámbitos de Aplicación y Técnicas a)Ontologías b)Probabilistic Topic Models ● Latent Dirichlet Allocation (LDA)4. Experimentos en Redes de Sensores5. Conclusiones
  3. 3. Inteligencia Ambiental~Smart Environments, Computación Ubicua, Pervasive ComputingModelado del usuario, Modelado del comportamiento ….Entornos que que “aprenden” los hábitos/rutinas del usuario y son capaces de anticipar sus necesidadesAreas: Inteligencia Artificial, Machine Learning, estadísticacomputacional … pero también redes, sistemas escalables,privacidad, etc...
  4. 4. Modelado del Usuario● Similar al problema de reconocimiento de actividades pero con diferente escala temporal.● Problemas: El comportamiento humano es cambiante por definición (Concept Drift).● Problemas (II): Algoritmos escalables capaces de trabajar con información en tiempo real (Online Learning).● Limitaciones: La mayoría de los trabajos se centran en varias horas o días.● Limitaciones (II): Los experimentos se suelen realizar con simulaciones o bien utilizando datos ad-hoc.● Se puede enfocar como un problema de Clasificación no Supervisada = = Clustering
  5. 5. Ámbitos de Aplicación y Técnicas● Web Content. (Low, 2011)● Click-to-Ratio, Ads Prediction. (Ahmed, 2011)● Correo Web. (Aberdeen, 2010)● Fraude en las transacciones: https://siftscience.com/● Entornos AAL● Técnicas: ● Ontologías ● Probabilistic Topic Models
  6. 6. Ontologías● Representación explícita del conocimiento del dominio.● Permiten razonar utilizando lógica de primer orden.● Limitaciones: Open World Assumption, conocimiento incierto, desconocido...➔ TURAMBAR (Ausín, 2012)Modelado/Razonamiento Ontológico + Redes BayesianasSimilar a BayesOWL, Pronto
  7. 7. Probabilistic Topic Models● Métodos para organizar información de forma automática. Pasos: 1. Encuentran los patrones ocultos en los datos 2. Se anotan los documentos en función de los tópicos 3. Se usan las anotaciones para organizar, resumir o buscar en los textos● Un tópico es una distribución de terminos de un vocabulario● Representación: Modelo Gráfico Probabilístico● Modelo Bayesiano Jerárquico● Modelo generativo de ML● Aprendizaje no supervisado
  8. 8. Latent Dirichlet Allocation (LDA)Basado en LSA/LSI, pLSI(Blei et. Al 2003)Asume distribuciones de Dirichlet en las priors. Dirichlet es laconjugada de multinomial.
  9. 9. Solo se observan palabras.El objetivo es inferir las variables ocultas.Calcular la distribución condicionada en los documentos. P (topics, proportions, assignments | documents)
  10. 10. Distribución de Dirichlet● Es la distribución conjugada de la multinomial● Una distribución posterior, se dice que sigue la dist. Dirichlet● Si tiene la pdf● Ej. Dir (1/2, 1/3, 1/6)
  11. 11. LDA as a Graphical ModelDistribución conjunta de las latent variables y los documentos
  12. 12. LDAD documentos se representan como un sparse vector de |w|ocurrencias de las palabras de un vocabulario V.Calcula la distribución de probabilidad de las palabras en cadalatent topic.Las palabras que co-ocurren tienen gran probabilidadde aparecer juntas en la posterior.Para cada documento → p (topic | document)Para cada tópico → p (word | topic)Para un corpus, infiere:-Per-word topic assignment Z_d,n-Per-document topic proportion theta_d-Per-corpus topic proportion beta_k
  13. 13. Inferencia (entrenando el modelo)Distribución conjunta de las latent variables y los documentos:Posterior:Aplicando Inferencia Bayesiana:No se puede calcular el denominador de forma exacta. Es necesario utilizar métodosaproximados:Gibbs Sampling, MCMC, Variational Inference....
  14. 14. ¿Porque LDA “funciona”?LDA busca 2 objetivos:1. Para cada documento, utilizar sus palabras en el menor númerode tópicos posible2. Para cada tópico, asignar una alta probabilidad al menornúmero de palabras posiblesSon contradictorios:-Poner un documento en un único tópico hace #2 díficilTodas las palabras deben tener prob en ese tópico-Poner pocas palabras en cada tópico hace #1 díficilPara cubrir las palabras de un documento, se debe asignar avarios tópicos
  15. 15. Extensiones de LDA● Correlated Topic Models (CTM)● Dynamic Topic Models (DTM)● Supervised Topic Models (sLDA)● Relational Topic Models (rLDA)● Hierarchical Topic Models (hLDA)
  16. 16. Experimentos en redes de sensores● El objetivo es generar un modelo del uso y del comportamiento de las rutinas de los usuarios en una red de sensores a gran escala de una forma no supervisada.● Usando únicamente sensores PIR. ¿Es posible generar un modelo de ocupación a largo plazo?● Si consideramos el histórico de las activaciones de los sensores como un conjutno de documentos (corpus) compuestos de palabras, donde cada palabra representa un patrón de activación:
  17. 17. Experimentos (II)● El problema se puede formular como: ● Descubrir el conjunto de tópicos de un corpus (conjunto de documentos) que serían el conjunto de rutinas.● LDA asume el modelo Bag of Words. Las palabras son independientes entre sí y tienen la misma probabilidad de ocurrencia.● En un entorno de trabajo se puede asumir una cierta distribución de las “palabras”.● (1) 00:00 to 6:00, (2) 6:00 to 7:00, (3) 7:00 to 9:00, (4) 9:00 to 11:00, (5) 11:00 to 14:00, (6) 14:00 to 17:00, (7) 7:00 to 19:00, (8) 19:00 to 21:00 (9) 21:00 to 00:00.
  18. 18. InnotekMarzo 2010 – Marzo 2011Log room occupancy at 1 min freq135 sensores. >3M activaciones|V| = 38.880. |D| = 9.140
  19. 19. http://www.youtube.com/watch?v=HjCcVp6Yoog
  20. 20. MERLMarzo 2006 – Dic 2007290 sensores. >30M activaciones|V| = 83.520. |D| = 88.795
  21. 21. http://youtu.be/r3kyvnUyT20
  22. 22. MERL vs INNOTEKO...Cambridge (US) vs Geel (Belgium)
  23. 23. Ejemplos Rutinas InnotekT4. 1.02 ocupada 11:00-19:00 ~0.53T10. Relación entre 1.02 y 2.04T27. 0.06 ocupada entre 9:00-14:00 y libre entre 17:00-21:00T33. 1.06 1 minuto libre entre 7:00 y 9:00 y ocupada entre 14:00-15:00T18. 0.01 ocupada de forma constante de 9:00-19:00T35. 2.02 libre de 9:00-11:00 y ocupada al final del día
  24. 24. Ejemplos Rutinas MERLT0. dejar el edificio entre 19:00-21:00, ocupar la sala de conf entre 17:00-19:00,alguien en la cocina entre 6:00-7:00 y el lobby ocupado entre 14:00-17:00.T375. Actividad cerca de las impresores de 6:00-11:00T643. Activaciones del sensor localizado en los baños entre 7:00-11:00
  25. 25. Conclusiones● LDA es un modelo no supervisado que se puede aplicar con éxito en redes de sensores.● A pesar de asumir independencia entre las palabras puede funcionar bien con suficientes datos.● En aplicaciones reales es necesario utilizar modelos de inferencia online para entrenar el modelo.● Multitud de variantes sobre el LDA básico.● Una vez se tiene un modelo entrenado se puede utilizar para: predecir, optimizar energía, detectar desviaciones, etc...
  26. 26. ReferenciasY. Low, D. Agarwal, A. J. Smola. Multiple Domain User Personalization. KDD 2011.A. Ahmed, Y. Low, M. Aly, V. Josifovsky, A. J. Smola. Scalable distributed inference ofdynamic user interests for behavioral targeting. KDD 2011.Aberdeen, Pacovsky, Slater.The Learning Behind Gmail Priority Inbox. 2010.D. Ausín, F. Castanedo, D. López-de-Ipiña. TURAMBAR: An Approach to Deal withUncertainty in Semantic Environments. IWAAL 2012.D. Blei, A. Y. NG, M. I. Jordan. Latent Dirichlet Allocation. Journal of Machine LearningResearch. 2003.F. Castanedo, D. López-de-Ipiña, H. Aghajan, R. Kleihorst. Building an occupancy modelfrom sensor networks in office environments. ICDSC. 2011.F. Castanedo, D. López-de-Ipiña, H. Aghajan, R. Kleihorst. Learning Routines Over Long-Term Sensor Data Using Topic Models. Expert Systems. In Press. 2013.
  27. 27. Gracias por la atención ¿Preguntas? CreditsErik Degroof and Luc Peeters (Innotek Dataset) Chris Wren and Yuri Ivanov (MERL Dataset) LDA Figures taken from David Blei tutorials

×