SlideShare una empresa de Scribd logo
1 de 28
Descargar para leer sin conexión
Del modelado de conocimiento en entornos
AAL al descubrimiento de rutinas en redes
        de sensores a gran escala


             Federico Castanedo
           fcastanedo@deusto.es
            http://fcastanedo.com
                  @fcastanedo
Índice
1. Introducción a Inteligencia Ambiental
2. Modelado del Usuario: Problemas
3. Ámbitos de Aplicación y Técnicas
  a)Ontologías
  b)Probabilistic Topic Models
     ●   Latent Dirichlet Allocation (LDA)
4. Experimentos en Redes de Sensores
5. Conclusiones
Inteligencia Ambiental
~Smart Environments, Computación Ubicua, Pervasive Computing
Modelado del usuario, Modelado del comportamiento ….


Entornos que que “aprenden” los hábitos/rutinas del usuario y son
             capaces de anticipar sus necesidades


Areas: Inteligencia Artificial, Machine Learning, estadística
computacional … pero también redes, sistemas escalables,
privacidad, etc...
Modelado del Usuario
●   Similar al problema de reconocimiento de actividades pero con
    diferente escala temporal.
●   Problemas: El comportamiento humano es cambiante por
    definición (Concept Drift).
●   Problemas (II): Algoritmos escalables capaces de trabajar con
    información en tiempo real (Online Learning).
●   Limitaciones: La mayoría de los trabajos se centran en varias
    horas o días.
●   Limitaciones (II): Los experimentos se suelen realizar con
    simulaciones o bien utilizando datos ad-hoc.
●   Se puede enfocar como un problema de Clasificación no
    Supervisada = = Clustering
Ámbitos de Aplicación y Técnicas
●   Web Content. (Low, 2011)
●   Click-to-Ratio, Ads Prediction. (Ahmed, 2011)
●   Correo Web. (Aberdeen, 2010)
●   Fraude en las transacciones: https://siftscience.com/
●   Entornos AAL
●   Técnicas:
    ●   Ontologías
    ●   Probabilistic Topic Models
Ontologías
●   Representación explícita del conocimiento del dominio.
●   Permiten razonar utilizando lógica de primer orden.
●   Limitaciones: Open World Assumption, conocimiento incierto,
    desconocido...
➔   TURAMBAR (Ausín, 2012)
Modelado/Razonamiento Ontológico + Redes Bayesianas
Similar a BayesOWL, Pronto
Probabilistic Topic Models
●   Métodos para organizar información de forma automática. Pasos:
    1. Encuentran los patrones ocultos en los datos
    2. Se anotan los documentos en función de los tópicos
    3. Se usan las anotaciones para organizar, resumir o buscar en los
       textos
●   Un tópico es una distribución de terminos de un vocabulario
●   Representación: Modelo Gráfico Probabilístico
●   Modelo Bayesiano Jerárquico
●   Modelo generativo de ML
●   Aprendizaje no supervisado
Latent Dirichlet Allocation (LDA)
Basado en LSA/LSI, pLSI
(Blei et. Al 2003)




Asume distribuciones de Dirichlet en las priors. Dirichlet es la
conjugada de multinomial.
Seminario deustotech 13marzo-2013
Solo se observan palabras.
El objetivo es inferir las variables ocultas.
Calcular la distribución condicionada en los documentos.
       P (topics, proportions, assignments | documents)
Distribución de Dirichlet
●   Es la distribución conjugada de la multinomial
●   Una distribución posterior, se dice que sigue la dist. Dirichlet


●   Si tiene la pdf


●   Ej. Dir (1/2, 1/3, 1/6)
LDA as a Graphical Model




Distribución conjunta de las latent variables y los documentos
LDA
D documentos se representan como un sparse vector de |w|
ocurrencias de las palabras de un vocabulario V.
Calcula la distribución de probabilidad de las palabras en cada
latent topic.Las palabras que co-ocurren tienen gran probabilidad
de aparecer juntas en la posterior.
Para cada documento → p (topic | document)
Para cada tópico → p (word | topic)
Para un corpus, infiere:
-Per-word topic assignment Z_d,n
-Per-document topic proportion theta_d
-Per-corpus topic proportion beta_k
Inferencia (entrenando el modelo)


Distribución conjunta de las latent variables y los documentos:




Posterior:
Aplicando Inferencia Bayesiana:
No se puede calcular el denominador de forma exacta. Es necesario utilizar métodos
aproximados:
Gibbs Sampling, MCMC, Variational Inference....
¿Porque LDA “funciona”?
LDA busca 2 objetivos:
1. Para cada documento, utilizar sus palabras en el menor número
de tópicos posible
2. Para cada tópico, asignar una alta probabilidad al menor
número de palabras posibles
Son contradictorios:
-Poner un documento en un único tópico hace #2 díficil
Todas las palabras deben tener prob en ese tópico
-Poner pocas palabras en cada tópico hace #1 díficil
Para cubrir las palabras de un documento, se debe asignar a
varios tópicos
Extensiones de LDA
●   Correlated Topic Models (CTM)
●   Dynamic Topic Models (DTM)
●   Supervised Topic Models (sLDA)
●   Relational Topic Models (rLDA)
●   Hierarchical Topic Models (hLDA)
Experimentos en redes de sensores
●   El objetivo es generar un modelo del uso y del comportamiento
    de las rutinas de los usuarios en una red de sensores a gran
    escala de una forma no supervisada.
●   Usando únicamente sensores PIR. ¿Es posible generar un
    modelo de ocupación a largo plazo?
●   Si consideramos el histórico de las activaciones de los
    sensores como un conjutno de documentos (corpus)
    compuestos de palabras, donde cada palabra representa un
    patrón de activación:
Experimentos (II)
●   El problema se puede formular como:
    ●   Descubrir el conjunto de tópicos de un corpus (conjunto de
        documentos) que serían el conjunto de rutinas.
●   LDA asume el modelo Bag of Words. Las palabras son
    independientes entre sí y tienen la misma probabilidad de
    ocurrencia.
●   En un entorno de trabajo se puede asumir una cierta
    distribución de las “palabras”.
●   (1) 00:00 to 6:00, (2) 6:00 to 7:00, (3) 7:00 to 9:00, (4) 9:00 to
    11:00, (5) 11:00 to 14:00, (6) 14:00 to 17:00, (7) 7:00 to 19:00,
    (8) 19:00 to 21:00 (9) 21:00 to 00:00.
Innotek
Marzo 2010 – Marzo 2011
Log room occupancy at 1 min freq
135 sensores. >3M activaciones
|V| = 38.880. |D| = 9.140
http://www.youtube.com/watch?v=HjCcVp6Yoog
MERL
Marzo 2006 – Dic 2007

290 sensores. >30M activaciones

|V| = 83.520. |D| = 88.795
http://youtu.be/r3kyvnUyT20
MERL vs INNOTEK
O...Cambridge (US) vs Geel (Belgium)
Ejemplos Rutinas Innotek




T4. 1.02 ocupada 11:00-19:00 ~0.53
T10. Relación entre 1.02 y 2.04
T27. 0.06 ocupada entre 9:00-14:00 y libre entre 17:00-21:00
T33. 1.06 1 minuto libre entre 7:00 y 9:00 y ocupada entre 14:00-15:00
T18. 0.01 ocupada de forma constante de 9:00-19:00
T35. 2.02 libre de 9:00-11:00 y ocupada al final del día
Ejemplos Rutinas MERL




T0. dejar el edificio entre 19:00-21:00, ocupar la sala de conf entre 17:00-19:00,
alguien en la cocina entre 6:00-7:00 y el lobby ocupado entre 14:00-17:00.
T375. Actividad cerca de las impresores de 6:00-11:00
T643. Activaciones del sensor localizado en los baños entre 7:00-11:00
Conclusiones
●   LDA es un modelo no supervisado que se puede
    aplicar con éxito en redes de sensores.
●   A pesar de asumir independencia entre las palabras
    puede funcionar bien con suficientes datos.
●   En aplicaciones reales es necesario utilizar modelos
    de inferencia online para entrenar el modelo.
●   Multitud de variantes sobre el LDA básico.
●   Una vez se tiene un modelo entrenado se puede
    utilizar para: predecir, optimizar energía, detectar
    desviaciones, etc...
Referencias
Y. Low, D. Agarwal, A. J. Smola. Multiple Domain User Personalization. KDD 2011.
A. Ahmed, Y. Low, M. Aly, V. Josifovsky, A. J. Smola. Scalable distributed inference of
dynamic user interests for behavioral targeting. KDD 2011.
Aberdeen, Pacovsky, Slater.The Learning Behind Gmail Priority Inbox. 2010.
D. Ausín, F. Castanedo, D. López-de-Ipiña. TURAMBAR: An Approach to Deal with
Uncertainty in Semantic Environments. IWAAL 2012.
D. Blei, A. Y. NG, M. I. Jordan. Latent Dirichlet Allocation. Journal of Machine Learning
Research. 2003.
F. Castanedo, D. López-de-Ipiña, H. Aghajan, R. Kleihorst. Building an occupancy model
from sensor networks in office environments. ICDSC. 2011.
F. Castanedo, D. López-de-Ipiña, H. Aghajan, R. Kleihorst. Learning Routines Over Long-
Term Sensor Data Using Topic Models. Expert Systems. In Press. 2013.
Gracias por la atención
       ¿Preguntas?




                  Credits
Erik Degroof and Luc Peeters (Innotek Dataset)
 Chris Wren and Yuri Ivanov (MERL Dataset)
  LDA Figures taken from David Blei tutorials

Más contenido relacionado

Similar a Seminario deustotech 13marzo-2013

LENGUAJE DE PROGRAMACIÓN ORIENTADA A OBJETOS
LENGUAJE DE PROGRAMACIÓN ORIENTADA A OBJETOSLENGUAJE DE PROGRAMACIÓN ORIENTADA A OBJETOS
LENGUAJE DE PROGRAMACIÓN ORIENTADA A OBJETOSJonathan Hidalgo Nolasco
 
Programacion orientada objetos-1
Programacion orientada objetos-1Programacion orientada objetos-1
Programacion orientada objetos-1Scott Chavez
 
Programación orientada a objetos
Programación orientada a objetosProgramación orientada a objetos
Programación orientada a objetosNanda Moran
 
1-Unidad 1. Paradigma de la Programación-Orientación a Objetos
1-Unidad 1. Paradigma de la Programación-Orientación a Objetos1-Unidad 1. Paradigma de la Programación-Orientación a Objetos
1-Unidad 1. Paradigma de la Programación-Orientación a ObjetosLuis Fernando Aguas Bucheli
 
Herrera marcelo 6_s_TI_1
Herrera marcelo 6_s_TI_1Herrera marcelo 6_s_TI_1
Herrera marcelo 6_s_TI_1Marcelo Herrera
 
Curso de Probabilidad y Estadística en línea de acuerdo con las preferencias...
Curso de Probabilidad y Estadística en línea  de acuerdo con las preferencias...Curso de Probabilidad y Estadística en línea  de acuerdo con las preferencias...
Curso de Probabilidad y Estadística en línea de acuerdo con las preferencias...Jose Luis Garcia Cue
 
Tenesaca jhonny 6_s_ti_1
Tenesaca jhonny 6_s_ti_1Tenesaca jhonny 6_s_ti_1
Tenesaca jhonny 6_s_ti_1Jhonny Tenesaca
 
Bases de datos orientados a objetos
Bases de datos orientados a objetosBases de datos orientados a objetos
Bases de datos orientados a objetosJuan Anaya
 
Tema 1 2_poo
Tema 1 2_pooTema 1 2_poo
Tema 1 2_poodemon_628
 

Similar a Seminario deustotech 13marzo-2013 (20)

LENGUAJE DE PROGRAMACIÓN ORIENTADA A OBJETOS
LENGUAJE DE PROGRAMACIÓN ORIENTADA A OBJETOSLENGUAJE DE PROGRAMACIÓN ORIENTADA A OBJETOS
LENGUAJE DE PROGRAMACIÓN ORIENTADA A OBJETOS
 
Poo3
Poo3Poo3
Poo3
 
Trabajo poo
Trabajo poo Trabajo poo
Trabajo poo
 
Lecture 01 Introduccion.ppt
Lecture 01 Introduccion.pptLecture 01 Introduccion.ppt
Lecture 01 Introduccion.ppt
 
Iniciando BDOO
Iniciando BDOOIniciando BDOO
Iniciando BDOO
 
Programacion orientada objetos-1
Programacion orientada objetos-1Programacion orientada objetos-1
Programacion orientada objetos-1
 
porgramacion orientada a objetos
porgramacion orientada a objetos porgramacion orientada a objetos
porgramacion orientada a objetos
 
tarea poo s-a
tarea poo s-atarea poo s-a
tarea poo s-a
 
Programación orientada a objetos
Programación orientada a objetosProgramación orientada a objetos
Programación orientada a objetos
 
1-Unidad 1. Paradigma de la Programación-Orientación a Objetos
1-Unidad 1. Paradigma de la Programación-Orientación a Objetos1-Unidad 1. Paradigma de la Programación-Orientación a Objetos
1-Unidad 1. Paradigma de la Programación-Orientación a Objetos
 
S1-Fundamentos POO
S1-Fundamentos POOS1-Fundamentos POO
S1-Fundamentos POO
 
Herrera marcelo 6_s_TI_1
Herrera marcelo 6_s_TI_1Herrera marcelo 6_s_TI_1
Herrera marcelo 6_s_TI_1
 
S1-POO-1.1 Fundamentos
S1-POO-1.1 FundamentosS1-POO-1.1 Fundamentos
S1-POO-1.1 Fundamentos
 
J15 45 peset_fernanda
J15 45 peset_fernandaJ15 45 peset_fernanda
J15 45 peset_fernanda
 
Curso de Probabilidad y Estadística en línea de acuerdo con las preferencias...
Curso de Probabilidad y Estadística en línea  de acuerdo con las preferencias...Curso de Probabilidad y Estadística en línea  de acuerdo con las preferencias...
Curso de Probabilidad y Estadística en línea de acuerdo con las preferencias...
 
Tenesaca jhonny 6_s_ti_1
Tenesaca jhonny 6_s_ti_1Tenesaca jhonny 6_s_ti_1
Tenesaca jhonny 6_s_ti_1
 
Bases de datos orientados a objetos
Bases de datos orientados a objetosBases de datos orientados a objetos
Bases de datos orientados a objetos
 
2.+Deep+Learning.pdf
2.+Deep+Learning.pdf2.+Deep+Learning.pdf
2.+Deep+Learning.pdf
 
Tema 1 2_poo
Tema 1 2_pooTema 1 2_poo
Tema 1 2_poo
 
ESTUDIANTE
ESTUDIANTEESTUDIANTE
ESTUDIANTE
 

Último

Tabla ejemplo, complemento de las cartas
Tabla ejemplo, complemento de las cartasTabla ejemplo, complemento de las cartas
Tabla ejemplo, complemento de las cartasSantiagoMeneses18
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.docxBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.docxwalterdanielcortes08
 
APEX Office Hours - Two Factor Authentication
APEX Office Hours - Two Factor AuthenticationAPEX Office Hours - Two Factor Authentication
APEX Office Hours - Two Factor Authenticationjoelorta2
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.pdfBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.pdfssuser337a5e
 
Texto Argumentativo (Basura Electronica)
Texto Argumentativo (Basura Electronica)Texto Argumentativo (Basura Electronica)
Texto Argumentativo (Basura Electronica)AlejandraCasallas7
 
Trabajo de tecnología excel avanzado:métodos estadísticos
Trabajo de tecnología excel avanzado:métodos estadísticosTrabajo de tecnología excel avanzado:métodos estadísticos
Trabajo de tecnología excel avanzado:métodos estadísticosJuanCamilomurillo2
 
Novedades del mejor escritorio: Plasma 6 de KDE - Por Baltasar Ortega
Novedades del mejor escritorio: Plasma 6 de KDE - Por Baltasar OrtegaNovedades del mejor escritorio: Plasma 6 de KDE - Por Baltasar Ortega
Novedades del mejor escritorio: Plasma 6 de KDE - Por Baltasar OrtegaBaltasar Ortega
 
Lista de selección dinámica desde MySQL hacia PHP (con PDO)
Lista de selección dinámica desde MySQL hacia PHP (con PDO)Lista de selección dinámica desde MySQL hacia PHP (con PDO)
Lista de selección dinámica desde MySQL hacia PHP (con PDO)ChristianRivera122452
 
Garcia_Garcia_PracticasWeb7Reportes.pptx
Garcia_Garcia_PracticasWeb7Reportes.pptxGarcia_Garcia_PracticasWeb7Reportes.pptx
Garcia_Garcia_PracticasWeb7Reportes.pptxANDREADELCARMENGARCI
 
cuadro comparativo de web 1.0 web 2.0 web 3.0 web 4.0......pptx
cuadro comparativo de web 1.0 web 2.0 web 3.0 web 4.0......pptxcuadro comparativo de web 1.0 web 2.0 web 3.0 web 4.0......pptx
cuadro comparativo de web 1.0 web 2.0 web 3.0 web 4.0......pptxange07u
 
carta combinada para empleados de una empresa
carta combinada para empleados de una empresacarta combinada para empleados de una empresa
carta combinada para empleados de una empresafspro99
 
El Libro de la Inteligencia Artificial (versión 13)
El Libro de la Inteligencia Artificial (versión 13)El Libro de la Inteligencia Artificial (versión 13)
El Libro de la Inteligencia Artificial (versión 13)Alfredo Vela Zancada
 
CALCULADORA CIENTIFICA trabajo grupal 9-6.docx
CALCULADORA CIENTIFICA trabajo grupal 9-6.docxCALCULADORA CIENTIFICA trabajo grupal 9-6.docx
CALCULADORA CIENTIFICA trabajo grupal 9-6.docxzoecaicedosalazar
 
IA en la empresa. La inteligencia artificial potencia la tarea diaria
IA en la empresa. La inteligencia artificial potencia la tarea diariaIA en la empresa. La inteligencia artificial potencia la tarea diaria
IA en la empresa. La inteligencia artificial potencia la tarea diariaEducática
 
Excel avanzado.pdf tecnologiaaaaaaaaaaaa
Excel avanzado.pdf tecnologiaaaaaaaaaaaaExcel avanzado.pdf tecnologiaaaaaaaaaaaa
Excel avanzado.pdf tecnologiaaaaaaaaaaaaNicolleAndrade7
 
TareaSesión8_ListaDinamica_Garcia_Garcia.pptx
TareaSesión8_ListaDinamica_Garcia_Garcia.pptxTareaSesión8_ListaDinamica_Garcia_Garcia.pptx
TareaSesión8_ListaDinamica_Garcia_Garcia.pptxANDREADELCARMENGARCI
 
Tecnología 2024 11-2 .pdf.......................
Tecnología 2024  11-2 .pdf.......................Tecnología 2024  11-2 .pdf.......................
Tecnología 2024 11-2 .pdf.......................GabrielHernndez206156
 
Basisschulung zum Datenschutz DE_SPA.pptx
Basisschulung zum Datenschutz  DE_SPA.pptxBasisschulung zum Datenschutz  DE_SPA.pptx
Basisschulung zum Datenschutz DE_SPA.pptxsergioagudo4
 
Tarea_de_la_sesión_8 Base de Datos Individual.pptx
Tarea_de_la_sesión_8 Base de Datos Individual.pptxTarea_de_la_sesión_8 Base de Datos Individual.pptx
Tarea_de_la_sesión_8 Base de Datos Individual.pptxVICTORMANUELBEASAGUI
 
Texto Argumentativo (Basura Electronica).docx
Texto Argumentativo (Basura Electronica).docxTexto Argumentativo (Basura Electronica).docx
Texto Argumentativo (Basura Electronica).docxlucianavillotalozano
 

Último (20)

Tabla ejemplo, complemento de las cartas
Tabla ejemplo, complemento de las cartasTabla ejemplo, complemento de las cartas
Tabla ejemplo, complemento de las cartas
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.docxBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.docx
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.docx
 
APEX Office Hours - Two Factor Authentication
APEX Office Hours - Two Factor AuthenticationAPEX Office Hours - Two Factor Authentication
APEX Office Hours - Two Factor Authentication
 
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.pdfBLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.pdf
BLOG, EXCEL AVANZADO, MÉTODOS ESTADÍSTICOS.pdf
 
Texto Argumentativo (Basura Electronica)
Texto Argumentativo (Basura Electronica)Texto Argumentativo (Basura Electronica)
Texto Argumentativo (Basura Electronica)
 
Trabajo de tecnología excel avanzado:métodos estadísticos
Trabajo de tecnología excel avanzado:métodos estadísticosTrabajo de tecnología excel avanzado:métodos estadísticos
Trabajo de tecnología excel avanzado:métodos estadísticos
 
Novedades del mejor escritorio: Plasma 6 de KDE - Por Baltasar Ortega
Novedades del mejor escritorio: Plasma 6 de KDE - Por Baltasar OrtegaNovedades del mejor escritorio: Plasma 6 de KDE - Por Baltasar Ortega
Novedades del mejor escritorio: Plasma 6 de KDE - Por Baltasar Ortega
 
Lista de selección dinámica desde MySQL hacia PHP (con PDO)
Lista de selección dinámica desde MySQL hacia PHP (con PDO)Lista de selección dinámica desde MySQL hacia PHP (con PDO)
Lista de selección dinámica desde MySQL hacia PHP (con PDO)
 
Garcia_Garcia_PracticasWeb7Reportes.pptx
Garcia_Garcia_PracticasWeb7Reportes.pptxGarcia_Garcia_PracticasWeb7Reportes.pptx
Garcia_Garcia_PracticasWeb7Reportes.pptx
 
cuadro comparativo de web 1.0 web 2.0 web 3.0 web 4.0......pptx
cuadro comparativo de web 1.0 web 2.0 web 3.0 web 4.0......pptxcuadro comparativo de web 1.0 web 2.0 web 3.0 web 4.0......pptx
cuadro comparativo de web 1.0 web 2.0 web 3.0 web 4.0......pptx
 
carta combinada para empleados de una empresa
carta combinada para empleados de una empresacarta combinada para empleados de una empresa
carta combinada para empleados de una empresa
 
El Libro de la Inteligencia Artificial (versión 13)
El Libro de la Inteligencia Artificial (versión 13)El Libro de la Inteligencia Artificial (versión 13)
El Libro de la Inteligencia Artificial (versión 13)
 
CALCULADORA CIENTIFICA trabajo grupal 9-6.docx
CALCULADORA CIENTIFICA trabajo grupal 9-6.docxCALCULADORA CIENTIFICA trabajo grupal 9-6.docx
CALCULADORA CIENTIFICA trabajo grupal 9-6.docx
 
IA en la empresa. La inteligencia artificial potencia la tarea diaria
IA en la empresa. La inteligencia artificial potencia la tarea diariaIA en la empresa. La inteligencia artificial potencia la tarea diaria
IA en la empresa. La inteligencia artificial potencia la tarea diaria
 
Excel avanzado.pdf tecnologiaaaaaaaaaaaa
Excel avanzado.pdf tecnologiaaaaaaaaaaaaExcel avanzado.pdf tecnologiaaaaaaaaaaaa
Excel avanzado.pdf tecnologiaaaaaaaaaaaa
 
TareaSesión8_ListaDinamica_Garcia_Garcia.pptx
TareaSesión8_ListaDinamica_Garcia_Garcia.pptxTareaSesión8_ListaDinamica_Garcia_Garcia.pptx
TareaSesión8_ListaDinamica_Garcia_Garcia.pptx
 
Tecnología 2024 11-2 .pdf.......................
Tecnología 2024  11-2 .pdf.......................Tecnología 2024  11-2 .pdf.......................
Tecnología 2024 11-2 .pdf.......................
 
Basisschulung zum Datenschutz DE_SPA.pptx
Basisschulung zum Datenschutz  DE_SPA.pptxBasisschulung zum Datenschutz  DE_SPA.pptx
Basisschulung zum Datenschutz DE_SPA.pptx
 
Tarea_de_la_sesión_8 Base de Datos Individual.pptx
Tarea_de_la_sesión_8 Base de Datos Individual.pptxTarea_de_la_sesión_8 Base de Datos Individual.pptx
Tarea_de_la_sesión_8 Base de Datos Individual.pptx
 
Texto Argumentativo (Basura Electronica).docx
Texto Argumentativo (Basura Electronica).docxTexto Argumentativo (Basura Electronica).docx
Texto Argumentativo (Basura Electronica).docx
 

Seminario deustotech 13marzo-2013

  • 1. Del modelado de conocimiento en entornos AAL al descubrimiento de rutinas en redes de sensores a gran escala Federico Castanedo fcastanedo@deusto.es http://fcastanedo.com @fcastanedo
  • 2. Índice 1. Introducción a Inteligencia Ambiental 2. Modelado del Usuario: Problemas 3. Ámbitos de Aplicación y Técnicas a)Ontologías b)Probabilistic Topic Models ● Latent Dirichlet Allocation (LDA) 4. Experimentos en Redes de Sensores 5. Conclusiones
  • 3. Inteligencia Ambiental ~Smart Environments, Computación Ubicua, Pervasive Computing Modelado del usuario, Modelado del comportamiento …. Entornos que que “aprenden” los hábitos/rutinas del usuario y son capaces de anticipar sus necesidades Areas: Inteligencia Artificial, Machine Learning, estadística computacional … pero también redes, sistemas escalables, privacidad, etc...
  • 4. Modelado del Usuario ● Similar al problema de reconocimiento de actividades pero con diferente escala temporal. ● Problemas: El comportamiento humano es cambiante por definición (Concept Drift). ● Problemas (II): Algoritmos escalables capaces de trabajar con información en tiempo real (Online Learning). ● Limitaciones: La mayoría de los trabajos se centran en varias horas o días. ● Limitaciones (II): Los experimentos se suelen realizar con simulaciones o bien utilizando datos ad-hoc. ● Se puede enfocar como un problema de Clasificación no Supervisada = = Clustering
  • 5. Ámbitos de Aplicación y Técnicas ● Web Content. (Low, 2011) ● Click-to-Ratio, Ads Prediction. (Ahmed, 2011) ● Correo Web. (Aberdeen, 2010) ● Fraude en las transacciones: https://siftscience.com/ ● Entornos AAL ● Técnicas: ● Ontologías ● Probabilistic Topic Models
  • 6. Ontologías ● Representación explícita del conocimiento del dominio. ● Permiten razonar utilizando lógica de primer orden. ● Limitaciones: Open World Assumption, conocimiento incierto, desconocido... ➔ TURAMBAR (Ausín, 2012) Modelado/Razonamiento Ontológico + Redes Bayesianas Similar a BayesOWL, Pronto
  • 7. Probabilistic Topic Models ● Métodos para organizar información de forma automática. Pasos: 1. Encuentran los patrones ocultos en los datos 2. Se anotan los documentos en función de los tópicos 3. Se usan las anotaciones para organizar, resumir o buscar en los textos ● Un tópico es una distribución de terminos de un vocabulario ● Representación: Modelo Gráfico Probabilístico ● Modelo Bayesiano Jerárquico ● Modelo generativo de ML ● Aprendizaje no supervisado
  • 8. Latent Dirichlet Allocation (LDA) Basado en LSA/LSI, pLSI (Blei et. Al 2003) Asume distribuciones de Dirichlet en las priors. Dirichlet es la conjugada de multinomial.
  • 10. Solo se observan palabras. El objetivo es inferir las variables ocultas. Calcular la distribución condicionada en los documentos. P (topics, proportions, assignments | documents)
  • 11. Distribución de Dirichlet ● Es la distribución conjugada de la multinomial ● Una distribución posterior, se dice que sigue la dist. Dirichlet ● Si tiene la pdf ● Ej. Dir (1/2, 1/3, 1/6)
  • 12. LDA as a Graphical Model Distribución conjunta de las latent variables y los documentos
  • 13. LDA D documentos se representan como un sparse vector de |w| ocurrencias de las palabras de un vocabulario V. Calcula la distribución de probabilidad de las palabras en cada latent topic.Las palabras que co-ocurren tienen gran probabilidad de aparecer juntas en la posterior. Para cada documento → p (topic | document) Para cada tópico → p (word | topic) Para un corpus, infiere: -Per-word topic assignment Z_d,n -Per-document topic proportion theta_d -Per-corpus topic proportion beta_k
  • 14. Inferencia (entrenando el modelo) Distribución conjunta de las latent variables y los documentos: Posterior: Aplicando Inferencia Bayesiana: No se puede calcular el denominador de forma exacta. Es necesario utilizar métodos aproximados: Gibbs Sampling, MCMC, Variational Inference....
  • 15. ¿Porque LDA “funciona”? LDA busca 2 objetivos: 1. Para cada documento, utilizar sus palabras en el menor número de tópicos posible 2. Para cada tópico, asignar una alta probabilidad al menor número de palabras posibles Son contradictorios: -Poner un documento en un único tópico hace #2 díficil Todas las palabras deben tener prob en ese tópico -Poner pocas palabras en cada tópico hace #1 díficil Para cubrir las palabras de un documento, se debe asignar a varios tópicos
  • 16. Extensiones de LDA ● Correlated Topic Models (CTM) ● Dynamic Topic Models (DTM) ● Supervised Topic Models (sLDA) ● Relational Topic Models (rLDA) ● Hierarchical Topic Models (hLDA)
  • 17. Experimentos en redes de sensores ● El objetivo es generar un modelo del uso y del comportamiento de las rutinas de los usuarios en una red de sensores a gran escala de una forma no supervisada. ● Usando únicamente sensores PIR. ¿Es posible generar un modelo de ocupación a largo plazo? ● Si consideramos el histórico de las activaciones de los sensores como un conjutno de documentos (corpus) compuestos de palabras, donde cada palabra representa un patrón de activación:
  • 18. Experimentos (II) ● El problema se puede formular como: ● Descubrir el conjunto de tópicos de un corpus (conjunto de documentos) que serían el conjunto de rutinas. ● LDA asume el modelo Bag of Words. Las palabras son independientes entre sí y tienen la misma probabilidad de ocurrencia. ● En un entorno de trabajo se puede asumir una cierta distribución de las “palabras”. ● (1) 00:00 to 6:00, (2) 6:00 to 7:00, (3) 7:00 to 9:00, (4) 9:00 to 11:00, (5) 11:00 to 14:00, (6) 14:00 to 17:00, (7) 7:00 to 19:00, (8) 19:00 to 21:00 (9) 21:00 to 00:00.
  • 19. Innotek Marzo 2010 – Marzo 2011 Log room occupancy at 1 min freq 135 sensores. >3M activaciones |V| = 38.880. |D| = 9.140
  • 21. MERL Marzo 2006 – Dic 2007 290 sensores. >30M activaciones |V| = 83.520. |D| = 88.795
  • 23. MERL vs INNOTEK O...Cambridge (US) vs Geel (Belgium)
  • 24. Ejemplos Rutinas Innotek T4. 1.02 ocupada 11:00-19:00 ~0.53 T10. Relación entre 1.02 y 2.04 T27. 0.06 ocupada entre 9:00-14:00 y libre entre 17:00-21:00 T33. 1.06 1 minuto libre entre 7:00 y 9:00 y ocupada entre 14:00-15:00 T18. 0.01 ocupada de forma constante de 9:00-19:00 T35. 2.02 libre de 9:00-11:00 y ocupada al final del día
  • 25. Ejemplos Rutinas MERL T0. dejar el edificio entre 19:00-21:00, ocupar la sala de conf entre 17:00-19:00, alguien en la cocina entre 6:00-7:00 y el lobby ocupado entre 14:00-17:00. T375. Actividad cerca de las impresores de 6:00-11:00 T643. Activaciones del sensor localizado en los baños entre 7:00-11:00
  • 26. Conclusiones ● LDA es un modelo no supervisado que se puede aplicar con éxito en redes de sensores. ● A pesar de asumir independencia entre las palabras puede funcionar bien con suficientes datos. ● En aplicaciones reales es necesario utilizar modelos de inferencia online para entrenar el modelo. ● Multitud de variantes sobre el LDA básico. ● Una vez se tiene un modelo entrenado se puede utilizar para: predecir, optimizar energía, detectar desviaciones, etc...
  • 27. Referencias Y. Low, D. Agarwal, A. J. Smola. Multiple Domain User Personalization. KDD 2011. A. Ahmed, Y. Low, M. Aly, V. Josifovsky, A. J. Smola. Scalable distributed inference of dynamic user interests for behavioral targeting. KDD 2011. Aberdeen, Pacovsky, Slater.The Learning Behind Gmail Priority Inbox. 2010. D. Ausín, F. Castanedo, D. López-de-Ipiña. TURAMBAR: An Approach to Deal with Uncertainty in Semantic Environments. IWAAL 2012. D. Blei, A. Y. NG, M. I. Jordan. Latent Dirichlet Allocation. Journal of Machine Learning Research. 2003. F. Castanedo, D. López-de-Ipiña, H. Aghajan, R. Kleihorst. Building an occupancy model from sensor networks in office environments. ICDSC. 2011. F. Castanedo, D. López-de-Ipiña, H. Aghajan, R. Kleihorst. Learning Routines Over Long- Term Sensor Data Using Topic Models. Expert Systems. In Press. 2013.
  • 28. Gracias por la atención ¿Preguntas? Credits Erik Degroof and Luc Peeters (Innotek Dataset) Chris Wren and Yuri Ivanov (MERL Dataset) LDA Figures taken from David Blei tutorials