SlideShare una empresa de Scribd logo
Miner´ de Sesiones en
         ıa
Motores de B´squeda Web
            u
                       Marcelo Mendoza
           Yahoo! Research Latin America
                                   2009
C´mo buscar en la Web?
 o
C´mo buscar en la Web?
 o
Los usuarios nos dan feedback




      Los motores de b´squeda registran la actividad del
                        u
      usuario en logs (consultas, clicks, navegacion).
      Podemos usar los logs para mejorar la efectividad del
      motor de b´squeda.
                 u
El feedback de los usuarios
Las sesiones de los usuarios: consultas
Las sesiones de los usuarios: consultas
Las sesiones de los usuarios: directorios
Las sesiones de los usuarios: directorios
Las sesiones de los usuarios


      Motor de consulta: (q, (URL, r , t)∗ )
      Directorio: (c, (URL, r , t)∗ )
      q: consulta (t´rminos que la componen).
                     e
      c: categoria del directorio (texto del path).
      URL: documento seleccionado (p´gina / sitio).
                                         a
      r : ubicaci´n del documento en la lista de
                 o
      recomendaciones.
      t: tiempo que el usuario permanece revisando el
      documento.
Miner´ de sesiones como proceso
     ıa
Miner´ de sesiones como proceso
     ıa
Actividad en la Web
Relaci´n t´rminos documentos / consultas
      o e




      | Q | = 27,766, | D | = 359,056, | Q ∩ D | = 22,692
Modelos de Sesiones de Usuarios
  [BYHMD05]
Modelos de Sesiones de Usuarios
  [BYHMD05]
Modelos de Sesiones de Usuarios
  [BYHMD05]
Modelos de Sesiones de Usuarios
  [BYHMD05]
Las sesiones de los usuarios: Qu´ sabemos?
                                e


      Las consultas son cortas (2 a 3 t´rminos en promedio).
                                        e
      No siempre un t´rmino frecuentemente usado en
                       e
      consultas es frecuentemente usado en documentos.
      Los clicks se concentran preferentemente en las primeras
      posiciones del ranking.
      En general, los usuarios no revisan exhaustivamente los
      resultados (se concentran en los top-10).
      Los directorios son poco usados pero son muy efectivos.
Relaciones entre consultas

  [DM06]




      q2 puede mejorar q1 !!! (se induce un grafo dirigido)
Relaciones entre consultas
  [DM06]
Relaciones entre consultas


  [DM06]
Grupos de consultas (clustering)

      Construir representaciones vectoriales de sesiones de
      consultas.
      Introducir una funci´n de distancia entre vectores y
                           o
      agrupar usando un algoritmo de clustering estandar (e.g.
      k-means).
      Explotar las relaciones definidas en cada grupo:
           consulta ←→ consulta
           consulta ←→ documento
           documento ←→ documento
      Usar caracter´ısticas de las sesiones para construir vectores.
      Vectores basados en t´rminos de consultas, t´rminos de
                              e                       e
      documentos, ranking de documentos clickeados, n´mero  u
      de clicks, tiempo de permanencia en documento, etc...
Relaciones entre documentos / consultas
Vectores de consultas



      T´rminos de consultas: q[i] = Tfi,q · Idfi,Q
        e
      Tfi,q : n´mero de ocurrencias de ti en q (normalizado).
                u
      Idfi,Q : log( NQ ).
                    ni
      Limitaci´n: q generalmente tiene pocos t´rminos (i.e.
                o                                e
      Tfi,q = 0).
      Versi´n suavizada: q[i] = (0.5 + 0.5 · Tfi,q ) · Idfi,Q .
             o
Vectores de consultas

      Co-citaci´n: dos consultas son similares si hay
               o
      coincidencias entre los docs clickeados en sus sesiones.




      Alternativas para los pesos: booleanos, ranking, clicks.
Vectores de consultas


      Consultas: usamos variables generadas en las sesiones
      donde q ha sido formulada (que reflejan la actividad del
      usuario).

  Tf-Pop
  q[i] =   URLs u   Tfi,u · C (u, s),


      C (u, s): n´mero de clicks a u (sobre total de clicks).
                 u
  [BYHM04a]
Vectores de sesiones de consultas


      Sesiones: usamos variables generadas en cada sesi´n (que
                                                         o
      reflejan la actividad del usuario).
      No usamos clicks (C (u, s) es 1 o 0 en la sesi´n).
                                                    o
      Usamos tiempo (tu : tiempo en el doc u, ts : duraci´n de
                                                          o
      la sesi´n).
             o

  Tf-Idf-Time
                                        tu
  qs[i] =   URLs u   Tfi,u · Idfi,Q ·   ts
                                           .


  [BYHM07]
Distribuci´n de distancias
          o
      Usamos distancia coseno.




  [BYHM07]
Clusters de consultas




  [BYHM04b]
Usando clusters de consultas



      Mejorar el ranking! (usar los documentos m´s clickeados
                                                a
      del cluster).
      Clasificaci´n de palabras:
                 o
          T´rminos en el cluster: sinonimia.
           e
          Mismo t´rmino en distintos clusters: polisemia.
                 e
      Recomendar consultas (usar las consultas que retornan los
      documentos con m´s clicks y en mejores posiciones).
                       a
Miner´ de Sesiones en Directorios
     ıa

       Los directorios est´n limitados en su crecimiento.
                          a
       Idea: usando sesiones de usuario, producir
       autom´ticamente recomendaciones de documentos en el
              a
       directorio −→ crecimiento.
       Usamos el log del directorio para construir
       representaciones vectoriales de sesiones en el directorio.
       Las asociamos a sesiones de consultas −→ recomendamos
       documentos seleccionados en las sesiones de consultas en
       el directorio −→ tambi´n asociamos consultas.
                               e

  Categorias de Directorios
                                1
  vc [i] =   cs∈c   vcs [i] ×   r
Miner´ de Sesiones en Directorios
     ıa
Miner´ de Sesiones en Directorios
     ıa


     MinSupp   Relevant   Recommended   Precision    Recall   F-measure
       0.1       356          499       71.34%      63.46%     67.17%
       0.2       386          437       88.33%      68.81%     77.35%
       0.3       378          401       94.26%      67.38%     78.59%
       0.4       331          352       94.03%      59.01%     72.51%
       0.5       290          302       96.03%      51.69%     67.21%

       Set     Relevant   Recommended   Precision    Recall   F-measure
        A        378          401       94.26%      67.38%     78.59%
        H        470          500       94.01%      83.78%     88.61%
      H∩A        289          297       97.31%      51.52%     67.37%
      H-A        181          203       89.16%      32.26%     47.38%
      A-H         89          104       85.58%      15.86%     26.77%
Miner´ de Sesiones en Directorios
     ıa
   Category       Queries Recommended
   literature     poetry, Chilean tales, Chilean poetry, Pablo Neruda, value added tax
   museums        Bellas Artes museum, Historical museum, San Francisco church,
                  Claudio Bravo, Pablo Neruda
   architecture   architecture, architects, architecture’s information,
                  history of the Chilean architecture, Maipu temple
   Astronomy      observatory, telescope, Paranal, pisco, wine tour
   Biology        native plants, birds, flora and fauna, Chilean flora, insects
   Geology        Valdivia’s earthquake, 1960 earthquake, vulcanos, earthquakes, tremor
   History        history of Chile, local history, naval battle of Iquique, Chilean folklore
   technologies   nuclear physics, birds, telescopes, energy, Chilean climate
   hardware       printers, optic fiber, lexmark, toner, CPU
   Internet       e-business, e-commerce, P2P, web development, hostage
   software       free software, software errors, bar code’s sofware, sofware
   informatics    computer networks install, networks, used notebooks, tutorials
   real estate    properties, apartments, sales, rentals in Chile, houses
   arts           master, tatoos, photography, Violeta Parra, Violeta Parra biography
   photography    photography, digital photography, Chilean photography, photos,
                  Photography’s courses
   restaurants    Vegetarian food, Mexican food, Japanese food, chiken, Chinese food
   commerce       duty free Iquique, duty free Punta Arenas, duty free areas, taxes
   toys & games   games, board games, PC games, PS2 tricks, PS2 games
   video & dvd    DVD, DVD R, movie sales, DVD recording, CD R
Intensiones detr´s de las consultas
                a


      Los usuarios manifiestan intensiones detr´s de sus
                                                a
      consultas.
      Quiero aprender acerca de algo:
                      batalla naval del Iquique
      Quiero ir a una p´gina / sitio espec´
                       a                  ıfica:
                               Amazon
      Quiero realizar una acci´n en particular:
                              o
          Accesar un servicio: c´digo postal de Santiago
                                o
          Download: mp3 King Crimson
          Comprar / vender: memorias RAM oferta
Intensiones detr´s de las consultas
                a

      Broder ’02: informaci´n, navegaci´n, transacci´n.
                           o           o              o
      Informaci´n: el texto del documento es lo m´s
               o                                    a
      importante para la consulta.
      Navegaci´n: la URL del documento es lo m´s importante
               o                                   a
      para la consulta.
      Transacci´n: la funcionalidad del sitio es lo m´s
                o                                      a
      importante.
  Ranking
  Si conocemos la intensi´n de la consulta, le damos m´s
                         o                               a
  relevancia al texto, URL u otro tipo de caracter´
                                                  ısticas del
  documento.
Identificaci´n autom´tica usando SVMs
           o       a
        Method                            Measures
                           TP Rate   FP Rate Precision   F-Measure
   Informational - Other
   (0) tf-idf               0.6538   0.0292    0.9623     0.7786
   (1) tf-pop              0.58576   0.13281   0.84186   0.69084
   (2) tf-idf-time         0.92614   0.05141   0.89071   0.90808
   (3) tf-idf-pop-time     0.65000   0.23711   0.31138   0.42105
   Navigational - Other
   (0) tf-idf               0.9655    0.2597    0.6109    0.7483
   (1) tf-pop              0.92131   0.13475   0.88088   0.90064
   (2) tf-idf-time         0.99485   0.06870   0.87727   0.93237
   (3) tf-idf-pop-time     0.45455   0.01603   0.83333   0.58824
   Transactional - Other
   (0) tf-idf                0.91    0.0165     0.9192    0.9146
   (1) tf-pop              0.75692   0.05344   0.94615   0.84103
   (2) tf-idf-time         0.98438   0.05316   0.90000   0.94030
   (3) tf-idf-pop-time     0.70000   0.13153   0.41880   0.52406

  [MZ09b]
Identificaci´n autom´tica usando C 4.5
           o       a




  [MZ09a]
Intensiones detr´s de las consultas
                a




      Qu´ hemos aprendido?
         e
      Es posible identificar intensiones tras las consultas (es
      m´s dif´ en el caso de transaccionales).
        a    ıcil
      L´
       ıneas de investigaci´n: mejorar el ranking.
                           o
Miner´ de sesiones para distribuci´n de
     ıa                           o
documentos
Miner´ de sesiones para distribuci´n de
     ıa                           o
documentos




                   Query routing
Miner´ de sesiones para distribuci´n de
     ıa                           o
documentos




                   Query routing
  [MFM+ 09a]
Miner´ de sesiones para distribuci´n de
     ıa                           o
documentos




   0) HIT, a) Contenci´n exacta, b) Contenci´n aproximada, c)
                      o                      o
       Contenci´n por regi´n, d) Diferencias de n-t´rminos.
               o          o                        e
  [MFM09b]
Miner´ de sesiones para distribuci´n de
     ıa                           o
documentos
  Caching + Machine Learning
  Usar el location cache como training set para una m´quina de
                                                     a
  aprendizaje.

      Cuan probable es la m´quina para una consulta en
                           a
      particular?
                                                 1
                P(y = ±1 | x, w) =                     ,
                                      1+     e −y (wT x+w0 )
      x: t´rminos de las consultas, y : id de los procs, w :
          e
      modelo.
                                l
                 1                                      T x +w )
              min wT w + C           log(1 + e −yi (w      i  0
                                                                   ),
               w 2
                               i=1
Miner´ de sesiones para distribuci´n de
     ıa                           o
documentos
                              INTER5 %
                        8        16        32      64     128
           RANDOM     6.21      12.51     24.81   49.81   100
           PCAP       16.48     23.58     36.64   64.03   100
           SEMCACHE   11.68     19.17     32.55   57.66   100
           LOGRES     16.81     24.46     37.72   65.88   100

                              INTER10 %
                        8        16        32      64     128
           RANDOM     6.20      12.51     24.85   49.88   100
           PCAP       14.56     21.36     34.34   62.31   100
           SEMCACHE   11.24     18.65     31.97   57.24   100
           LOGRES     15.11     22.27     34.82   63.90   100
                              INTER20 %
                        8        16        32      64     128
           RANDOM     6.19      12.48     24.84   49.89   100
           PCAP       13.21     19.83     32.81   61.06   100
           SEMCACHE   11.01     18.37     31.65   56.97   100
           LOGRES     13.56     20.16     31.94   61.90   100
Conclusiones


  Podemos aprender del pasado!
  Las sesiones de los usuarios son muy utiles para mejorar la
                                       ´
  eficacia de los motores de b´squeda
                              u

      Ranking de documentos
      Recomendaci´n de consultas
                   o
      Mantenci´n de directorios
               o
      Clasificaci´n de consultas seg´n intensi´n
                o                  u         o
      Query routing
Referencias I

      R. Baeza-Yates, C. Hurtado, and M. Mendoza.
      Query clustering for boosting web page ranking.
      In AWIC ’04, 2004.

      R. Baeza-Yates, C. Hurtado, and M. Mendoza.
      Query recommendation using query logs in search engines.
      In CLUSWEB ’04, 2004.

      R. Baeza-Yates, C. Hurtado, and M. Mendoza.
      Improving search engines by query clustering.
      In Journal of the American Society for Information Systems
      and Technology, 58(12):1793-1804, 2007.
Referencias II

      R. Baeza-Yates, C. Hurtado, M. Mendoza, and G. Dupret.
      Modeling user search behavior.
      In LA-WEB ’05, 2005.

      G. Dupret and M. Mendoza.
      Automatic query recommendation using click-through data.
      In WCC ’06, 2006.

      M. Marin, F. Ferrarotti, M. Mendoza, C. Gomez, and
      V. Gil-Costa.
      Location cache for web queries.
      In CIKM ’09, 2009.
Referencias III

      M. Mendoza, F. Ferrarotti, and M. Marin.
      A last-resort semantic cache for web queries.
      In SPIRE ’09, 2009.

      M. Mendoza and J. Zamora.
      Building decision trees to identify the intent of a user query.
      In KES ’09, 2009.

      M. Mendoza and J. Zamora.
      Identifying the intent of a user query using support vector
      machines.
      In SPIRE ’09, 2009.
Gracias!

Más contenido relacionado

Destacado

Metodo de trabajo y organizacion popular
Metodo de trabajo y organizacion popularMetodo de trabajo y organizacion popular
Metodo de trabajo y organizacion popular
AGEPNC
 
Los Adolescentes Y La Cultura 1
Los Adolescentes Y La Cultura 1Los Adolescentes Y La Cultura 1
Los Adolescentes Y La Cultura 1
Belen
 
Totalitarismes
TotalitarismesTotalitarismes
Totalitarismesneusgr
 
005html Imagenes
005html Imagenes005html Imagenes
005html Imagenes
T T
 
Sesión del 12 de Febrero sobre Unidades de Trabajo
Sesión del 12 de Febrero sobre Unidades de TrabajoSesión del 12 de Febrero sobre Unidades de Trabajo
Sesión del 12 de Febrero sobre Unidades de Trabajo
Domingo Terencio
 
Nativos Digitales
Nativos DigitalesNativos Digitales
Nativos Digitales
losamigosdetumama
 
02 Comiendo Por Europa
02 Comiendo Por Europa02 Comiendo Por Europa
02 Comiendo Por Europa
joelinho4
 
Ricardo Arjona - La mujer que no soñe jamas
Ricardo Arjona - La mujer que no soñe jamasRicardo Arjona - La mujer que no soñe jamas
Ricardo Arjona - La mujer que no soñe jamas
male2
 
Mare de deu del carme a menorca 2 marieta
Mare de deu del carme a menorca 2 marietaMare de deu del carme a menorca 2 marieta
Mare de deu del carme a menorca 2 marieta
Sole Mulero Alzina
 
Teoria_de_los_colores_Zaira_Unea
Teoria_de_los_colores_Zaira_UneaTeoria_de_los_colores_Zaira_Unea
Teoria_de_los_colores_Zaira_Unea
zaira alvarado
 
Presentación Programatica de Frei
Presentación Programatica de FreiPresentación Programatica de Frei
Presentación Programatica de Frei
hernanbaezajara
 
proyecto TIC
proyecto TICproyecto TIC
proyecto TIC
guest8fff59
 
Evaluacion tutoria 2_terminada
Evaluacion tutoria 2_terminadaEvaluacion tutoria 2_terminada
Evaluacion tutoria 2_terminada
alex013
 
PresentacióN1
PresentacióN1PresentacióN1
PresentacióN1
Victor Gutiérrez F
 
Presenatcion Papas
Presenatcion PapasPresenatcion Papas
Presenatcion Papas
anita2590
 
Proyecto expo admón y odo nov 2010
Proyecto expo admón  y odo nov 2010Proyecto expo admón  y odo nov 2010
Proyecto expo admón y odo nov 2010
Tania Pineda
 
Compartiendo
CompartiendoCompartiendo
Compartiendo
Free lancer
 
NéStor En Bloque
NéStor En BloqueNéStor En Bloque
NéStor En Bloque
losamigosdetumama
 
Diapositivasverificacion
DiapositivasverificacionDiapositivasverificacion
Diapositivasverificacion
alex013
 
Halloween - Cristianismo
Halloween - CristianismoHalloween - Cristianismo
Halloween - Cristianismo
guest6c9a03
 

Destacado (20)

Metodo de trabajo y organizacion popular
Metodo de trabajo y organizacion popularMetodo de trabajo y organizacion popular
Metodo de trabajo y organizacion popular
 
Los Adolescentes Y La Cultura 1
Los Adolescentes Y La Cultura 1Los Adolescentes Y La Cultura 1
Los Adolescentes Y La Cultura 1
 
Totalitarismes
TotalitarismesTotalitarismes
Totalitarismes
 
005html Imagenes
005html Imagenes005html Imagenes
005html Imagenes
 
Sesión del 12 de Febrero sobre Unidades de Trabajo
Sesión del 12 de Febrero sobre Unidades de TrabajoSesión del 12 de Febrero sobre Unidades de Trabajo
Sesión del 12 de Febrero sobre Unidades de Trabajo
 
Nativos Digitales
Nativos DigitalesNativos Digitales
Nativos Digitales
 
02 Comiendo Por Europa
02 Comiendo Por Europa02 Comiendo Por Europa
02 Comiendo Por Europa
 
Ricardo Arjona - La mujer que no soñe jamas
Ricardo Arjona - La mujer que no soñe jamasRicardo Arjona - La mujer que no soñe jamas
Ricardo Arjona - La mujer que no soñe jamas
 
Mare de deu del carme a menorca 2 marieta
Mare de deu del carme a menorca 2 marietaMare de deu del carme a menorca 2 marieta
Mare de deu del carme a menorca 2 marieta
 
Teoria_de_los_colores_Zaira_Unea
Teoria_de_los_colores_Zaira_UneaTeoria_de_los_colores_Zaira_Unea
Teoria_de_los_colores_Zaira_Unea
 
Presentación Programatica de Frei
Presentación Programatica de FreiPresentación Programatica de Frei
Presentación Programatica de Frei
 
proyecto TIC
proyecto TICproyecto TIC
proyecto TIC
 
Evaluacion tutoria 2_terminada
Evaluacion tutoria 2_terminadaEvaluacion tutoria 2_terminada
Evaluacion tutoria 2_terminada
 
PresentacióN1
PresentacióN1PresentacióN1
PresentacióN1
 
Presenatcion Papas
Presenatcion PapasPresenatcion Papas
Presenatcion Papas
 
Proyecto expo admón y odo nov 2010
Proyecto expo admón  y odo nov 2010Proyecto expo admón  y odo nov 2010
Proyecto expo admón y odo nov 2010
 
Compartiendo
CompartiendoCompartiendo
Compartiendo
 
NéStor En Bloque
NéStor En BloqueNéStor En Bloque
NéStor En Bloque
 
Diapositivasverificacion
DiapositivasverificacionDiapositivasverificacion
Diapositivasverificacion
 
Halloween - Cristianismo
Halloween - CristianismoHalloween - Cristianismo
Halloween - Cristianismo
 

Similar a Mineria de Sesiones en Motores de Busqueda Web

Introducción a los Patrones de diseño de software
Introducción a los Patrones de diseño de softwareIntroducción a los Patrones de diseño de software
Introducción a los Patrones de diseño de software
Yazmin RuBo
 
Proyecto de Criterios
Proyecto de CriteriosProyecto de Criterios
Proyecto de Criterios
milipacheco3
 
Proyecto de Criterios
Proyecto de CriteriosProyecto de Criterios
Proyecto de Criterios
milipacheco3
 
como realmente_trabaja_internet
 como realmente_trabaja_internet como realmente_trabaja_internet
como realmente_trabaja_internet
Jhoni Guerrero
 
Google Drive y su uso en bibliotecas en 6 minutos 40 segundos #PechaKucha
Google Drive y su uso en bibliotecas en 6 minutos 40 segundos #PechaKuchaGoogle Drive y su uso en bibliotecas en 6 minutos 40 segundos #PechaKucha
Google Drive y su uso en bibliotecas en 6 minutos 40 segundos #PechaKucha
RECIARIA red de redes de información
 
Tópicos de Big Data - Sistemas de Recomendación
Tópicos de Big Data - Sistemas de RecomendaciónTópicos de Big Data - Sistemas de Recomendación
Tópicos de Big Data - Sistemas de Recomendación
Ernesto Mislej
 
Presentacion tesis marcos (sin efectos o transiciones)
Presentacion tesis marcos (sin efectos o transiciones)Presentacion tesis marcos (sin efectos o transiciones)
Presentacion tesis marcos (sin efectos o transiciones)
Marcos Vargas
 
Yatel dm redes
Yatel dm redesYatel dm redes
Yatel dm redes
Juan Cabral
 
A quienes les gustó esta charla también les gustó... Cómo los Sistemas de Rec...
A quienes les gustó esta charla también les gustó... Cómo los Sistemas de Rec...A quienes les gustó esta charla también les gustó... Cómo los Sistemas de Rec...
A quienes les gustó esta charla también les gustó... Cómo los Sistemas de Rec...
Ernesto Mislej
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
selyo23
 
Sistema Generador de PAtrones de Visitas a Paginas Web en Dispsoitivos Inalám...
Sistema Generador de PAtrones de Visitas a Paginas Web en Dispsoitivos Inalám...Sistema Generador de PAtrones de Visitas a Paginas Web en Dispsoitivos Inalám...
Sistema Generador de PAtrones de Visitas a Paginas Web en Dispsoitivos Inalám...
Juan Carlos Olivares Rojas
 
Tesis Doctoral - Caracterización Formal y Análisis Empírico de Mecanismos Inc...
Tesis Doctoral - Caracterización Formal y Análisis Empírico de Mecanismos Inc...Tesis Doctoral - Caracterización Formal y Análisis Empírico de Mecanismos Inc...
Tesis Doctoral - Caracterización Formal y Análisis Empírico de Mecanismos Inc...
Carlos Lorenzetti
 
N4intro
N4introN4intro
Creación Y Desarrollo De Colecciones Digitales
Creación Y Desarrollo De Colecciones DigitalesCreación Y Desarrollo De Colecciones Digitales
Creación Y Desarrollo De Colecciones Digitales
OCLC LAC
 
Red colaborativa para difusión de producción en acceso abierto: el caso CLACSO
Red colaborativa para difusión de producción en acceso abierto: el caso CLACSORed colaborativa para difusión de producción en acceso abierto: el caso CLACSO
Red colaborativa para difusión de producción en acceso abierto: el caso CLACSO
CLACSO-Latin American Council of Social Sciences, Open Access
 

Similar a Mineria de Sesiones en Motores de Busqueda Web (15)

Introducción a los Patrones de diseño de software
Introducción a los Patrones de diseño de softwareIntroducción a los Patrones de diseño de software
Introducción a los Patrones de diseño de software
 
Proyecto de Criterios
Proyecto de CriteriosProyecto de Criterios
Proyecto de Criterios
 
Proyecto de Criterios
Proyecto de CriteriosProyecto de Criterios
Proyecto de Criterios
 
como realmente_trabaja_internet
 como realmente_trabaja_internet como realmente_trabaja_internet
como realmente_trabaja_internet
 
Google Drive y su uso en bibliotecas en 6 minutos 40 segundos #PechaKucha
Google Drive y su uso en bibliotecas en 6 minutos 40 segundos #PechaKuchaGoogle Drive y su uso en bibliotecas en 6 minutos 40 segundos #PechaKucha
Google Drive y su uso en bibliotecas en 6 minutos 40 segundos #PechaKucha
 
Tópicos de Big Data - Sistemas de Recomendación
Tópicos de Big Data - Sistemas de RecomendaciónTópicos de Big Data - Sistemas de Recomendación
Tópicos de Big Data - Sistemas de Recomendación
 
Presentacion tesis marcos (sin efectos o transiciones)
Presentacion tesis marcos (sin efectos o transiciones)Presentacion tesis marcos (sin efectos o transiciones)
Presentacion tesis marcos (sin efectos o transiciones)
 
Yatel dm redes
Yatel dm redesYatel dm redes
Yatel dm redes
 
A quienes les gustó esta charla también les gustó... Cómo los Sistemas de Rec...
A quienes les gustó esta charla también les gustó... Cómo los Sistemas de Rec...A quienes les gustó esta charla también les gustó... Cómo los Sistemas de Rec...
A quienes les gustó esta charla también les gustó... Cómo los Sistemas de Rec...
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
 
Sistema Generador de PAtrones de Visitas a Paginas Web en Dispsoitivos Inalám...
Sistema Generador de PAtrones de Visitas a Paginas Web en Dispsoitivos Inalám...Sistema Generador de PAtrones de Visitas a Paginas Web en Dispsoitivos Inalám...
Sistema Generador de PAtrones de Visitas a Paginas Web en Dispsoitivos Inalám...
 
Tesis Doctoral - Caracterización Formal y Análisis Empírico de Mecanismos Inc...
Tesis Doctoral - Caracterización Formal y Análisis Empírico de Mecanismos Inc...Tesis Doctoral - Caracterización Formal y Análisis Empírico de Mecanismos Inc...
Tesis Doctoral - Caracterización Formal y Análisis Empírico de Mecanismos Inc...
 
N4intro
N4introN4intro
N4intro
 
Creación Y Desarrollo De Colecciones Digitales
Creación Y Desarrollo De Colecciones DigitalesCreación Y Desarrollo De Colecciones Digitales
Creación Y Desarrollo De Colecciones Digitales
 
Red colaborativa para difusión de producción en acceso abierto: el caso CLACSO
Red colaborativa para difusión de producción en acceso abierto: el caso CLACSORed colaborativa para difusión de producción en acceso abierto: el caso CLACSO
Red colaborativa para difusión de producción en acceso abierto: el caso CLACSO
 

Último

Projecte Iniciativa TIC 2024 HPE. inCV.pdf
Projecte Iniciativa TIC 2024 HPE. inCV.pdfProjecte Iniciativa TIC 2024 HPE. inCV.pdf
Projecte Iniciativa TIC 2024 HPE. inCV.pdf
Festibity
 
Refrigeradores Samsung Modo Test y Forzado
Refrigeradores Samsung Modo Test y ForzadoRefrigeradores Samsung Modo Test y Forzado
Refrigeradores Samsung Modo Test y Forzado
NicandroMartinez2
 
EXAMEN DE TOPOGRAFIA RESUELTO-2017 CURSO DE UNIVERSIDAD
EXAMEN DE TOPOGRAFIA RESUELTO-2017 CURSO DE UNIVERSIDADEXAMEN DE TOPOGRAFIA RESUELTO-2017 CURSO DE UNIVERSIDAD
EXAMEN DE TOPOGRAFIA RESUELTO-2017 CURSO DE UNIVERSIDAD
AngelCristhianMB
 
Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)
Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)
Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)
AbrahamCastillo42
 
Presentación de Tic en educación y sobre blogger
Presentación de Tic en educación y sobre bloggerPresentación de Tic en educación y sobre blogger
Presentación de Tic en educación y sobre blogger
larapalaciosmonzon28
 
Informació Projecte Iniciativa TIC SOPRA STERIA.pdf
Informació Projecte Iniciativa TIC SOPRA STERIA.pdfInformació Projecte Iniciativa TIC SOPRA STERIA.pdf
Informació Projecte Iniciativa TIC SOPRA STERIA.pdf
Festibity
 
Modo test refrigeradores y codigos de errores 2018 V2.pdf
Modo test refrigeradores y codigos de errores 2018 V2.pdfModo test refrigeradores y codigos de errores 2018 V2.pdf
Modo test refrigeradores y codigos de errores 2018 V2.pdf
ranierglez
 
Projecte Iniciativa TIC 2024 KAWARU CONSULTING. inCV.pdf
Projecte Iniciativa TIC 2024 KAWARU CONSULTING. inCV.pdfProjecte Iniciativa TIC 2024 KAWARU CONSULTING. inCV.pdf
Projecte Iniciativa TIC 2024 KAWARU CONSULTING. inCV.pdf
Festibity
 
Inteligencia Artificial
Inteligencia ArtificialInteligencia Artificial
Inteligencia Artificial
YashiraPaye
 
Manual de Soporte y mantenimiento de equipo de cómputos
Manual de Soporte y mantenimiento de equipo de cómputosManual de Soporte y mantenimiento de equipo de cómputos
Manual de Soporte y mantenimiento de equipo de cómputos
cbtechchihuahua
 
REVISTA TECNOLOGICA PARA EL DESARROLLO HUMANO
REVISTA TECNOLOGICA PARA EL DESARROLLO HUMANOREVISTA TECNOLOGICA PARA EL DESARROLLO HUMANO
REVISTA TECNOLOGICA PARA EL DESARROLLO HUMANO
gisellearanguren1
 
mantenimiento de chasis y carroceria1.pptx
mantenimiento de chasis y carroceria1.pptxmantenimiento de chasis y carroceria1.pptx
mantenimiento de chasis y carroceria1.pptx
MiguelAtencio10
 
Catalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador Valencia
Catalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador ValenciaCatalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador Valencia
Catalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador Valencia
AMADO SALVADOR
 
Manual de soporte y mantenimiento de equipo de cómputo
Manual de soporte y mantenimiento de equipo de cómputoManual de soporte y mantenimiento de equipo de cómputo
Manual de soporte y mantenimiento de equipo de cómputo
doctorsoluciones34
 
Presentación Seguridad Digital Profesional Azul Oscuro (1).pdf
Presentación Seguridad Digital Profesional Azul Oscuro (1).pdfPresentación Seguridad Digital Profesional Azul Oscuro (1).pdf
Presentación Seguridad Digital Profesional Azul Oscuro (1).pdf
giampierdiaz5
 
625204013-64-Camino-a-----La-Lectura.pdf
625204013-64-Camino-a-----La-Lectura.pdf625204013-64-Camino-a-----La-Lectura.pdf
625204013-64-Camino-a-----La-Lectura.pdf
yuberpalma
 
Second Life, informe de actividad del maestro Tapia
Second Life, informe de actividad del maestro TapiaSecond Life, informe de actividad del maestro Tapia
Second Life, informe de actividad del maestro Tapia
al050121024
 
Projecte Iniciativa TIC 2024 SOPRA STERIA. inCV.pdf
Projecte Iniciativa TIC 2024 SOPRA STERIA. inCV.pdfProjecte Iniciativa TIC 2024 SOPRA STERIA. inCV.pdf
Projecte Iniciativa TIC 2024 SOPRA STERIA. inCV.pdf
Festibity
 
Mantenimiento de sistemas eléctricos y electrónicosarticles-241712_recurso_6....
Mantenimiento de sistemas eléctricos y electrónicosarticles-241712_recurso_6....Mantenimiento de sistemas eléctricos y electrónicosarticles-241712_recurso_6....
Mantenimiento de sistemas eléctricos y electrónicosarticles-241712_recurso_6....
MiguelAtencio10
 
computacion global 3.pdf pARA TERCER GRADO
computacion global 3.pdf pARA TERCER GRADOcomputacion global 3.pdf pARA TERCER GRADO
computacion global 3.pdf pARA TERCER GRADO
YaniEscobar2
 

Último (20)

Projecte Iniciativa TIC 2024 HPE. inCV.pdf
Projecte Iniciativa TIC 2024 HPE. inCV.pdfProjecte Iniciativa TIC 2024 HPE. inCV.pdf
Projecte Iniciativa TIC 2024 HPE. inCV.pdf
 
Refrigeradores Samsung Modo Test y Forzado
Refrigeradores Samsung Modo Test y ForzadoRefrigeradores Samsung Modo Test y Forzado
Refrigeradores Samsung Modo Test y Forzado
 
EXAMEN DE TOPOGRAFIA RESUELTO-2017 CURSO DE UNIVERSIDAD
EXAMEN DE TOPOGRAFIA RESUELTO-2017 CURSO DE UNIVERSIDADEXAMEN DE TOPOGRAFIA RESUELTO-2017 CURSO DE UNIVERSIDAD
EXAMEN DE TOPOGRAFIA RESUELTO-2017 CURSO DE UNIVERSIDAD
 
Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)
Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)
Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)
 
Presentación de Tic en educación y sobre blogger
Presentación de Tic en educación y sobre bloggerPresentación de Tic en educación y sobre blogger
Presentación de Tic en educación y sobre blogger
 
Informació Projecte Iniciativa TIC SOPRA STERIA.pdf
Informació Projecte Iniciativa TIC SOPRA STERIA.pdfInformació Projecte Iniciativa TIC SOPRA STERIA.pdf
Informació Projecte Iniciativa TIC SOPRA STERIA.pdf
 
Modo test refrigeradores y codigos de errores 2018 V2.pdf
Modo test refrigeradores y codigos de errores 2018 V2.pdfModo test refrigeradores y codigos de errores 2018 V2.pdf
Modo test refrigeradores y codigos de errores 2018 V2.pdf
 
Projecte Iniciativa TIC 2024 KAWARU CONSULTING. inCV.pdf
Projecte Iniciativa TIC 2024 KAWARU CONSULTING. inCV.pdfProjecte Iniciativa TIC 2024 KAWARU CONSULTING. inCV.pdf
Projecte Iniciativa TIC 2024 KAWARU CONSULTING. inCV.pdf
 
Inteligencia Artificial
Inteligencia ArtificialInteligencia Artificial
Inteligencia Artificial
 
Manual de Soporte y mantenimiento de equipo de cómputos
Manual de Soporte y mantenimiento de equipo de cómputosManual de Soporte y mantenimiento de equipo de cómputos
Manual de Soporte y mantenimiento de equipo de cómputos
 
REVISTA TECNOLOGICA PARA EL DESARROLLO HUMANO
REVISTA TECNOLOGICA PARA EL DESARROLLO HUMANOREVISTA TECNOLOGICA PARA EL DESARROLLO HUMANO
REVISTA TECNOLOGICA PARA EL DESARROLLO HUMANO
 
mantenimiento de chasis y carroceria1.pptx
mantenimiento de chasis y carroceria1.pptxmantenimiento de chasis y carroceria1.pptx
mantenimiento de chasis y carroceria1.pptx
 
Catalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador Valencia
Catalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador ValenciaCatalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador Valencia
Catalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador Valencia
 
Manual de soporte y mantenimiento de equipo de cómputo
Manual de soporte y mantenimiento de equipo de cómputoManual de soporte y mantenimiento de equipo de cómputo
Manual de soporte y mantenimiento de equipo de cómputo
 
Presentación Seguridad Digital Profesional Azul Oscuro (1).pdf
Presentación Seguridad Digital Profesional Azul Oscuro (1).pdfPresentación Seguridad Digital Profesional Azul Oscuro (1).pdf
Presentación Seguridad Digital Profesional Azul Oscuro (1).pdf
 
625204013-64-Camino-a-----La-Lectura.pdf
625204013-64-Camino-a-----La-Lectura.pdf625204013-64-Camino-a-----La-Lectura.pdf
625204013-64-Camino-a-----La-Lectura.pdf
 
Second Life, informe de actividad del maestro Tapia
Second Life, informe de actividad del maestro TapiaSecond Life, informe de actividad del maestro Tapia
Second Life, informe de actividad del maestro Tapia
 
Projecte Iniciativa TIC 2024 SOPRA STERIA. inCV.pdf
Projecte Iniciativa TIC 2024 SOPRA STERIA. inCV.pdfProjecte Iniciativa TIC 2024 SOPRA STERIA. inCV.pdf
Projecte Iniciativa TIC 2024 SOPRA STERIA. inCV.pdf
 
Mantenimiento de sistemas eléctricos y electrónicosarticles-241712_recurso_6....
Mantenimiento de sistemas eléctricos y electrónicosarticles-241712_recurso_6....Mantenimiento de sistemas eléctricos y electrónicosarticles-241712_recurso_6....
Mantenimiento de sistemas eléctricos y electrónicosarticles-241712_recurso_6....
 
computacion global 3.pdf pARA TERCER GRADO
computacion global 3.pdf pARA TERCER GRADOcomputacion global 3.pdf pARA TERCER GRADO
computacion global 3.pdf pARA TERCER GRADO
 

Mineria de Sesiones en Motores de Busqueda Web

  • 1. Miner´ de Sesiones en ıa Motores de B´squeda Web u Marcelo Mendoza Yahoo! Research Latin America 2009
  • 2. C´mo buscar en la Web? o
  • 3. C´mo buscar en la Web? o
  • 4. Los usuarios nos dan feedback Los motores de b´squeda registran la actividad del u usuario en logs (consultas, clicks, navegacion). Podemos usar los logs para mejorar la efectividad del motor de b´squeda. u
  • 5. El feedback de los usuarios
  • 6. Las sesiones de los usuarios: consultas
  • 7. Las sesiones de los usuarios: consultas
  • 8. Las sesiones de los usuarios: directorios
  • 9. Las sesiones de los usuarios: directorios
  • 10. Las sesiones de los usuarios Motor de consulta: (q, (URL, r , t)∗ ) Directorio: (c, (URL, r , t)∗ ) q: consulta (t´rminos que la componen). e c: categoria del directorio (texto del path). URL: documento seleccionado (p´gina / sitio). a r : ubicaci´n del documento en la lista de o recomendaciones. t: tiempo que el usuario permanece revisando el documento.
  • 11. Miner´ de sesiones como proceso ıa
  • 12. Miner´ de sesiones como proceso ıa
  • 14. Relaci´n t´rminos documentos / consultas o e | Q | = 27,766, | D | = 359,056, | Q ∩ D | = 22,692
  • 15. Modelos de Sesiones de Usuarios [BYHMD05]
  • 16. Modelos de Sesiones de Usuarios [BYHMD05]
  • 17. Modelos de Sesiones de Usuarios [BYHMD05]
  • 18. Modelos de Sesiones de Usuarios [BYHMD05]
  • 19. Las sesiones de los usuarios: Qu´ sabemos? e Las consultas son cortas (2 a 3 t´rminos en promedio). e No siempre un t´rmino frecuentemente usado en e consultas es frecuentemente usado en documentos. Los clicks se concentran preferentemente en las primeras posiciones del ranking. En general, los usuarios no revisan exhaustivamente los resultados (se concentran en los top-10). Los directorios son poco usados pero son muy efectivos.
  • 20. Relaciones entre consultas [DM06] q2 puede mejorar q1 !!! (se induce un grafo dirigido)
  • 23. Grupos de consultas (clustering) Construir representaciones vectoriales de sesiones de consultas. Introducir una funci´n de distancia entre vectores y o agrupar usando un algoritmo de clustering estandar (e.g. k-means). Explotar las relaciones definidas en cada grupo: consulta ←→ consulta consulta ←→ documento documento ←→ documento Usar caracter´ısticas de las sesiones para construir vectores. Vectores basados en t´rminos de consultas, t´rminos de e e documentos, ranking de documentos clickeados, n´mero u de clicks, tiempo de permanencia en documento, etc...
  • 25. Vectores de consultas T´rminos de consultas: q[i] = Tfi,q · Idfi,Q e Tfi,q : n´mero de ocurrencias de ti en q (normalizado). u Idfi,Q : log( NQ ). ni Limitaci´n: q generalmente tiene pocos t´rminos (i.e. o e Tfi,q = 0). Versi´n suavizada: q[i] = (0.5 + 0.5 · Tfi,q ) · Idfi,Q . o
  • 26. Vectores de consultas Co-citaci´n: dos consultas son similares si hay o coincidencias entre los docs clickeados en sus sesiones. Alternativas para los pesos: booleanos, ranking, clicks.
  • 27. Vectores de consultas Consultas: usamos variables generadas en las sesiones donde q ha sido formulada (que reflejan la actividad del usuario). Tf-Pop q[i] = URLs u Tfi,u · C (u, s), C (u, s): n´mero de clicks a u (sobre total de clicks). u [BYHM04a]
  • 28. Vectores de sesiones de consultas Sesiones: usamos variables generadas en cada sesi´n (que o reflejan la actividad del usuario). No usamos clicks (C (u, s) es 1 o 0 en la sesi´n). o Usamos tiempo (tu : tiempo en el doc u, ts : duraci´n de o la sesi´n). o Tf-Idf-Time tu qs[i] = URLs u Tfi,u · Idfi,Q · ts . [BYHM07]
  • 29. Distribuci´n de distancias o Usamos distancia coseno. [BYHM07]
  • 31. Usando clusters de consultas Mejorar el ranking! (usar los documentos m´s clickeados a del cluster). Clasificaci´n de palabras: o T´rminos en el cluster: sinonimia. e Mismo t´rmino en distintos clusters: polisemia. e Recomendar consultas (usar las consultas que retornan los documentos con m´s clicks y en mejores posiciones). a
  • 32. Miner´ de Sesiones en Directorios ıa Los directorios est´n limitados en su crecimiento. a Idea: usando sesiones de usuario, producir autom´ticamente recomendaciones de documentos en el a directorio −→ crecimiento. Usamos el log del directorio para construir representaciones vectoriales de sesiones en el directorio. Las asociamos a sesiones de consultas −→ recomendamos documentos seleccionados en las sesiones de consultas en el directorio −→ tambi´n asociamos consultas. e Categorias de Directorios 1 vc [i] = cs∈c vcs [i] × r
  • 33. Miner´ de Sesiones en Directorios ıa
  • 34. Miner´ de Sesiones en Directorios ıa MinSupp Relevant Recommended Precision Recall F-measure 0.1 356 499 71.34% 63.46% 67.17% 0.2 386 437 88.33% 68.81% 77.35% 0.3 378 401 94.26% 67.38% 78.59% 0.4 331 352 94.03% 59.01% 72.51% 0.5 290 302 96.03% 51.69% 67.21% Set Relevant Recommended Precision Recall F-measure A 378 401 94.26% 67.38% 78.59% H 470 500 94.01% 83.78% 88.61% H∩A 289 297 97.31% 51.52% 67.37% H-A 181 203 89.16% 32.26% 47.38% A-H 89 104 85.58% 15.86% 26.77%
  • 35. Miner´ de Sesiones en Directorios ıa Category Queries Recommended literature poetry, Chilean tales, Chilean poetry, Pablo Neruda, value added tax museums Bellas Artes museum, Historical museum, San Francisco church, Claudio Bravo, Pablo Neruda architecture architecture, architects, architecture’s information, history of the Chilean architecture, Maipu temple Astronomy observatory, telescope, Paranal, pisco, wine tour Biology native plants, birds, flora and fauna, Chilean flora, insects Geology Valdivia’s earthquake, 1960 earthquake, vulcanos, earthquakes, tremor History history of Chile, local history, naval battle of Iquique, Chilean folklore technologies nuclear physics, birds, telescopes, energy, Chilean climate hardware printers, optic fiber, lexmark, toner, CPU Internet e-business, e-commerce, P2P, web development, hostage software free software, software errors, bar code’s sofware, sofware informatics computer networks install, networks, used notebooks, tutorials real estate properties, apartments, sales, rentals in Chile, houses arts master, tatoos, photography, Violeta Parra, Violeta Parra biography photography photography, digital photography, Chilean photography, photos, Photography’s courses restaurants Vegetarian food, Mexican food, Japanese food, chiken, Chinese food commerce duty free Iquique, duty free Punta Arenas, duty free areas, taxes toys & games games, board games, PC games, PS2 tricks, PS2 games video & dvd DVD, DVD R, movie sales, DVD recording, CD R
  • 36. Intensiones detr´s de las consultas a Los usuarios manifiestan intensiones detr´s de sus a consultas. Quiero aprender acerca de algo: batalla naval del Iquique Quiero ir a una p´gina / sitio espec´ a ıfica: Amazon Quiero realizar una acci´n en particular: o Accesar un servicio: c´digo postal de Santiago o Download: mp3 King Crimson Comprar / vender: memorias RAM oferta
  • 37. Intensiones detr´s de las consultas a Broder ’02: informaci´n, navegaci´n, transacci´n. o o o Informaci´n: el texto del documento es lo m´s o a importante para la consulta. Navegaci´n: la URL del documento es lo m´s importante o a para la consulta. Transacci´n: la funcionalidad del sitio es lo m´s o a importante. Ranking Si conocemos la intensi´n de la consulta, le damos m´s o a relevancia al texto, URL u otro tipo de caracter´ ısticas del documento.
  • 38. Identificaci´n autom´tica usando SVMs o a Method Measures TP Rate FP Rate Precision F-Measure Informational - Other (0) tf-idf 0.6538 0.0292 0.9623 0.7786 (1) tf-pop 0.58576 0.13281 0.84186 0.69084 (2) tf-idf-time 0.92614 0.05141 0.89071 0.90808 (3) tf-idf-pop-time 0.65000 0.23711 0.31138 0.42105 Navigational - Other (0) tf-idf 0.9655 0.2597 0.6109 0.7483 (1) tf-pop 0.92131 0.13475 0.88088 0.90064 (2) tf-idf-time 0.99485 0.06870 0.87727 0.93237 (3) tf-idf-pop-time 0.45455 0.01603 0.83333 0.58824 Transactional - Other (0) tf-idf 0.91 0.0165 0.9192 0.9146 (1) tf-pop 0.75692 0.05344 0.94615 0.84103 (2) tf-idf-time 0.98438 0.05316 0.90000 0.94030 (3) tf-idf-pop-time 0.70000 0.13153 0.41880 0.52406 [MZ09b]
  • 40. Intensiones detr´s de las consultas a Qu´ hemos aprendido? e Es posible identificar intensiones tras las consultas (es m´s dif´ en el caso de transaccionales). a ıcil L´ ıneas de investigaci´n: mejorar el ranking. o
  • 41. Miner´ de sesiones para distribuci´n de ıa o documentos
  • 42. Miner´ de sesiones para distribuci´n de ıa o documentos Query routing
  • 43. Miner´ de sesiones para distribuci´n de ıa o documentos Query routing [MFM+ 09a]
  • 44. Miner´ de sesiones para distribuci´n de ıa o documentos 0) HIT, a) Contenci´n exacta, b) Contenci´n aproximada, c) o o Contenci´n por regi´n, d) Diferencias de n-t´rminos. o o e [MFM09b]
  • 45. Miner´ de sesiones para distribuci´n de ıa o documentos Caching + Machine Learning Usar el location cache como training set para una m´quina de a aprendizaje. Cuan probable es la m´quina para una consulta en a particular? 1 P(y = ±1 | x, w) = , 1+ e −y (wT x+w0 ) x: t´rminos de las consultas, y : id de los procs, w : e modelo. l 1 T x +w ) min wT w + C log(1 + e −yi (w i 0 ), w 2 i=1
  • 46. Miner´ de sesiones para distribuci´n de ıa o documentos INTER5 % 8 16 32 64 128 RANDOM 6.21 12.51 24.81 49.81 100 PCAP 16.48 23.58 36.64 64.03 100 SEMCACHE 11.68 19.17 32.55 57.66 100 LOGRES 16.81 24.46 37.72 65.88 100 INTER10 % 8 16 32 64 128 RANDOM 6.20 12.51 24.85 49.88 100 PCAP 14.56 21.36 34.34 62.31 100 SEMCACHE 11.24 18.65 31.97 57.24 100 LOGRES 15.11 22.27 34.82 63.90 100 INTER20 % 8 16 32 64 128 RANDOM 6.19 12.48 24.84 49.89 100 PCAP 13.21 19.83 32.81 61.06 100 SEMCACHE 11.01 18.37 31.65 56.97 100 LOGRES 13.56 20.16 31.94 61.90 100
  • 47. Conclusiones Podemos aprender del pasado! Las sesiones de los usuarios son muy utiles para mejorar la ´ eficacia de los motores de b´squeda u Ranking de documentos Recomendaci´n de consultas o Mantenci´n de directorios o Clasificaci´n de consultas seg´n intensi´n o u o Query routing
  • 48. Referencias I R. Baeza-Yates, C. Hurtado, and M. Mendoza. Query clustering for boosting web page ranking. In AWIC ’04, 2004. R. Baeza-Yates, C. Hurtado, and M. Mendoza. Query recommendation using query logs in search engines. In CLUSWEB ’04, 2004. R. Baeza-Yates, C. Hurtado, and M. Mendoza. Improving search engines by query clustering. In Journal of the American Society for Information Systems and Technology, 58(12):1793-1804, 2007.
  • 49. Referencias II R. Baeza-Yates, C. Hurtado, M. Mendoza, and G. Dupret. Modeling user search behavior. In LA-WEB ’05, 2005. G. Dupret and M. Mendoza. Automatic query recommendation using click-through data. In WCC ’06, 2006. M. Marin, F. Ferrarotti, M. Mendoza, C. Gomez, and V. Gil-Costa. Location cache for web queries. In CIKM ’09, 2009.
  • 50. Referencias III M. Mendoza, F. Ferrarotti, and M. Marin. A last-resort semantic cache for web queries. In SPIRE ’09, 2009. M. Mendoza and J. Zamora. Building decision trees to identify the intent of a user query. In KES ’09, 2009. M. Mendoza and J. Zamora. Identifying the intent of a user query using support vector machines. In SPIRE ’09, 2009.