SlideShare una empresa de Scribd logo
Técnicas Básicas (resumen)

José Carlos Cortizo Pérez
  http://www.esp.uem.es/jccortizo
  josecarlos.cortizo@uem.es


 Departamento de Sistemas Informáticos
  Escuela Superior Politécnica
  Universidad Europea de Madrid
Índice


   Esquema de funcionamiento
   Normalización y Tokenización
   Indexación
   Modelo del Espacio Vectorial


                                  José Carlos Cortizo Pérez
Sistemas Inteligentes de Acceso a
la Información

Esquema de Funcionamiento
Esquema de Funcionamiento

 Doc
   Doc
           Normalización
                           Indexación
     Doc    Tokenización




                                        MEV                 Res.
           Normalización
   Q        Tokenización




                                              José Carlos Cortizo Pérez
Ejemplo

  Documento 1:
        Pepe coge su coche por las mañanas

  Documento 2:
        Mañana veré a Pepe

  Documento 3:
        Me traen el coche mañana


  Consulta:
        Coche

                                             José Carlos Cortizo Pérez
Ejemplo
Normalizamos y Tokenizamos los Documentos

    Documento 1:
          Pepe; coger; coche; mañana

    Documento 2:
          Mañana; ver; Pepe

    Documento 3:
          Traen; coche; mañana


    Consulta:
          Coche

                                            José Carlos Cortizo Pérez
Ejemplo
Indizamos los Documentos

                    Documento 1   Documento 2   Documento 3
         Pepe              1          1
         Coger             1
         Coche             1                        1
        Mañana             1          1             1
          Ver                         1
         Traer                                      1


    Consulta:
           Coche

                                                    José Carlos Cortizo Pérez
Ejemplo
Tokenizamos y Normalizamos la consulta

                    Documento 1   Documento 2   Documento 3
         Pepe           1                1
         Coger          1
         Coche          1                           1
        Mañana          1                1          1
          Ver                            1
         Traer                                      1


    Consulta:
           Coche

                                                    José Carlos Cortizo Pérez
Ejemplo
Seleccionamos candidatos

                     Documento 1   Documento 2   Documento 3
         Pepe              1           1
         Coger             1
         Coche             1                         1
        Mañana             1           1             1
          Ver                          1
         Traer                                       1


    Consulta:
           Coche

                                                     José Carlos Cortizo Pérez
Ejemplo
Representamos en forma de Vectores


    Representación:
           (Pepe, coger, coche, mañana, traer)
    Documento 1:
           (1, 1, 1, 1, 0)
    Documento 2:
           (0, 0, 1, 1, 1)
    Consulta:
           (0, 0, 1, 0, 0)



                                                 José Carlos Cortizo Pérez
Ejemplo
Aplicamos MEV


    Representación:
          (Pepe, coger, coche, mañana, traer)
    Documento 1:
                                               1·0 + 1·0 + 1·1 + 1·0 + 0·0
          (1, 1, 1, 1, 0)         cos(D1, C) =                             = 0.5
                                                      RC(4) · RC(1)
    Documento 2:                               0·0 + 0·0 + 1·1 + 0·0 + 0·0
          (0, 0, 1, 1, 1)         cos(D1, C) =                             = 0.57
                                                      RC(3) · RC(1)
    Consulta:
          (0, 0, 1, 0, 0)



                                                                     José Carlos Cortizo Pérez
Ejemplo
Y obtenemos un ranking de resultados


    Resultados ordenados:
           Documento 2
           Documento 1




                                       José Carlos Cortizo Pérez
¿Alguna pregunta?




                    José Carlos Cortizo Pérez
Sistemas Inteligentes de Acceso a
la Información

Normalización y Tokenización
Normalización y Tokenización
¿Qué?




        Tokenizar: Separar las palabras o elementos a indizar


        Normalizar: Estandarizar la forma de escribir algunas cosas. P.e.
        eliminar las tildes, cambiar de mayúsculas a minúsculas, etc.


                                                          José Carlos Cortizo Pérez
Normalización y Tokenización
¿Por qué?


     Tokenizar: Necesitamos tener unidades indizables para
     utilizarlas como base de nuestra representación. Pueden ser
     palabras, frases, n-gramas, etc.


     Normalizar: El lenguaje es muy flexible, y además es muy
     corriente cometer errores de algún tipo. La normalización nos
     provee una forma de “eliminar” estos problemas.

                                                      José Carlos Cortizo Pérez
Normalización y Tokenización
¿Cómo tokenizar?


     Forma simple: utilizar un Tokenizador que separe por caracteres
     clave (p.e. espacios, signos de puntuación, etc.)
         En java se haría con un String Tokenizer
     Si en lugar de palabras, queremos separar frases, la cosa es
     algo más compleja (dependiendo del tipo de frase)
         Análisis del lenguaje

                                                       José Carlos Cortizo Pérez
Normalización y Tokenización
¿Cómo normalizar?



     Por lo general aplicando reglas heurísticas
         P.e. Cambiar todas las vocales acentuadas por vocales sin
         acentuar
         Pasar las mayúsculas a minúsculas
         Eliminar “palabras vacías”

                                                       José Carlos Cortizo Pérez
Normalización y Tokenización
Palabras vacías

      Las palabras muy frecuentes no aportan semántica
          Artículos, pronombres, conjunciones, etc.
          Las apariciones de las 10 palabras más frecuentes del inglés
          constituyen un 20/30% de un documento
      Se suelen incluir en una lista de parada
      Estas listas se obtienen a partir de un córpora representativo del
      idioma
                                                         José Carlos Cortizo Pérez
Normalización y Tokenización
Normalización morfológica


      Múltiples palabras son variaciones morfológicas, con idéntico
      significado
      Los stemmers (extractores de raíces), normalizan a una forma
      canónica, p.e.
         analizar, análisis, analizador... => ‘anali’
      Algoritmo de Porter, SnowBall

                                                        José Carlos Cortizo Pérez
Normalización y Tokenización
Normalización “avanzada”

     En función del idioma, podemos aplicar reglas de normalización
     que permitan una mejor recuperación (p.e. tolerante a errores)
         P.e., para el Castellano
             Eliminar las ‘h’
             Cambiar ‘v’ por ‘b’
             Cambiar ‘ll’ por ‘y’
         Esto aumenta el recall pero puede bajar la precisión
                                                       José Carlos Cortizo Pérez
¿Alguna pregunta?




                    José Carlos Cortizo Pérez
Sistemas Inteligentes de Acceso a
la Información

Indexación
Indexación
Indexación


      Los índices son necesarios para poder realizar las consultas en
      tiempos aceptables
      Generan un “overhead” en cuánto a almacenamiento
      2 tipos de índices importantes
         Directos
         Inversos

                                                         José Carlos Cortizo Pérez
Indexación
Indice directo

                 Pal1   Pal2   Pal3        Pal4

     Doc1         1      1      0             0

     Doc2         0      1      0             0

     Doc3         1      0      1             0

     Doc4         0      0      0             1
                                      José Carlos Cortizo Pérez
Indexación
Indice inverso

                 Doc1   Doc2   Doc3        Doc4

     Pal1         1      1      0             0

     Pal2         0      1      0             0

     Pal3         1      0      1             0

     Pal4         0      0      0             1
                                      José Carlos Cortizo Pérez
Indexación
¿Cuál es mejor?



      Cada uno tiene sus pros y sus contras
      Sin embargo, el inverso es muy eficiente en consulta (nos
      interesa más)
      El inverso es el que se suele implementar en la práctica (p.e.
      Google)


                                                         José Carlos Cortizo Pérez
¿Alguna pregunta?




                    José Carlos Cortizo Pérez
Sistemas Inteligentes de Acceso a
la Información

Modelo del Espacio Vectorial
Modelo del Espacio Vectorial
Introducción




      Es un modelo más sofisticado que el Booleano
      Se basa en el álgebra vectorial
      La representación se realiza en base a vectores de pesos de
      términos


                                                        José Carlos Cortizo Pérez
Modelo del Espacio Vectorial
Introducción




      Cálculo de similitud: el coseno de los vectores que forman el
      documento y la consulta




                                                         José Carlos Cortizo Pérez
Modelo del Espacio Vectorial
Introducción




                               José Carlos Cortizo Pérez
¿Alguna pregunta?




                    José Carlos Cortizo Pérez
Bibliografía
Adicional


      Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier. Modern information
      retrieval. Addison-Wesley, 1999 (Z699.35 .I53 B34 Biblioteca
      UEM, edificio C).
      Raymond Mooney. Basic Tokenizing, Indexing and
      Implementation of Vector-Space Retrieval. Tema 3 de su curso en
      IR.
            http://www.cs.utexas.edu/~mooney/ir-course/slides/Evaluation.ppt


                                                                       José Carlos Cortizo Pérez
¿Alguna pregunta?




                    José Carlos Cortizo Pérez

Más contenido relacionado

Destacado

Taller para aprender a aprender. Técnicas de estudio
Taller para aprender a aprender. Técnicas de estudioTaller para aprender a aprender. Técnicas de estudio
Taller para aprender a aprender. Técnicas de estudioAna María Mata Ortega
 
Reglas esenciales en un informe
Reglas esenciales en un informeReglas esenciales en un informe
Reglas esenciales en un informeesantosf
 
Excelvbaplication 2010 (2)
Excelvbaplication 2010 (2)Excelvbaplication 2010 (2)
Excelvbaplication 2010 (2)hectortorrezdoc
 
Normas icontec para trabajos escritos[1]
Normas icontec para trabajos escritos[1]Normas icontec para trabajos escritos[1]
Normas icontec para trabajos escritos[1]Erika Galvis
 
Normas icontec presentación trabajos escritos
Normas icontec presentación trabajos escritosNormas icontec presentación trabajos escritos
Normas icontec presentación trabajos escritosJEAC45
 
Resumen PMBoK 5ta edición
Resumen PMBoK 5ta edición Resumen PMBoK 5ta edición
Resumen PMBoK 5ta edición Cristina Neyra
 
Normas para la Presentacion de Informes
Normas para la Presentacion de InformesNormas para la Presentacion de Informes
Normas para la Presentacion de InformesCarlos Silva
 
Presentacion de las normas A.P.A.
Presentacion de las normas A.P.A.Presentacion de las normas A.P.A.
Presentacion de las normas A.P.A.midalu2304
 
EXPLICACION NORMAS APA PARA TRABAJOS ESCRITOS
EXPLICACION NORMAS APA PARA TRABAJOS ESCRITOSEXPLICACION NORMAS APA PARA TRABAJOS ESCRITOS
EXPLICACION NORMAS APA PARA TRABAJOS ESCRITOSSENA
 

Destacado (12)

Taller para aprender a aprender. Técnicas de estudio
Taller para aprender a aprender. Técnicas de estudioTaller para aprender a aprender. Técnicas de estudio
Taller para aprender a aprender. Técnicas de estudio
 
Reglas esenciales en un informe
Reglas esenciales en un informeReglas esenciales en un informe
Reglas esenciales en un informe
 
Excelvbaplication 2010 (2)
Excelvbaplication 2010 (2)Excelvbaplication 2010 (2)
Excelvbaplication 2010 (2)
 
Normas icontec para trabajos escritos[1]
Normas icontec para trabajos escritos[1]Normas icontec para trabajos escritos[1]
Normas icontec para trabajos escritos[1]
 
Normas icontec presentación trabajos escritos
Normas icontec presentación trabajos escritosNormas icontec presentación trabajos escritos
Normas icontec presentación trabajos escritos
 
Resumen PMBoK 5ta edición
Resumen PMBoK 5ta edición Resumen PMBoK 5ta edición
Resumen PMBoK 5ta edición
 
Normas para la Presentacion de Informes
Normas para la Presentacion de InformesNormas para la Presentacion de Informes
Normas para la Presentacion de Informes
 
Normas APA
Normas APANormas APA
Normas APA
 
Presentacion de las normas A.P.A.
Presentacion de las normas A.P.A.Presentacion de las normas A.P.A.
Presentacion de las normas A.P.A.
 
EXPLICACION NORMAS APA PARA TRABAJOS ESCRITOS
EXPLICACION NORMAS APA PARA TRABAJOS ESCRITOSEXPLICACION NORMAS APA PARA TRABAJOS ESCRITOS
EXPLICACION NORMAS APA PARA TRABAJOS ESCRITOS
 
Normas APA - Trabajos Escritos
Normas APA - Trabajos EscritosNormas APA - Trabajos Escritos
Normas APA - Trabajos Escritos
 
Resumen Y Síntesis
Resumen Y SíntesisResumen Y Síntesis
Resumen Y Síntesis
 

Más de Jose Carlos Cortizo Perez

13+2 Herramientas eCommerce españolas para Vender Más
13+2 Herramientas eCommerce españolas para Vender Más13+2 Herramientas eCommerce españolas para Vender Más
13+2 Herramientas eCommerce españolas para Vender MásJose Carlos Cortizo Perez
 
Ecommerce B2B - Una Nueva Esperanza #B2BSalesCongress
Ecommerce B2B - Una Nueva Esperanza #B2BSalesCongressEcommerce B2B - Una Nueva Esperanza #B2BSalesCongress
Ecommerce B2B - Una Nueva Esperanza #B2BSalesCongressJose Carlos Cortizo Perez
 
Adobe compra Magento: El sentimiento de la Comunidad Magento y eCommerce
Adobe compra Magento: El sentimiento de la Comunidad Magento y eCommerceAdobe compra Magento: El sentimiento de la Comunidad Magento y eCommerce
Adobe compra Magento: El sentimiento de la Comunidad Magento y eCommerceJose Carlos Cortizo Perez
 
Introducción del Visual Commerce Day #VCD18
Introducción del Visual Commerce Day #VCD18Introducción del Visual Commerce Day #VCD18
Introducción del Visual Commerce Day #VCD18Jose Carlos Cortizo Perez
 
La psicología de la Compra - Sobre Neandertales perdidos en Internet
La psicología de la Compra - Sobre Neandertales perdidos en InternetLa psicología de la Compra - Sobre Neandertales perdidos en Internet
La psicología de la Compra - Sobre Neandertales perdidos en InternetJose Carlos Cortizo Perez
 
Bye Bye Personalización: La Era de las Experiencias Personales #MagnoliaAmplify
Bye Bye Personalización: La Era de las Experiencias Personales #MagnoliaAmplifyBye Bye Personalización: La Era de las Experiencias Personales #MagnoliaAmplify
Bye Bye Personalización: La Era de las Experiencias Personales #MagnoliaAmplifyJose Carlos Cortizo Perez
 
Los retos a nivel de negocio del eCommerce B2B
Los retos a nivel de negocio del eCommerce B2BLos retos a nivel de negocio del eCommerce B2B
Los retos a nivel de negocio del eCommerce B2BJose Carlos Cortizo Perez
 
The Reality of Gamified Loyalty in eCommerce - GWC2014
The Reality of Gamified Loyalty in eCommerce - GWC2014The Reality of Gamified Loyalty in eCommerce - GWC2014
The Reality of Gamified Loyalty in eCommerce - GWC2014Jose Carlos Cortizo Perez
 
Hablando de Gamificación en Botanic Fridays
Hablando de Gamificación en Botanic FridaysHablando de Gamificación en Botanic Fridays
Hablando de Gamificación en Botanic FridaysJose Carlos Cortizo Perez
 
Cómo la Gamificación ayuda al Funnel de Venta en #eCommerce
Cómo la Gamificación ayuda al Funnel de Venta en #eCommerceCómo la Gamificación ayuda al Funnel de Venta en #eCommerce
Cómo la Gamificación ayuda al Funnel de Venta en #eCommerceJose Carlos Cortizo Perez
 
Convierte a tus usuarios en clientes - MesComercio 2012
Convierte a tus usuarios en clientes - MesComercio 2012Convierte a tus usuarios en clientes - MesComercio 2012
Convierte a tus usuarios en clientes - MesComercio 2012Jose Carlos Cortizo Perez
 
Redes Sociales y Videojuegos: una unión perfecta
Redes Sociales y Videojuegos: una unión perfectaRedes Sociales y Videojuegos: una unión perfecta
Redes Sociales y Videojuegos: una unión perfectaJose Carlos Cortizo Perez
 
Gamificacion y Docencia: o que la Universidad tiene que aprender de los Video...
Gamificacion y Docencia: o que la Universidad tiene que aprender de los Video...Gamificacion y Docencia: o que la Universidad tiene que aprender de los Video...
Gamificacion y Docencia: o que la Universidad tiene que aprender de los Video...Jose Carlos Cortizo Perez
 

Más de Jose Carlos Cortizo Perez (20)

13+2 Herramientas eCommerce españolas para Vender Más
13+2 Herramientas eCommerce españolas para Vender Más13+2 Herramientas eCommerce españolas para Vender Más
13+2 Herramientas eCommerce españolas para Vender Más
 
Ecommerce B2B - Una Nueva Esperanza #B2BSalesCongress
Ecommerce B2B - Una Nueva Esperanza #B2BSalesCongressEcommerce B2B - Una Nueva Esperanza #B2BSalesCongress
Ecommerce B2B - Una Nueva Esperanza #B2BSalesCongress
 
Adobe compra Magento: El sentimiento de la Comunidad Magento y eCommerce
Adobe compra Magento: El sentimiento de la Comunidad Magento y eCommerceAdobe compra Magento: El sentimiento de la Comunidad Magento y eCommerce
Adobe compra Magento: El sentimiento de la Comunidad Magento y eCommerce
 
Introducción del Visual Commerce Day #VCD18
Introducción del Visual Commerce Day #VCD18Introducción del Visual Commerce Day #VCD18
Introducción del Visual Commerce Day #VCD18
 
La psicología de la Compra - Sobre Neandertales perdidos en Internet
La psicología de la Compra - Sobre Neandertales perdidos en InternetLa psicología de la Compra - Sobre Neandertales perdidos en Internet
La psicología de la Compra - Sobre Neandertales perdidos en Internet
 
Fidelizacion Ecommerce: La Última Frontera
Fidelizacion Ecommerce: La Última FronteraFidelizacion Ecommerce: La Última Frontera
Fidelizacion Ecommerce: La Última Frontera
 
Bye Bye Personalización: La Era de las Experiencias Personales #MagnoliaAmplify
Bye Bye Personalización: La Era de las Experiencias Personales #MagnoliaAmplifyBye Bye Personalización: La Era de las Experiencias Personales #MagnoliaAmplify
Bye Bye Personalización: La Era de las Experiencias Personales #MagnoliaAmplify
 
Black Friday 2016: ¿Qué podemos esperar?
Black Friday 2016: ¿Qué podemos esperar?Black Friday 2016: ¿Qué podemos esperar?
Black Friday 2016: ¿Qué podemos esperar?
 
Los retos a nivel de negocio del eCommerce B2B
Los retos a nivel de negocio del eCommerce B2BLos retos a nivel de negocio del eCommerce B2B
Los retos a nivel de negocio del eCommerce B2B
 
Growth Hackeando tu eCommerce
Growth Hackeando tu eCommerceGrowth Hackeando tu eCommerce
Growth Hackeando tu eCommerce
 
Gamification workshop at the QSP Summit
Gamification workshop at the QSP SummitGamification workshop at the QSP Summit
Gamification workshop at the QSP Summit
 
The Reality of Gamified Loyalty in eCommerce - GWC2014
The Reality of Gamified Loyalty in eCommerce - GWC2014The Reality of Gamified Loyalty in eCommerce - GWC2014
The Reality of Gamified Loyalty in eCommerce - GWC2014
 
Hablando de Gamificación en Botanic Fridays
Hablando de Gamificación en Botanic FridaysHablando de Gamificación en Botanic Fridays
Hablando de Gamificación en Botanic Fridays
 
Cómo la Gamificación ayuda al Funnel de Venta en #eCommerce
Cómo la Gamificación ayuda al Funnel de Venta en #eCommerceCómo la Gamificación ayuda al Funnel de Venta en #eCommerce
Cómo la Gamificación ayuda al Funnel de Venta en #eCommerce
 
Introducción a la Gamificación
Introducción a la GamificaciónIntroducción a la Gamificación
Introducción a la Gamificación
 
Convierte a tus usuarios en clientes - MesComercio 2012
Convierte a tus usuarios en clientes - MesComercio 2012Convierte a tus usuarios en clientes - MesComercio 2012
Convierte a tus usuarios en clientes - MesComercio 2012
 
Open Source en Educación
Open Source en EducaciónOpen Source en Educación
Open Source en Educación
 
Redes Sociales y Videojuegos: una unión perfecta
Redes Sociales y Videojuegos: una unión perfectaRedes Sociales y Videojuegos: una unión perfecta
Redes Sociales y Videojuegos: una unión perfecta
 
Emprendiendo desde la Universidad
Emprendiendo desde la UniversidadEmprendiendo desde la Universidad
Emprendiendo desde la Universidad
 
Gamificacion y Docencia: o que la Universidad tiene que aprender de los Video...
Gamificacion y Docencia: o que la Universidad tiene que aprender de los Video...Gamificacion y Docencia: o que la Universidad tiene que aprender de los Video...
Gamificacion y Docencia: o que la Universidad tiene que aprender de los Video...
 

Último

PRESENTACION DE LA SEMANA NUMERO 8 EN APLICACIONES DE INTERNET
PRESENTACION DE LA SEMANA NUMERO 8 EN APLICACIONES DE INTERNETPRESENTACION DE LA SEMANA NUMERO 8 EN APLICACIONES DE INTERNET
PRESENTACION DE LA SEMANA NUMERO 8 EN APLICACIONES DE INTERNETCESAR MIJAEL ESPINOZA SALAZAR
 
IMPLICACIONES BIOÉTICAS ANTE EL TRANSHUMANISMO A PARTIR DEL PENSAMIENTO FILOS...
IMPLICACIONES BIOÉTICAS ANTE EL TRANSHUMANISMO A PARTIR DEL PENSAMIENTO FILOS...IMPLICACIONES BIOÉTICAS ANTE EL TRANSHUMANISMO A PARTIR DEL PENSAMIENTO FILOS...
IMPLICACIONES BIOÉTICAS ANTE EL TRANSHUMANISMO A PARTIR DEL PENSAMIENTO FILOS...Andrés Canale
 
ensayo literario rios profundos jose maria ARGUEDAS
ensayo literario rios profundos jose maria ARGUEDASensayo literario rios profundos jose maria ARGUEDAS
ensayo literario rios profundos jose maria ARGUEDASAntoineMoltisanti
 
Cerebelo Anatomía y fisiología Clase presencial
Cerebelo Anatomía y fisiología Clase presencialCerebelo Anatomía y fisiología Clase presencial
Cerebelo Anatomía y fisiología Clase presencialDanita2111
 
ENUNCIADOS CUESTIONARIO S9 GEOLOGIA Y MINERALOGIA - GENERAL.docx
ENUNCIADOS CUESTIONARIO S9 GEOLOGIA Y MINERALOGIA - GENERAL.docxENUNCIADOS CUESTIONARIO S9 GEOLOGIA Y MINERALOGIA - GENERAL.docx
ENUNCIADOS CUESTIONARIO S9 GEOLOGIA Y MINERALOGIA - GENERAL.docxmatepura
 
22 Feria Gambetta, en Pedro Planas 29 mayo 2024 (1).docx
22 Feria Gambetta, en Pedro Planas 29 mayo 2024 (1).docx22 Feria Gambetta, en Pedro Planas 29 mayo 2024 (1).docx
22 Feria Gambetta, en Pedro Planas 29 mayo 2024 (1).docxpedroplanassilva498
 
📝 Semana 09 - Tema 01: Tarea - Redacción del texto argumentativo
📝 Semana 09 - Tema 01: Tarea - Redacción del texto argumentativo📝 Semana 09 - Tema 01: Tarea - Redacción del texto argumentativo
📝 Semana 09 - Tema 01: Tarea - Redacción del texto argumentativoharolbustamante1
 
Presentación Revistas y Periódicos Digitales
Presentación Revistas y Periódicos DigitalesPresentación Revistas y Periódicos Digitales
Presentación Revistas y Periódicos Digitalesnievesjiesc03
 
Proceso de gestión de obras - Aquí tu Remodelación
Proceso de gestión de obras - Aquí tu RemodelaciónProceso de gestión de obras - Aquí tu Remodelación
Proceso de gestión de obras - Aquí tu RemodelaciónDanielGrajeda7
 
Lección 1: Los complementos del Verbo ...
Lección 1: Los complementos del Verbo ...Lección 1: Los complementos del Verbo ...
Lección 1: Los complementos del Verbo ...odalisvelezg
 
Tipologías de vínculos afectivos (grupo)
Tipologías de vínculos afectivos (grupo)Tipologías de vínculos afectivos (grupo)
Tipologías de vínculos afectivos (grupo)portafoliodigitalyos
 
Tema 14. Aplicación de Diagramas 26-05-24.pptx
Tema 14. Aplicación de Diagramas 26-05-24.pptxTema 14. Aplicación de Diagramas 26-05-24.pptx
Tema 14. Aplicación de Diagramas 26-05-24.pptxNoe Castillo
 
📝 Semana 09 - Tema 01: Tarea - Aplicación del resumen como estrategia de fuen...
📝 Semana 09 - Tema 01: Tarea - Aplicación del resumen como estrategia de fuen...📝 Semana 09 - Tema 01: Tarea - Aplicación del resumen como estrategia de fuen...
📝 Semana 09 - Tema 01: Tarea - Aplicación del resumen como estrategia de fuen...harolbustamante1
 
RESPONSABILIDAD SOCIAL EN LAS ORGANIZACIONES (4).pdf
RESPONSABILIDAD SOCIAL EN LAS ORGANIZACIONES (4).pdfRESPONSABILIDAD SOCIAL EN LAS ORGANIZACIONES (4).pdf
RESPONSABILIDAD SOCIAL EN LAS ORGANIZACIONES (4).pdfANEP - DETP
 
Como construir los vínculos afectivos (Grupal)
Como construir los vínculos afectivos (Grupal)Como construir los vínculos afectivos (Grupal)
Como construir los vínculos afectivos (Grupal)portafoliodigitalyos
 
Proyecto integrador Vereda Cujacal Centro.pptx
Proyecto integrador Vereda Cujacal Centro.pptxProyecto integrador Vereda Cujacal Centro.pptx
Proyecto integrador Vereda Cujacal Centro.pptxvanessaavasquez212
 
Material-de-Apoyo-Escuela-Sabatica-02-2-2024.pptx.ppt
Material-de-Apoyo-Escuela-Sabatica-02-2-2024.pptx.pptMaterial-de-Apoyo-Escuela-Sabatica-02-2-2024.pptx.ppt
Material-de-Apoyo-Escuela-Sabatica-02-2-2024.pptx.pptAntonioaraujo810405
 

Último (20)

PRESENTACION DE LA SEMANA NUMERO 8 EN APLICACIONES DE INTERNET
PRESENTACION DE LA SEMANA NUMERO 8 EN APLICACIONES DE INTERNETPRESENTACION DE LA SEMANA NUMERO 8 EN APLICACIONES DE INTERNET
PRESENTACION DE LA SEMANA NUMERO 8 EN APLICACIONES DE INTERNET
 
IMPLICACIONES BIOÉTICAS ANTE EL TRANSHUMANISMO A PARTIR DEL PENSAMIENTO FILOS...
IMPLICACIONES BIOÉTICAS ANTE EL TRANSHUMANISMO A PARTIR DEL PENSAMIENTO FILOS...IMPLICACIONES BIOÉTICAS ANTE EL TRANSHUMANISMO A PARTIR DEL PENSAMIENTO FILOS...
IMPLICACIONES BIOÉTICAS ANTE EL TRANSHUMANISMO A PARTIR DEL PENSAMIENTO FILOS...
 
ensayo literario rios profundos jose maria ARGUEDAS
ensayo literario rios profundos jose maria ARGUEDASensayo literario rios profundos jose maria ARGUEDAS
ensayo literario rios profundos jose maria ARGUEDAS
 
Cerebelo Anatomía y fisiología Clase presencial
Cerebelo Anatomía y fisiología Clase presencialCerebelo Anatomía y fisiología Clase presencial
Cerebelo Anatomía y fisiología Clase presencial
 
Lec. 08 Esc. Sab. Luz desde el santuario
Lec. 08 Esc. Sab. Luz desde el santuarioLec. 08 Esc. Sab. Luz desde el santuario
Lec. 08 Esc. Sab. Luz desde el santuario
 
ENUNCIADOS CUESTIONARIO S9 GEOLOGIA Y MINERALOGIA - GENERAL.docx
ENUNCIADOS CUESTIONARIO S9 GEOLOGIA Y MINERALOGIA - GENERAL.docxENUNCIADOS CUESTIONARIO S9 GEOLOGIA Y MINERALOGIA - GENERAL.docx
ENUNCIADOS CUESTIONARIO S9 GEOLOGIA Y MINERALOGIA - GENERAL.docx
 
22 Feria Gambetta, en Pedro Planas 29 mayo 2024 (1).docx
22 Feria Gambetta, en Pedro Planas 29 mayo 2024 (1).docx22 Feria Gambetta, en Pedro Planas 29 mayo 2024 (1).docx
22 Feria Gambetta, en Pedro Planas 29 mayo 2024 (1).docx
 
📝 Semana 09 - Tema 01: Tarea - Redacción del texto argumentativo
📝 Semana 09 - Tema 01: Tarea - Redacción del texto argumentativo📝 Semana 09 - Tema 01: Tarea - Redacción del texto argumentativo
📝 Semana 09 - Tema 01: Tarea - Redacción del texto argumentativo
 
Presentación Revistas y Periódicos Digitales
Presentación Revistas y Periódicos DigitalesPresentación Revistas y Periódicos Digitales
Presentación Revistas y Periódicos Digitales
 
Proceso de gestión de obras - Aquí tu Remodelación
Proceso de gestión de obras - Aquí tu RemodelaciónProceso de gestión de obras - Aquí tu Remodelación
Proceso de gestión de obras - Aquí tu Remodelación
 
Lección 1: Los complementos del Verbo ...
Lección 1: Los complementos del Verbo ...Lección 1: Los complementos del Verbo ...
Lección 1: Los complementos del Verbo ...
 
Tipologías de vínculos afectivos (grupo)
Tipologías de vínculos afectivos (grupo)Tipologías de vínculos afectivos (grupo)
Tipologías de vínculos afectivos (grupo)
 
Power Point: Luz desde el santuario.pptx
Power Point: Luz desde el santuario.pptxPower Point: Luz desde el santuario.pptx
Power Point: Luz desde el santuario.pptx
 
3.Conectores uno_Enfermería_EspAcademico
3.Conectores uno_Enfermería_EspAcademico3.Conectores uno_Enfermería_EspAcademico
3.Conectores uno_Enfermería_EspAcademico
 
Tema 14. Aplicación de Diagramas 26-05-24.pptx
Tema 14. Aplicación de Diagramas 26-05-24.pptxTema 14. Aplicación de Diagramas 26-05-24.pptx
Tema 14. Aplicación de Diagramas 26-05-24.pptx
 
📝 Semana 09 - Tema 01: Tarea - Aplicación del resumen como estrategia de fuen...
📝 Semana 09 - Tema 01: Tarea - Aplicación del resumen como estrategia de fuen...📝 Semana 09 - Tema 01: Tarea - Aplicación del resumen como estrategia de fuen...
📝 Semana 09 - Tema 01: Tarea - Aplicación del resumen como estrategia de fuen...
 
RESPONSABILIDAD SOCIAL EN LAS ORGANIZACIONES (4).pdf
RESPONSABILIDAD SOCIAL EN LAS ORGANIZACIONES (4).pdfRESPONSABILIDAD SOCIAL EN LAS ORGANIZACIONES (4).pdf
RESPONSABILIDAD SOCIAL EN LAS ORGANIZACIONES (4).pdf
 
Como construir los vínculos afectivos (Grupal)
Como construir los vínculos afectivos (Grupal)Como construir los vínculos afectivos (Grupal)
Como construir los vínculos afectivos (Grupal)
 
Proyecto integrador Vereda Cujacal Centro.pptx
Proyecto integrador Vereda Cujacal Centro.pptxProyecto integrador Vereda Cujacal Centro.pptx
Proyecto integrador Vereda Cujacal Centro.pptx
 
Material-de-Apoyo-Escuela-Sabatica-02-2-2024.pptx.ppt
Material-de-Apoyo-Escuela-Sabatica-02-2-2024.pptx.pptMaterial-de-Apoyo-Escuela-Sabatica-02-2-2024.pptx.ppt
Material-de-Apoyo-Escuela-Sabatica-02-2-2024.pptx.ppt
 

Resumen de Técnicas Básicas de Recuperación de Buscador

  • 1. Técnicas Básicas (resumen) José Carlos Cortizo Pérez http://www.esp.uem.es/jccortizo josecarlos.cortizo@uem.es Departamento de Sistemas Informáticos Escuela Superior Politécnica Universidad Europea de Madrid
  • 2. Índice Esquema de funcionamiento Normalización y Tokenización Indexación Modelo del Espacio Vectorial José Carlos Cortizo Pérez
  • 3. Sistemas Inteligentes de Acceso a la Información Esquema de Funcionamiento
  • 4. Esquema de Funcionamiento Doc Doc Normalización Indexación Doc Tokenización MEV Res. Normalización Q Tokenización José Carlos Cortizo Pérez
  • 5. Ejemplo Documento 1: Pepe coge su coche por las mañanas Documento 2: Mañana veré a Pepe Documento 3: Me traen el coche mañana Consulta: Coche José Carlos Cortizo Pérez
  • 6. Ejemplo Normalizamos y Tokenizamos los Documentos Documento 1: Pepe; coger; coche; mañana Documento 2: Mañana; ver; Pepe Documento 3: Traen; coche; mañana Consulta: Coche José Carlos Cortizo Pérez
  • 7. Ejemplo Indizamos los Documentos Documento 1 Documento 2 Documento 3 Pepe 1 1 Coger 1 Coche 1 1 Mañana 1 1 1 Ver 1 Traer 1 Consulta: Coche José Carlos Cortizo Pérez
  • 8. Ejemplo Tokenizamos y Normalizamos la consulta Documento 1 Documento 2 Documento 3 Pepe 1 1 Coger 1 Coche 1 1 Mañana 1 1 1 Ver 1 Traer 1 Consulta: Coche José Carlos Cortizo Pérez
  • 9. Ejemplo Seleccionamos candidatos Documento 1 Documento 2 Documento 3 Pepe 1 1 Coger 1 Coche 1 1 Mañana 1 1 1 Ver 1 Traer 1 Consulta: Coche José Carlos Cortizo Pérez
  • 10. Ejemplo Representamos en forma de Vectores Representación: (Pepe, coger, coche, mañana, traer) Documento 1: (1, 1, 1, 1, 0) Documento 2: (0, 0, 1, 1, 1) Consulta: (0, 0, 1, 0, 0) José Carlos Cortizo Pérez
  • 11. Ejemplo Aplicamos MEV Representación: (Pepe, coger, coche, mañana, traer) Documento 1: 1·0 + 1·0 + 1·1 + 1·0 + 0·0 (1, 1, 1, 1, 0) cos(D1, C) = = 0.5 RC(4) · RC(1) Documento 2: 0·0 + 0·0 + 1·1 + 0·0 + 0·0 (0, 0, 1, 1, 1) cos(D1, C) = = 0.57 RC(3) · RC(1) Consulta: (0, 0, 1, 0, 0) José Carlos Cortizo Pérez
  • 12. Ejemplo Y obtenemos un ranking de resultados Resultados ordenados: Documento 2 Documento 1 José Carlos Cortizo Pérez
  • 13. ¿Alguna pregunta? José Carlos Cortizo Pérez
  • 14. Sistemas Inteligentes de Acceso a la Información Normalización y Tokenización
  • 15. Normalización y Tokenización ¿Qué? Tokenizar: Separar las palabras o elementos a indizar Normalizar: Estandarizar la forma de escribir algunas cosas. P.e. eliminar las tildes, cambiar de mayúsculas a minúsculas, etc. José Carlos Cortizo Pérez
  • 16. Normalización y Tokenización ¿Por qué? Tokenizar: Necesitamos tener unidades indizables para utilizarlas como base de nuestra representación. Pueden ser palabras, frases, n-gramas, etc. Normalizar: El lenguaje es muy flexible, y además es muy corriente cometer errores de algún tipo. La normalización nos provee una forma de “eliminar” estos problemas. José Carlos Cortizo Pérez
  • 17. Normalización y Tokenización ¿Cómo tokenizar? Forma simple: utilizar un Tokenizador que separe por caracteres clave (p.e. espacios, signos de puntuación, etc.) En java se haría con un String Tokenizer Si en lugar de palabras, queremos separar frases, la cosa es algo más compleja (dependiendo del tipo de frase) Análisis del lenguaje José Carlos Cortizo Pérez
  • 18. Normalización y Tokenización ¿Cómo normalizar? Por lo general aplicando reglas heurísticas P.e. Cambiar todas las vocales acentuadas por vocales sin acentuar Pasar las mayúsculas a minúsculas Eliminar “palabras vacías” José Carlos Cortizo Pérez
  • 19. Normalización y Tokenización Palabras vacías Las palabras muy frecuentes no aportan semántica Artículos, pronombres, conjunciones, etc. Las apariciones de las 10 palabras más frecuentes del inglés constituyen un 20/30% de un documento Se suelen incluir en una lista de parada Estas listas se obtienen a partir de un córpora representativo del idioma José Carlos Cortizo Pérez
  • 20. Normalización y Tokenización Normalización morfológica Múltiples palabras son variaciones morfológicas, con idéntico significado Los stemmers (extractores de raíces), normalizan a una forma canónica, p.e. analizar, análisis, analizador... => ‘anali’ Algoritmo de Porter, SnowBall José Carlos Cortizo Pérez
  • 21. Normalización y Tokenización Normalización “avanzada” En función del idioma, podemos aplicar reglas de normalización que permitan una mejor recuperación (p.e. tolerante a errores) P.e., para el Castellano Eliminar las ‘h’ Cambiar ‘v’ por ‘b’ Cambiar ‘ll’ por ‘y’ Esto aumenta el recall pero puede bajar la precisión José Carlos Cortizo Pérez
  • 22. ¿Alguna pregunta? José Carlos Cortizo Pérez
  • 23. Sistemas Inteligentes de Acceso a la Información Indexación
  • 24. Indexación Indexación Los índices son necesarios para poder realizar las consultas en tiempos aceptables Generan un “overhead” en cuánto a almacenamiento 2 tipos de índices importantes Directos Inversos José Carlos Cortizo Pérez
  • 25. Indexación Indice directo Pal1 Pal2 Pal3 Pal4 Doc1 1 1 0 0 Doc2 0 1 0 0 Doc3 1 0 1 0 Doc4 0 0 0 1 José Carlos Cortizo Pérez
  • 26. Indexación Indice inverso Doc1 Doc2 Doc3 Doc4 Pal1 1 1 0 0 Pal2 0 1 0 0 Pal3 1 0 1 0 Pal4 0 0 0 1 José Carlos Cortizo Pérez
  • 27. Indexación ¿Cuál es mejor? Cada uno tiene sus pros y sus contras Sin embargo, el inverso es muy eficiente en consulta (nos interesa más) El inverso es el que se suele implementar en la práctica (p.e. Google) José Carlos Cortizo Pérez
  • 28. ¿Alguna pregunta? José Carlos Cortizo Pérez
  • 29. Sistemas Inteligentes de Acceso a la Información Modelo del Espacio Vectorial
  • 30. Modelo del Espacio Vectorial Introducción Es un modelo más sofisticado que el Booleano Se basa en el álgebra vectorial La representación se realiza en base a vectores de pesos de términos José Carlos Cortizo Pérez
  • 31. Modelo del Espacio Vectorial Introducción Cálculo de similitud: el coseno de los vectores que forman el documento y la consulta José Carlos Cortizo Pérez
  • 32. Modelo del Espacio Vectorial Introducción José Carlos Cortizo Pérez
  • 33. ¿Alguna pregunta? José Carlos Cortizo Pérez
  • 34. Bibliografía Adicional Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier. Modern information retrieval. Addison-Wesley, 1999 (Z699.35 .I53 B34 Biblioteca UEM, edificio C). Raymond Mooney. Basic Tokenizing, Indexing and Implementation of Vector-Space Retrieval. Tema 3 de su curso en IR. http://www.cs.utexas.edu/~mooney/ir-course/slides/Evaluation.ppt José Carlos Cortizo Pérez
  • 35. ¿Alguna pregunta? José Carlos Cortizo Pérez