SlideShare una empresa de Scribd logo
1 de 35
Descargar para leer sin conexión
Técnicas Básicas (resumen)

José Carlos Cortizo Pérez
  http://www.esp.uem.es/jccortizo
  josecarlos.cortizo@uem.es


 Departamento de Sistemas Informáticos
  Escuela Superior Politécnica
  Universidad Europea de Madrid
Índice


   Esquema de funcionamiento
   Normalización y Tokenización
   Indexación
   Modelo del Espacio Vectorial


                                  José Carlos Cortizo Pérez
Sistemas Inteligentes de Acceso a
la Información

Esquema de Funcionamiento
Esquema de Funcionamiento

 Doc
   Doc
           Normalización
                           Indexación
     Doc    Tokenización




                                        MEV                 Res.
           Normalización
   Q        Tokenización




                                              José Carlos Cortizo Pérez
Ejemplo

  Documento 1:
        Pepe coge su coche por las mañanas

  Documento 2:
        Mañana veré a Pepe

  Documento 3:
        Me traen el coche mañana


  Consulta:
        Coche

                                             José Carlos Cortizo Pérez
Ejemplo
Normalizamos y Tokenizamos los Documentos

    Documento 1:
          Pepe; coger; coche; mañana

    Documento 2:
          Mañana; ver; Pepe

    Documento 3:
          Traen; coche; mañana


    Consulta:
          Coche

                                            José Carlos Cortizo Pérez
Ejemplo
Indizamos los Documentos

                    Documento 1   Documento 2   Documento 3
         Pepe              1          1
         Coger             1
         Coche             1                        1
        Mañana             1          1             1
          Ver                         1
         Traer                                      1


    Consulta:
           Coche

                                                    José Carlos Cortizo Pérez
Ejemplo
Tokenizamos y Normalizamos la consulta

                    Documento 1   Documento 2   Documento 3
         Pepe           1                1
         Coger          1
         Coche          1                           1
        Mañana          1                1          1
          Ver                            1
         Traer                                      1


    Consulta:
           Coche

                                                    José Carlos Cortizo Pérez
Ejemplo
Seleccionamos candidatos

                     Documento 1   Documento 2   Documento 3
         Pepe              1           1
         Coger             1
         Coche             1                         1
        Mañana             1           1             1
          Ver                          1
         Traer                                       1


    Consulta:
           Coche

                                                     José Carlos Cortizo Pérez
Ejemplo
Representamos en forma de Vectores


    Representación:
           (Pepe, coger, coche, mañana, traer)
    Documento 1:
           (1, 1, 1, 1, 0)
    Documento 2:
           (0, 0, 1, 1, 1)
    Consulta:
           (0, 0, 1, 0, 0)



                                                 José Carlos Cortizo Pérez
Ejemplo
Aplicamos MEV


    Representación:
          (Pepe, coger, coche, mañana, traer)
    Documento 1:
                                               1·0 + 1·0 + 1·1 + 1·0 + 0·0
          (1, 1, 1, 1, 0)         cos(D1, C) =                             = 0.5
                                                      RC(4) · RC(1)
    Documento 2:                               0·0 + 0·0 + 1·1 + 0·0 + 0·0
          (0, 0, 1, 1, 1)         cos(D1, C) =                             = 0.57
                                                      RC(3) · RC(1)
    Consulta:
          (0, 0, 1, 0, 0)



                                                                     José Carlos Cortizo Pérez
Ejemplo
Y obtenemos un ranking de resultados


    Resultados ordenados:
           Documento 2
           Documento 1




                                       José Carlos Cortizo Pérez
¿Alguna pregunta?




                    José Carlos Cortizo Pérez
Sistemas Inteligentes de Acceso a
la Información

Normalización y Tokenización
Normalización y Tokenización
¿Qué?




        Tokenizar: Separar las palabras o elementos a indizar


        Normalizar: Estandarizar la forma de escribir algunas cosas. P.e.
        eliminar las tildes, cambiar de mayúsculas a minúsculas, etc.


                                                          José Carlos Cortizo Pérez
Normalización y Tokenización
¿Por qué?


     Tokenizar: Necesitamos tener unidades indizables para
     utilizarlas como base de nuestra representación. Pueden ser
     palabras, frases, n-gramas, etc.


     Normalizar: El lenguaje es muy flexible, y además es muy
     corriente cometer errores de algún tipo. La normalización nos
     provee una forma de “eliminar” estos problemas.

                                                      José Carlos Cortizo Pérez
Normalización y Tokenización
¿Cómo tokenizar?


     Forma simple: utilizar un Tokenizador que separe por caracteres
     clave (p.e. espacios, signos de puntuación, etc.)
         En java se haría con un String Tokenizer
     Si en lugar de palabras, queremos separar frases, la cosa es
     algo más compleja (dependiendo del tipo de frase)
         Análisis del lenguaje

                                                       José Carlos Cortizo Pérez
Normalización y Tokenización
¿Cómo normalizar?



     Por lo general aplicando reglas heurísticas
         P.e. Cambiar todas las vocales acentuadas por vocales sin
         acentuar
         Pasar las mayúsculas a minúsculas
         Eliminar “palabras vacías”

                                                       José Carlos Cortizo Pérez
Normalización y Tokenización
Palabras vacías

      Las palabras muy frecuentes no aportan semántica
          Artículos, pronombres, conjunciones, etc.
          Las apariciones de las 10 palabras más frecuentes del inglés
          constituyen un 20/30% de un documento
      Se suelen incluir en una lista de parada
      Estas listas se obtienen a partir de un córpora representativo del
      idioma
                                                         José Carlos Cortizo Pérez
Normalización y Tokenización
Normalización morfológica


      Múltiples palabras son variaciones morfológicas, con idéntico
      significado
      Los stemmers (extractores de raíces), normalizan a una forma
      canónica, p.e.
         analizar, análisis, analizador... => ‘anali’
      Algoritmo de Porter, SnowBall

                                                        José Carlos Cortizo Pérez
Normalización y Tokenización
Normalización “avanzada”

     En función del idioma, podemos aplicar reglas de normalización
     que permitan una mejor recuperación (p.e. tolerante a errores)
         P.e., para el Castellano
             Eliminar las ‘h’
             Cambiar ‘v’ por ‘b’
             Cambiar ‘ll’ por ‘y’
         Esto aumenta el recall pero puede bajar la precisión
                                                       José Carlos Cortizo Pérez
¿Alguna pregunta?




                    José Carlos Cortizo Pérez
Sistemas Inteligentes de Acceso a
la Información

Indexación
Indexación
Indexación


      Los índices son necesarios para poder realizar las consultas en
      tiempos aceptables
      Generan un “overhead” en cuánto a almacenamiento
      2 tipos de índices importantes
         Directos
         Inversos

                                                         José Carlos Cortizo Pérez
Indexación
Indice directo

                 Pal1   Pal2   Pal3        Pal4

     Doc1         1      1      0             0

     Doc2         0      1      0             0

     Doc3         1      0      1             0

     Doc4         0      0      0             1
                                      José Carlos Cortizo Pérez
Indexación
Indice inverso

                 Doc1   Doc2   Doc3        Doc4

     Pal1         1      1      0             0

     Pal2         0      1      0             0

     Pal3         1      0      1             0

     Pal4         0      0      0             1
                                      José Carlos Cortizo Pérez
Indexación
¿Cuál es mejor?



      Cada uno tiene sus pros y sus contras
      Sin embargo, el inverso es muy eficiente en consulta (nos
      interesa más)
      El inverso es el que se suele implementar en la práctica (p.e.
      Google)


                                                         José Carlos Cortizo Pérez
¿Alguna pregunta?




                    José Carlos Cortizo Pérez
Sistemas Inteligentes de Acceso a
la Información

Modelo del Espacio Vectorial
Modelo del Espacio Vectorial
Introducción




      Es un modelo más sofisticado que el Booleano
      Se basa en el álgebra vectorial
      La representación se realiza en base a vectores de pesos de
      términos


                                                        José Carlos Cortizo Pérez
Modelo del Espacio Vectorial
Introducción




      Cálculo de similitud: el coseno de los vectores que forman el
      documento y la consulta




                                                         José Carlos Cortizo Pérez
Modelo del Espacio Vectorial
Introducción




                               José Carlos Cortizo Pérez
¿Alguna pregunta?




                    José Carlos Cortizo Pérez
Bibliografía
Adicional


      Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier. Modern information
      retrieval. Addison-Wesley, 1999 (Z699.35 .I53 B34 Biblioteca
      UEM, edificio C).
      Raymond Mooney. Basic Tokenizing, Indexing and
      Implementation of Vector-Space Retrieval. Tema 3 de su curso en
      IR.
            http://www.cs.utexas.edu/~mooney/ir-course/slides/Evaluation.ppt


                                                                       José Carlos Cortizo Pérez
¿Alguna pregunta?




                    José Carlos Cortizo Pérez

Más contenido relacionado

Destacado

Taller para aprender a aprender. Técnicas de estudio
Taller para aprender a aprender. Técnicas de estudioTaller para aprender a aprender. Técnicas de estudio
Taller para aprender a aprender. Técnicas de estudioAna María Mata Ortega
 
Reglas esenciales en un informe
Reglas esenciales en un informeReglas esenciales en un informe
Reglas esenciales en un informeesantosf
 
Excelvbaplication 2010 (2)
Excelvbaplication 2010 (2)Excelvbaplication 2010 (2)
Excelvbaplication 2010 (2)hectortorrezdoc
 
Normas icontec para trabajos escritos[1]
Normas icontec para trabajos escritos[1]Normas icontec para trabajos escritos[1]
Normas icontec para trabajos escritos[1]Erika Galvis
 
Normas icontec presentación trabajos escritos
Normas icontec presentación trabajos escritosNormas icontec presentación trabajos escritos
Normas icontec presentación trabajos escritosJEAC45
 
Resumen PMBoK 5ta edición
Resumen PMBoK 5ta edición Resumen PMBoK 5ta edición
Resumen PMBoK 5ta edición Cristina Neyra
 
Normas para la Presentacion de Informes
Normas para la Presentacion de InformesNormas para la Presentacion de Informes
Normas para la Presentacion de InformesCarlos Silva
 
Presentacion de las normas A.P.A.
Presentacion de las normas A.P.A.Presentacion de las normas A.P.A.
Presentacion de las normas A.P.A.midalu2304
 
EXPLICACION NORMAS APA PARA TRABAJOS ESCRITOS
EXPLICACION NORMAS APA PARA TRABAJOS ESCRITOSEXPLICACION NORMAS APA PARA TRABAJOS ESCRITOS
EXPLICACION NORMAS APA PARA TRABAJOS ESCRITOSSENA
 

Destacado (12)

Taller para aprender a aprender. Técnicas de estudio
Taller para aprender a aprender. Técnicas de estudioTaller para aprender a aprender. Técnicas de estudio
Taller para aprender a aprender. Técnicas de estudio
 
Reglas esenciales en un informe
Reglas esenciales en un informeReglas esenciales en un informe
Reglas esenciales en un informe
 
Excelvbaplication 2010 (2)
Excelvbaplication 2010 (2)Excelvbaplication 2010 (2)
Excelvbaplication 2010 (2)
 
Normas icontec para trabajos escritos[1]
Normas icontec para trabajos escritos[1]Normas icontec para trabajos escritos[1]
Normas icontec para trabajos escritos[1]
 
Normas icontec presentación trabajos escritos
Normas icontec presentación trabajos escritosNormas icontec presentación trabajos escritos
Normas icontec presentación trabajos escritos
 
Resumen PMBoK 5ta edición
Resumen PMBoK 5ta edición Resumen PMBoK 5ta edición
Resumen PMBoK 5ta edición
 
Normas para la Presentacion de Informes
Normas para la Presentacion de InformesNormas para la Presentacion de Informes
Normas para la Presentacion de Informes
 
Normas APA
Normas APANormas APA
Normas APA
 
Presentacion de las normas A.P.A.
Presentacion de las normas A.P.A.Presentacion de las normas A.P.A.
Presentacion de las normas A.P.A.
 
EXPLICACION NORMAS APA PARA TRABAJOS ESCRITOS
EXPLICACION NORMAS APA PARA TRABAJOS ESCRITOSEXPLICACION NORMAS APA PARA TRABAJOS ESCRITOS
EXPLICACION NORMAS APA PARA TRABAJOS ESCRITOS
 
Normas APA - Trabajos Escritos
Normas APA - Trabajos EscritosNormas APA - Trabajos Escritos
Normas APA - Trabajos Escritos
 
Resumen Y Síntesis
Resumen Y SíntesisResumen Y Síntesis
Resumen Y Síntesis
 

Más de Jose Carlos Cortizo Perez

13+2 Herramientas eCommerce españolas para Vender Más
13+2 Herramientas eCommerce españolas para Vender Más13+2 Herramientas eCommerce españolas para Vender Más
13+2 Herramientas eCommerce españolas para Vender MásJose Carlos Cortizo Perez
 
Ecommerce B2B - Una Nueva Esperanza #B2BSalesCongress
Ecommerce B2B - Una Nueva Esperanza #B2BSalesCongressEcommerce B2B - Una Nueva Esperanza #B2BSalesCongress
Ecommerce B2B - Una Nueva Esperanza #B2BSalesCongressJose Carlos Cortizo Perez
 
Adobe compra Magento: El sentimiento de la Comunidad Magento y eCommerce
Adobe compra Magento: El sentimiento de la Comunidad Magento y eCommerceAdobe compra Magento: El sentimiento de la Comunidad Magento y eCommerce
Adobe compra Magento: El sentimiento de la Comunidad Magento y eCommerceJose Carlos Cortizo Perez
 
Introducción del Visual Commerce Day #VCD18
Introducción del Visual Commerce Day #VCD18Introducción del Visual Commerce Day #VCD18
Introducción del Visual Commerce Day #VCD18Jose Carlos Cortizo Perez
 
La psicología de la Compra - Sobre Neandertales perdidos en Internet
La psicología de la Compra - Sobre Neandertales perdidos en InternetLa psicología de la Compra - Sobre Neandertales perdidos en Internet
La psicología de la Compra - Sobre Neandertales perdidos en InternetJose Carlos Cortizo Perez
 
Bye Bye Personalización: La Era de las Experiencias Personales #MagnoliaAmplify
Bye Bye Personalización: La Era de las Experiencias Personales #MagnoliaAmplifyBye Bye Personalización: La Era de las Experiencias Personales #MagnoliaAmplify
Bye Bye Personalización: La Era de las Experiencias Personales #MagnoliaAmplifyJose Carlos Cortizo Perez
 
Los retos a nivel de negocio del eCommerce B2B
Los retos a nivel de negocio del eCommerce B2BLos retos a nivel de negocio del eCommerce B2B
Los retos a nivel de negocio del eCommerce B2BJose Carlos Cortizo Perez
 
The Reality of Gamified Loyalty in eCommerce - GWC2014
The Reality of Gamified Loyalty in eCommerce - GWC2014The Reality of Gamified Loyalty in eCommerce - GWC2014
The Reality of Gamified Loyalty in eCommerce - GWC2014Jose Carlos Cortizo Perez
 
Hablando de Gamificación en Botanic Fridays
Hablando de Gamificación en Botanic FridaysHablando de Gamificación en Botanic Fridays
Hablando de Gamificación en Botanic FridaysJose Carlos Cortizo Perez
 
Cómo la Gamificación ayuda al Funnel de Venta en #eCommerce
Cómo la Gamificación ayuda al Funnel de Venta en #eCommerceCómo la Gamificación ayuda al Funnel de Venta en #eCommerce
Cómo la Gamificación ayuda al Funnel de Venta en #eCommerceJose Carlos Cortizo Perez
 
Convierte a tus usuarios en clientes - MesComercio 2012
Convierte a tus usuarios en clientes - MesComercio 2012Convierte a tus usuarios en clientes - MesComercio 2012
Convierte a tus usuarios en clientes - MesComercio 2012Jose Carlos Cortizo Perez
 
Redes Sociales y Videojuegos: una unión perfecta
Redes Sociales y Videojuegos: una unión perfectaRedes Sociales y Videojuegos: una unión perfecta
Redes Sociales y Videojuegos: una unión perfectaJose Carlos Cortizo Perez
 
Gamificacion y Docencia: o que la Universidad tiene que aprender de los Video...
Gamificacion y Docencia: o que la Universidad tiene que aprender de los Video...Gamificacion y Docencia: o que la Universidad tiene que aprender de los Video...
Gamificacion y Docencia: o que la Universidad tiene que aprender de los Video...Jose Carlos Cortizo Perez
 

Más de Jose Carlos Cortizo Perez (20)

13+2 Herramientas eCommerce españolas para Vender Más
13+2 Herramientas eCommerce españolas para Vender Más13+2 Herramientas eCommerce españolas para Vender Más
13+2 Herramientas eCommerce españolas para Vender Más
 
Ecommerce B2B - Una Nueva Esperanza #B2BSalesCongress
Ecommerce B2B - Una Nueva Esperanza #B2BSalesCongressEcommerce B2B - Una Nueva Esperanza #B2BSalesCongress
Ecommerce B2B - Una Nueva Esperanza #B2BSalesCongress
 
Adobe compra Magento: El sentimiento de la Comunidad Magento y eCommerce
Adobe compra Magento: El sentimiento de la Comunidad Magento y eCommerceAdobe compra Magento: El sentimiento de la Comunidad Magento y eCommerce
Adobe compra Magento: El sentimiento de la Comunidad Magento y eCommerce
 
Introducción del Visual Commerce Day #VCD18
Introducción del Visual Commerce Day #VCD18Introducción del Visual Commerce Day #VCD18
Introducción del Visual Commerce Day #VCD18
 
La psicología de la Compra - Sobre Neandertales perdidos en Internet
La psicología de la Compra - Sobre Neandertales perdidos en InternetLa psicología de la Compra - Sobre Neandertales perdidos en Internet
La psicología de la Compra - Sobre Neandertales perdidos en Internet
 
Fidelizacion Ecommerce: La Última Frontera
Fidelizacion Ecommerce: La Última FronteraFidelizacion Ecommerce: La Última Frontera
Fidelizacion Ecommerce: La Última Frontera
 
Bye Bye Personalización: La Era de las Experiencias Personales #MagnoliaAmplify
Bye Bye Personalización: La Era de las Experiencias Personales #MagnoliaAmplifyBye Bye Personalización: La Era de las Experiencias Personales #MagnoliaAmplify
Bye Bye Personalización: La Era de las Experiencias Personales #MagnoliaAmplify
 
Black Friday 2016: ¿Qué podemos esperar?
Black Friday 2016: ¿Qué podemos esperar?Black Friday 2016: ¿Qué podemos esperar?
Black Friday 2016: ¿Qué podemos esperar?
 
Los retos a nivel de negocio del eCommerce B2B
Los retos a nivel de negocio del eCommerce B2BLos retos a nivel de negocio del eCommerce B2B
Los retos a nivel de negocio del eCommerce B2B
 
Growth Hackeando tu eCommerce
Growth Hackeando tu eCommerceGrowth Hackeando tu eCommerce
Growth Hackeando tu eCommerce
 
Gamification workshop at the QSP Summit
Gamification workshop at the QSP SummitGamification workshop at the QSP Summit
Gamification workshop at the QSP Summit
 
The Reality of Gamified Loyalty in eCommerce - GWC2014
The Reality of Gamified Loyalty in eCommerce - GWC2014The Reality of Gamified Loyalty in eCommerce - GWC2014
The Reality of Gamified Loyalty in eCommerce - GWC2014
 
Hablando de Gamificación en Botanic Fridays
Hablando de Gamificación en Botanic FridaysHablando de Gamificación en Botanic Fridays
Hablando de Gamificación en Botanic Fridays
 
Cómo la Gamificación ayuda al Funnel de Venta en #eCommerce
Cómo la Gamificación ayuda al Funnel de Venta en #eCommerceCómo la Gamificación ayuda al Funnel de Venta en #eCommerce
Cómo la Gamificación ayuda al Funnel de Venta en #eCommerce
 
Introducción a la Gamificación
Introducción a la GamificaciónIntroducción a la Gamificación
Introducción a la Gamificación
 
Convierte a tus usuarios en clientes - MesComercio 2012
Convierte a tus usuarios en clientes - MesComercio 2012Convierte a tus usuarios en clientes - MesComercio 2012
Convierte a tus usuarios en clientes - MesComercio 2012
 
Open Source en Educación
Open Source en EducaciónOpen Source en Educación
Open Source en Educación
 
Redes Sociales y Videojuegos: una unión perfecta
Redes Sociales y Videojuegos: una unión perfectaRedes Sociales y Videojuegos: una unión perfecta
Redes Sociales y Videojuegos: una unión perfecta
 
Emprendiendo desde la Universidad
Emprendiendo desde la UniversidadEmprendiendo desde la Universidad
Emprendiendo desde la Universidad
 
Gamificacion y Docencia: o que la Universidad tiene que aprender de los Video...
Gamificacion y Docencia: o que la Universidad tiene que aprender de los Video...Gamificacion y Docencia: o que la Universidad tiene que aprender de los Video...
Gamificacion y Docencia: o que la Universidad tiene que aprender de los Video...
 

Último

MODELO DE INFORME DE INDAGACION CIENTIFICA .docx
MODELO DE INFORME DE INDAGACION CIENTIFICA .docxMODELO DE INFORME DE INDAGACION CIENTIFICA .docx
MODELO DE INFORME DE INDAGACION CIENTIFICA .docxRAMON EUSTAQUIO CARO BAYONA
 
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdfOswaldoGonzalezCruz
 
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...fcastellanos3
 
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdfEstrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdfAlfredoRamirez953210
 
Fichas de Matemática TERCERO DE SECUNDARIA.pdf
Fichas de Matemática TERCERO DE SECUNDARIA.pdfFichas de Matemática TERCERO DE SECUNDARIA.pdf
Fichas de Matemática TERCERO DE SECUNDARIA.pdfssuser50d1252
 
SIMULACROS Y SIMULACIONES DE SISMO 2024.docx
SIMULACROS Y SIMULACIONES DE SISMO 2024.docxSIMULACROS Y SIMULACIONES DE SISMO 2024.docx
SIMULACROS Y SIMULACIONES DE SISMO 2024.docxLudy Ventocilla Napanga
 
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdfTema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdfDaniel Ángel Corral de la Mata, Ph.D.
 
PROGRAMACION ANUAL DE MATEMATICA 2024.docx
PROGRAMACION ANUAL DE MATEMATICA 2024.docxPROGRAMACION ANUAL DE MATEMATICA 2024.docx
PROGRAMACION ANUAL DE MATEMATICA 2024.docxEribertoPerezRamirez
 
4º SOY LECTOR PART2- MD EDUCATIVO.p df PARTE
4º SOY LECTOR PART2- MD  EDUCATIVO.p df PARTE4º SOY LECTOR PART2- MD  EDUCATIVO.p df PARTE
4º SOY LECTOR PART2- MD EDUCATIVO.p df PARTESaraNolasco4
 
libro para colorear de Peppa pig, ideal para educación inicial
libro para colorear de Peppa pig, ideal para educación iniciallibro para colorear de Peppa pig, ideal para educación inicial
libro para colorear de Peppa pig, ideal para educación inicialLorenaSanchez350426
 
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALVOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALEDUCCUniversidadCatl
 
Fichas de MatemáticA QUINTO DE SECUNDARIA).pdf
Fichas de MatemáticA QUINTO DE SECUNDARIA).pdfFichas de MatemáticA QUINTO DE SECUNDARIA).pdf
Fichas de MatemáticA QUINTO DE SECUNDARIA).pdfssuser50d1252
 
Uses of simple past and time expressions
Uses of simple past and time expressionsUses of simple past and time expressions
Uses of simple past and time expressionsConsueloSantana3
 
cuadernillo de lectoescritura para niños de básica
cuadernillo de lectoescritura para niños de básicacuadernillo de lectoescritura para niños de básica
cuadernillo de lectoescritura para niños de básicaGianninaValeskaContr
 

Último (20)

DIA INTERNACIONAL DAS FLORESTAS .
DIA INTERNACIONAL DAS FLORESTAS         .DIA INTERNACIONAL DAS FLORESTAS         .
DIA INTERNACIONAL DAS FLORESTAS .
 
MODELO DE INFORME DE INDAGACION CIENTIFICA .docx
MODELO DE INFORME DE INDAGACION CIENTIFICA .docxMODELO DE INFORME DE INDAGACION CIENTIFICA .docx
MODELO DE INFORME DE INDAGACION CIENTIFICA .docx
 
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
5° SEM29 CRONOGRAMA PLANEACIÓN DOCENTE DARUKEL 23-24.pdf
 
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
 
Earth Day Everyday 2024 54th anniversary
Earth Day Everyday 2024 54th anniversaryEarth Day Everyday 2024 54th anniversary
Earth Day Everyday 2024 54th anniversary
 
TL/CNL – 2.ª FASE .
TL/CNL – 2.ª FASE                       .TL/CNL – 2.ª FASE                       .
TL/CNL – 2.ª FASE .
 
Tema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdf
Tema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdfTema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdf
Tema 7.- E-COMMERCE SISTEMAS DE INFORMACION.pdf
 
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdfEstrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
 
Sesión La luz brilla en la oscuridad.pdf
Sesión  La luz brilla en la oscuridad.pdfSesión  La luz brilla en la oscuridad.pdf
Sesión La luz brilla en la oscuridad.pdf
 
Fichas de Matemática TERCERO DE SECUNDARIA.pdf
Fichas de Matemática TERCERO DE SECUNDARIA.pdfFichas de Matemática TERCERO DE SECUNDARIA.pdf
Fichas de Matemática TERCERO DE SECUNDARIA.pdf
 
La luz brilla en la oscuridad. Necesitamos luz
La luz brilla en la oscuridad. Necesitamos luzLa luz brilla en la oscuridad. Necesitamos luz
La luz brilla en la oscuridad. Necesitamos luz
 
SIMULACROS Y SIMULACIONES DE SISMO 2024.docx
SIMULACROS Y SIMULACIONES DE SISMO 2024.docxSIMULACROS Y SIMULACIONES DE SISMO 2024.docx
SIMULACROS Y SIMULACIONES DE SISMO 2024.docx
 
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdfTema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
 
PROGRAMACION ANUAL DE MATEMATICA 2024.docx
PROGRAMACION ANUAL DE MATEMATICA 2024.docxPROGRAMACION ANUAL DE MATEMATICA 2024.docx
PROGRAMACION ANUAL DE MATEMATICA 2024.docx
 
4º SOY LECTOR PART2- MD EDUCATIVO.p df PARTE
4º SOY LECTOR PART2- MD  EDUCATIVO.p df PARTE4º SOY LECTOR PART2- MD  EDUCATIVO.p df PARTE
4º SOY LECTOR PART2- MD EDUCATIVO.p df PARTE
 
libro para colorear de Peppa pig, ideal para educación inicial
libro para colorear de Peppa pig, ideal para educación iniciallibro para colorear de Peppa pig, ideal para educación inicial
libro para colorear de Peppa pig, ideal para educación inicial
 
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMALVOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
VOLUMEN 1 COLECCION PRODUCCION BOVINA . SERIE SANIDAD ANIMAL
 
Fichas de MatemáticA QUINTO DE SECUNDARIA).pdf
Fichas de MatemáticA QUINTO DE SECUNDARIA).pdfFichas de MatemáticA QUINTO DE SECUNDARIA).pdf
Fichas de MatemáticA QUINTO DE SECUNDARIA).pdf
 
Uses of simple past and time expressions
Uses of simple past and time expressionsUses of simple past and time expressions
Uses of simple past and time expressions
 
cuadernillo de lectoescritura para niños de básica
cuadernillo de lectoescritura para niños de básicacuadernillo de lectoescritura para niños de básica
cuadernillo de lectoescritura para niños de básica
 

Resumen de Técnicas Básicas de Recuperación de Buscador

  • 1. Técnicas Básicas (resumen) José Carlos Cortizo Pérez http://www.esp.uem.es/jccortizo josecarlos.cortizo@uem.es Departamento de Sistemas Informáticos Escuela Superior Politécnica Universidad Europea de Madrid
  • 2. Índice Esquema de funcionamiento Normalización y Tokenización Indexación Modelo del Espacio Vectorial José Carlos Cortizo Pérez
  • 3. Sistemas Inteligentes de Acceso a la Información Esquema de Funcionamiento
  • 4. Esquema de Funcionamiento Doc Doc Normalización Indexación Doc Tokenización MEV Res. Normalización Q Tokenización José Carlos Cortizo Pérez
  • 5. Ejemplo Documento 1: Pepe coge su coche por las mañanas Documento 2: Mañana veré a Pepe Documento 3: Me traen el coche mañana Consulta: Coche José Carlos Cortizo Pérez
  • 6. Ejemplo Normalizamos y Tokenizamos los Documentos Documento 1: Pepe; coger; coche; mañana Documento 2: Mañana; ver; Pepe Documento 3: Traen; coche; mañana Consulta: Coche José Carlos Cortizo Pérez
  • 7. Ejemplo Indizamos los Documentos Documento 1 Documento 2 Documento 3 Pepe 1 1 Coger 1 Coche 1 1 Mañana 1 1 1 Ver 1 Traer 1 Consulta: Coche José Carlos Cortizo Pérez
  • 8. Ejemplo Tokenizamos y Normalizamos la consulta Documento 1 Documento 2 Documento 3 Pepe 1 1 Coger 1 Coche 1 1 Mañana 1 1 1 Ver 1 Traer 1 Consulta: Coche José Carlos Cortizo Pérez
  • 9. Ejemplo Seleccionamos candidatos Documento 1 Documento 2 Documento 3 Pepe 1 1 Coger 1 Coche 1 1 Mañana 1 1 1 Ver 1 Traer 1 Consulta: Coche José Carlos Cortizo Pérez
  • 10. Ejemplo Representamos en forma de Vectores Representación: (Pepe, coger, coche, mañana, traer) Documento 1: (1, 1, 1, 1, 0) Documento 2: (0, 0, 1, 1, 1) Consulta: (0, 0, 1, 0, 0) José Carlos Cortizo Pérez
  • 11. Ejemplo Aplicamos MEV Representación: (Pepe, coger, coche, mañana, traer) Documento 1: 1·0 + 1·0 + 1·1 + 1·0 + 0·0 (1, 1, 1, 1, 0) cos(D1, C) = = 0.5 RC(4) · RC(1) Documento 2: 0·0 + 0·0 + 1·1 + 0·0 + 0·0 (0, 0, 1, 1, 1) cos(D1, C) = = 0.57 RC(3) · RC(1) Consulta: (0, 0, 1, 0, 0) José Carlos Cortizo Pérez
  • 12. Ejemplo Y obtenemos un ranking de resultados Resultados ordenados: Documento 2 Documento 1 José Carlos Cortizo Pérez
  • 13. ¿Alguna pregunta? José Carlos Cortizo Pérez
  • 14. Sistemas Inteligentes de Acceso a la Información Normalización y Tokenización
  • 15. Normalización y Tokenización ¿Qué? Tokenizar: Separar las palabras o elementos a indizar Normalizar: Estandarizar la forma de escribir algunas cosas. P.e. eliminar las tildes, cambiar de mayúsculas a minúsculas, etc. José Carlos Cortizo Pérez
  • 16. Normalización y Tokenización ¿Por qué? Tokenizar: Necesitamos tener unidades indizables para utilizarlas como base de nuestra representación. Pueden ser palabras, frases, n-gramas, etc. Normalizar: El lenguaje es muy flexible, y además es muy corriente cometer errores de algún tipo. La normalización nos provee una forma de “eliminar” estos problemas. José Carlos Cortizo Pérez
  • 17. Normalización y Tokenización ¿Cómo tokenizar? Forma simple: utilizar un Tokenizador que separe por caracteres clave (p.e. espacios, signos de puntuación, etc.) En java se haría con un String Tokenizer Si en lugar de palabras, queremos separar frases, la cosa es algo más compleja (dependiendo del tipo de frase) Análisis del lenguaje José Carlos Cortizo Pérez
  • 18. Normalización y Tokenización ¿Cómo normalizar? Por lo general aplicando reglas heurísticas P.e. Cambiar todas las vocales acentuadas por vocales sin acentuar Pasar las mayúsculas a minúsculas Eliminar “palabras vacías” José Carlos Cortizo Pérez
  • 19. Normalización y Tokenización Palabras vacías Las palabras muy frecuentes no aportan semántica Artículos, pronombres, conjunciones, etc. Las apariciones de las 10 palabras más frecuentes del inglés constituyen un 20/30% de un documento Se suelen incluir en una lista de parada Estas listas se obtienen a partir de un córpora representativo del idioma José Carlos Cortizo Pérez
  • 20. Normalización y Tokenización Normalización morfológica Múltiples palabras son variaciones morfológicas, con idéntico significado Los stemmers (extractores de raíces), normalizan a una forma canónica, p.e. analizar, análisis, analizador... => ‘anali’ Algoritmo de Porter, SnowBall José Carlos Cortizo Pérez
  • 21. Normalización y Tokenización Normalización “avanzada” En función del idioma, podemos aplicar reglas de normalización que permitan una mejor recuperación (p.e. tolerante a errores) P.e., para el Castellano Eliminar las ‘h’ Cambiar ‘v’ por ‘b’ Cambiar ‘ll’ por ‘y’ Esto aumenta el recall pero puede bajar la precisión José Carlos Cortizo Pérez
  • 22. ¿Alguna pregunta? José Carlos Cortizo Pérez
  • 23. Sistemas Inteligentes de Acceso a la Información Indexación
  • 24. Indexación Indexación Los índices son necesarios para poder realizar las consultas en tiempos aceptables Generan un “overhead” en cuánto a almacenamiento 2 tipos de índices importantes Directos Inversos José Carlos Cortizo Pérez
  • 25. Indexación Indice directo Pal1 Pal2 Pal3 Pal4 Doc1 1 1 0 0 Doc2 0 1 0 0 Doc3 1 0 1 0 Doc4 0 0 0 1 José Carlos Cortizo Pérez
  • 26. Indexación Indice inverso Doc1 Doc2 Doc3 Doc4 Pal1 1 1 0 0 Pal2 0 1 0 0 Pal3 1 0 1 0 Pal4 0 0 0 1 José Carlos Cortizo Pérez
  • 27. Indexación ¿Cuál es mejor? Cada uno tiene sus pros y sus contras Sin embargo, el inverso es muy eficiente en consulta (nos interesa más) El inverso es el que se suele implementar en la práctica (p.e. Google) José Carlos Cortizo Pérez
  • 28. ¿Alguna pregunta? José Carlos Cortizo Pérez
  • 29. Sistemas Inteligentes de Acceso a la Información Modelo del Espacio Vectorial
  • 30. Modelo del Espacio Vectorial Introducción Es un modelo más sofisticado que el Booleano Se basa en el álgebra vectorial La representación se realiza en base a vectores de pesos de términos José Carlos Cortizo Pérez
  • 31. Modelo del Espacio Vectorial Introducción Cálculo de similitud: el coseno de los vectores que forman el documento y la consulta José Carlos Cortizo Pérez
  • 32. Modelo del Espacio Vectorial Introducción José Carlos Cortizo Pérez
  • 33. ¿Alguna pregunta? José Carlos Cortizo Pérez
  • 34. Bibliografía Adicional Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier. Modern information retrieval. Addison-Wesley, 1999 (Z699.35 .I53 B34 Biblioteca UEM, edificio C). Raymond Mooney. Basic Tokenizing, Indexing and Implementation of Vector-Space Retrieval. Tema 3 de su curso en IR. http://www.cs.utexas.edu/~mooney/ir-course/slides/Evaluation.ppt José Carlos Cortizo Pérez
  • 35. ¿Alguna pregunta? José Carlos Cortizo Pérez