I MiniBarCamp Caracas 2009

           ¿Web Crawling?


Buscando opciones para rastrear info en la web

       (Mi propio google search)
                 Iria Puyosa

                                      Iria Puyosa
Problema

Herramientas de búsqueda web producen:


       - Resultados incompletos

       - Datos des-estructurados
Problema
                       Investigación requiere:



 - Corpus exhaustivo (todos los documentos
           que se han producido)

- Estructuración de los resultados en una base
 de datos que responda a queries específicas
¿Solución?
               ¿Focused crawling?

            - URL semilla
         - Relevantes keywords
          (Vectores de términos)
       - Definición de la frontera
 - Clasificación basada en relevancia
     - Extracción de nuevas URLs
- Recuperación y almacenaje de datos
               - Indización
¿Soluciones?

¿Sugerencias?

¿Propuestas?
Estructuración
         de base de datos indizados
         - Definición de atributos
  - Datasets Entrenamiento / Validación
              - Clasificación
- Generación de algoritmo para clustering
                - Modelos

Web Crawling

  • 1.
    I MiniBarCamp Caracas2009 ¿Web Crawling? Buscando opciones para rastrear info en la web (Mi propio google search) Iria Puyosa Iria Puyosa
  • 4.
    Problema Herramientas de búsquedaweb producen: - Resultados incompletos - Datos des-estructurados
  • 5.
    Problema Investigación requiere: - Corpus exhaustivo (todos los documentos que se han producido) - Estructuración de los resultados en una base de datos que responda a queries específicas
  • 6.
    ¿Solución? ¿Focused crawling? - URL semilla - Relevantes keywords (Vectores de términos) - Definición de la frontera - Clasificación basada en relevancia - Extracción de nuevas URLs - Recuperación y almacenaje de datos - Indización
  • 7.
  • 8.
    Estructuración de base de datos indizados - Definición de atributos - Datasets Entrenamiento / Validación - Clasificación - Generación de algoritmo para clustering - Modelos