SlideShare una empresa de Scribd logo
1 de 8
I MiniBarCamp Caracas 2009

           ¿Web Crawling?


Buscando opciones para rastrear info en la web

       (Mi propio google search)
                 Iria Puyosa

                                      Iria Puyosa
Problema

Herramientas de búsqueda web producen:


       - Resultados incompletos

       - Datos des-estructurados
Problema
                       Investigación requiere:



 - Corpus exhaustivo (todos los documentos
           que se han producido)

- Estructuración de los resultados en una base
 de datos que responda a queries específicas
¿Solución?
               ¿Focused crawling?

            - URL semilla
         - Relevantes keywords
          (Vectores de términos)
       - Definición de la frontera
 - Clasificación basada en relevancia
     - Extracción de nuevas URLs
- Recuperación y almacenaje de datos
               - Indización
¿Soluciones?

¿Sugerencias?

¿Propuestas?
Estructuración
         de base de datos indizados
         - Definición de atributos
  - Datasets Entrenamiento / Validación
              - Clasificación
- Generación de algoritmo para clustering
                - Modelos

Más contenido relacionado

Similar a Web Crawling

Motores de Busqueda
Motores de BusquedaMotores de Busqueda
Motores de Busqueda
sktbrd.93
 
Motores de Busqueda
Motores de BusquedaMotores de Busqueda
Motores de Busqueda
sktbrd.93
 
Motores de Busqueda
Motores de BusquedaMotores de Busqueda
Motores de Busqueda
sktbrd.93
 
Curso cei 341 base de datos sql nivel intermedio
Curso cei 341   base de datos sql nivel intermedioCurso cei 341   base de datos sql nivel intermedio
Curso cei 341 base de datos sql nivel intermedio
Procasecapacita
 
Gestión básica de la información
Gestión básica de la informaciónGestión básica de la información
Gestión básica de la información
lufesibo1991
 
U.3 buscadores y metabuscadores
U.3 buscadores y metabuscadoresU.3 buscadores y metabuscadores
U.3 buscadores y metabuscadores
bibliotecaicesi
 
Busqueda de informacion en la internet
Busqueda de informacion en la internetBusqueda de informacion en la internet
Busqueda de informacion en la internet
Yosebeth Hernandez
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internet
Cristianbike_
 

Similar a Web Crawling (20)

(27.05) MOSSCA Invita - Búsqueda empresarial 1
(27.05) MOSSCA Invita - Búsqueda empresarial 1(27.05) MOSSCA Invita - Búsqueda empresarial 1
(27.05) MOSSCA Invita - Búsqueda empresarial 1
 
Aplicando Azure Search en Sistemas Hibridos
Aplicando Azure Search en Sistemas HibridosAplicando Azure Search en Sistemas Hibridos
Aplicando Azure Search en Sistemas Hibridos
 
Herramientas de búsqueda en internet
Herramientas de búsqueda en internetHerramientas de búsqueda en internet
Herramientas de búsqueda en internet
 
Silabo taller de base de datos
Silabo   taller de base de datosSilabo   taller de base de datos
Silabo taller de base de datos
 
Motores de Busqueda
Motores de BusquedaMotores de Busqueda
Motores de Busqueda
 
Motores de Busqueda
Motores de BusquedaMotores de Busqueda
Motores de Busqueda
 
Motores de Busqueda
Motores de BusquedaMotores de Busqueda
Motores de Busqueda
 
Analisis seo
Analisis seoAnalisis seo
Analisis seo
 
Presentacion002
Presentacion002Presentacion002
Presentacion002
 
Metodos de busquedad
Metodos de busquedadMetodos de busquedad
Metodos de busquedad
 
Motores de busqueda
Motores de busquedaMotores de busqueda
Motores de busqueda
 
Curso cei 341 base de datos sql nivel intermedio
Curso cei 341   base de datos sql nivel intermedioCurso cei 341   base de datos sql nivel intermedio
Curso cei 341 base de datos sql nivel intermedio
 
Arquitectura información para usuarios (UX) y buscadores (SEO)
Arquitectura información para usuarios (UX) y buscadores (SEO)Arquitectura información para usuarios (UX) y buscadores (SEO)
Arquitectura información para usuarios (UX) y buscadores (SEO)
 
Motores de busqueda sueiro
Motores de busqueda sueiroMotores de busqueda sueiro
Motores de busqueda sueiro
 
Gestión básica de la información
Gestión básica de la informaciónGestión básica de la información
Gestión básica de la información
 
Analisis seo
Analisis seoAnalisis seo
Analisis seo
 
U.3 buscadores y metabuscadores
U.3 buscadores y metabuscadoresU.3 buscadores y metabuscadores
U.3 buscadores y metabuscadores
 
Busqueda de informacion en la internet
Busqueda de informacion en la internetBusqueda de informacion en la internet
Busqueda de informacion en la internet
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internet
 
Búsqueda Empresarial en SharePoint 2013 - Iberian SharePoint Conference - Jos...
Búsqueda Empresarial en SharePoint 2013 - Iberian SharePoint Conference - Jos...Búsqueda Empresarial en SharePoint 2013 - Iberian SharePoint Conference - Jos...
Búsqueda Empresarial en SharePoint 2013 - Iberian SharePoint Conference - Jos...
 

Más de Iria Puyosa

Los relatos en la web social: Memoria social, opiniones, sentimientos y comun...
Los relatos en la web social: Memoria social, opiniones, sentimientos y comun...Los relatos en la web social: Memoria social, opiniones, sentimientos y comun...
Los relatos en la web social: Memoria social, opiniones, sentimientos y comun...
Iria Puyosa
 
In vecom2013accesoinfoelectoral
In vecom2013accesoinfoelectoralIn vecom2013accesoinfoelectoral
In vecom2013accesoinfoelectoral
Iria Puyosa
 

Más de Iria Puyosa (20)

Desnacionalizados & Ex-patriados: Cuerpos sufrientes
Desnacionalizados & Ex-patriados: Cuerpos sufrientesDesnacionalizados & Ex-patriados: Cuerpos sufrientes
Desnacionalizados & Ex-patriados: Cuerpos sufrientes
 
News frames pueblos sarayaku y shuar en los medios ecuatorianos
News frames   pueblos sarayaku y shuar en los medios ecuatorianosNews frames   pueblos sarayaku y shuar en los medios ecuatorianos
News frames pueblos sarayaku y shuar en los medios ecuatorianos
 
4 regímenes políticos
4 regímenes políticos                4 regímenes políticos
4 regímenes políticos
 
Ciclo de protestas 2017: Movilización y resistencia cívica bajo un régimen a...
Ciclo de protestas 2017: Movilización y resistencia cívica  bajo un régimen a...Ciclo de protestas 2017: Movilización y resistencia cívica  bajo un régimen a...
Ciclo de protestas 2017: Movilización y resistencia cívica bajo un régimen a...
 
Fractura de la esfera pública, hegemonía y control comunicacional
Fractura de la esfera pública, hegemonía y control comunicacionalFractura de la esfera pública, hegemonía y control comunicacional
Fractura de la esfera pública, hegemonía y control comunicacional
 
Desinformación, propaganda y contrapropaganda
Desinformación, propaganda y contrapropagandaDesinformación, propaganda y contrapropaganda
Desinformación, propaganda y contrapropaganda
 
Los “medios golpistas" y la legitimación discursiva de la hegemonía comunicac...
Los “medios golpistas" y la legitimación discursiva de la hegemonía comunicac...Los “medios golpistas" y la legitimación discursiva de la hegemonía comunicac...
Los “medios golpistas" y la legitimación discursiva de la hegemonía comunicac...
 
Audiencias de la web en Ecuador
Audiencias de la web en EcuadorAudiencias de la web en Ecuador
Audiencias de la web en Ecuador
 
El contagio de ideas políticas, la identidad colectiva y los movimientos soci...
El contagio de ideas políticas, la identidad colectiva y los movimientos soci...El contagio de ideas políticas, la identidad colectiva y los movimientos soci...
El contagio de ideas políticas, la identidad colectiva y los movimientos soci...
 
Los relatos en la web social: Memoria social, opiniones, sentimientos y comun...
Los relatos en la web social: Memoria social, opiniones, sentimientos y comun...Los relatos en la web social: Memoria social, opiniones, sentimientos y comun...
Los relatos en la web social: Memoria social, opiniones, sentimientos y comun...
 
Penetración, acceso y uso de internet en Ecuador
Penetración, acceso y uso de internet en Ecuador Penetración, acceso y uso de internet en Ecuador
Penetración, acceso y uso de internet en Ecuador
 
Internet timeoutnologo
Internet timeoutnologoInternet timeoutnologo
Internet timeoutnologo
 
Una oportunidad para hacer industrias creativas.
Una oportunidad para hacer industrias creativas.Una oportunidad para hacer industrias creativas.
Una oportunidad para hacer industrias creativas.
 
Red personalfb tutorial
Red personalfb tutorialRed personalfb tutorial
Red personalfb tutorial
 
In vecom2013accesoinfoelectoral
In vecom2013accesoinfoelectoralIn vecom2013accesoinfoelectoral
In vecom2013accesoinfoelectoral
 
Comunidades Aprendizaje Redes Sociales
Comunidades Aprendizaje Redes SocialesComunidades Aprendizaje Redes Sociales
Comunidades Aprendizaje Redes Sociales
 
¿Los periodistas entran en la conversación?
¿Los periodistas entran en la conversación?¿Los periodistas entran en la conversación?
¿Los periodistas entran en la conversación?
 
Uso de la Web Social para Organizaciones de Desarrollo Social
Uso de la Web Social para Organizaciones de Desarrollo SocialUso de la Web Social para Organizaciones de Desarrollo Social
Uso de la Web Social para Organizaciones de Desarrollo Social
 
Assessing the Impact of Academic Preparation, Finances and Social Ca...
Assessing the Impact  of Academic Preparation, Finances         and Social Ca...Assessing the Impact  of Academic Preparation, Finances         and Social Ca...
Assessing the Impact of Academic Preparation, Finances and Social Ca...
 
Choice Models
Choice ModelsChoice Models
Choice Models
 

Último

redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
nicho110
 

Último (10)

Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos Basicos
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXI
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptx
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 

Web Crawling

  • 1. I MiniBarCamp Caracas 2009 ¿Web Crawling? Buscando opciones para rastrear info en la web (Mi propio google search) Iria Puyosa Iria Puyosa
  • 2.
  • 3.
  • 4. Problema Herramientas de búsqueda web producen: - Resultados incompletos - Datos des-estructurados
  • 5. Problema Investigación requiere: - Corpus exhaustivo (todos los documentos que se han producido) - Estructuración de los resultados en una base de datos que responda a queries específicas
  • 6. ¿Solución? ¿Focused crawling? - URL semilla - Relevantes keywords (Vectores de términos) - Definición de la frontera - Clasificación basada en relevancia - Extracción de nuevas URLs - Recuperación y almacenaje de datos - Indización
  • 8. Estructuración de base de datos indizados - Definición de atributos - Datasets Entrenamiento / Validación - Clasificación - Generación de algoritmo para clustering - Modelos