Web crawler.    Cuándo, cómo y por qué
  http://www.javamexico.org http://www.javahispano.org http://www.riahispano.org  
Web crawler.Cuándo, cómo y por qué <ul><li>- Qué </li></ul><ul><li>Definición: </li></ul><ul><li>A Web crawler is a comput...
Web crawler.Cuándo, cómo y por qué <ul><li>Diagrama: </li></ul><ul><li>http://en.wikipedia.org/wiki/File:WebCrawlerArchite...
Web crawler.Cuándo, cómo y por qué <ul><li>-Cuándo </li></ul><ul><ul><li>RSS </li></ul></ul>
Web crawler.Cuándo, cómo y por qué <ul><li>-Cuándo </li></ul><ul><ul><li>  PIPES (yahoo) </li></ul></ul>
Web crawler.Cuándo, cómo y por qué <ul><li>-Cuándo </li></ul><ul><ul><li>  API </li></ul></ul><ul><ul><ul><li>http://www.p...
Web crawler.Cuándo, cómo y por qué <ul><ul><ul><li>http://www.programmableweb.com/ </li></ul></ul></ul>
Web crawler.Cuándo, cómo y por qué <ul><li>-Cuándo </li></ul><ul><li>¿Y si no hay? </li></ul>
Web crawler.Cuándo, cómo y por qué <ul><li>-Cómo </li></ul><ul><ul><li>Lenguaje de programación que permita: </li></ul></u...
Web crawler.Cuándo, cómo y por qué <ul><li>-Cómo: </li></ul>
Web crawler.Cuándo, cómo y por qué <ul><li>-Cómo: </li></ul><ul><li>EJEMPLOS </li></ul>
Web crawler.Cuándo, cómo y por qué <ul><li>-Cómo: </li></ul><ul><ul><ul><li>No decíamos que: ¿Y ya?   </li></ul></ul></ul>...
Web crawler.Cuándo, cómo y por qué <ul><li>-Por qué </li></ul><ul><ul><li>Utilizar </li></ul></ul><ul><ul><li>Difundir </l...
Web crawler.Cuándo, cómo y por qué <ul><li>- Por qué </li></ul><ul><li>OPEN DATA </li></ul><ul><li>Apertura de datos públi...
Web crawler.Cuándo, cómo y por qué <ul><li>- Por qué </li></ul><ul><li>  </li></ul><ul><li>  </li></ul><ul><li>  </li></ul...
Web crawler.Cuándo, cómo y por qué <ul><li>-¿Ejemplos? </li></ul><ul><ul><li>Extender funcionalidad. </li></ul></ul><ul><u...
Web crawler.Cuándo, cómo y por qué <ul><li>-¿Ejemplos concretos? </li></ul><ul><ul><li>Páginas de sus amigos. </li></ul></...
Web crawler.Cuándo, cómo y por qué <ul><li>-¿Ejemplos concretos? </li></ul><ul><li>EJERCICIO </li></ul>
Web crawler.Cuándo, cómo y por qué <ul><li>¿Preguntas? </li></ul>
Web crawler.Cuándo, cómo y por qué <ul><li>http://www.springio.net/ </li></ul>
Web crawler.Cuándo, cómo y por qué <ul><li>Referencias:   </li></ul><ul><li>  </li></ul><ul><li>Build a Web spider on Linu...
Web crawler.Cuándo, cómo y por qué <ul><li>RuGI </li></ul><ul><li>Isaac Ruiz Guerra </li></ul><ul><li>[email_address] </li...
Próxima SlideShare
Cargando en…5
×

Web crawler

2.317 visualizaciones

Publicado el

Presentación para C4XPO 2010.
http://c4xpo.com/
10:am
Jueves 27 de Mayo del 2010.
Queretaro, Queretaro.
México

TEMA:
Web crawler.Cuándo, cómo y por qué.

Publicado en: Educación
0 comentarios
2 recomendaciones
Estadísticas
Notas
  • Sé el primero en comentar

Sin descargas
Visualizaciones
Visualizaciones totales
2.317
En SlideShare
0
De insertados
0
Número de insertados
66
Acciones
Compartido
0
Descargas
22
Comentarios
0
Recomendaciones
2
Insertados 0
No insertados

No hay notas en la diapositiva.

Web crawler

  1. 1.     Web crawler.    Cuándo, cómo y por qué
  2. 2.   http://www.javamexico.org http://www.javahispano.org http://www.riahispano.org  
  3. 3. Web crawler.Cuándo, cómo y por qué <ul><li>- Qué </li></ul><ul><li>Definición: </li></ul><ul><li>A Web crawler is a computer program that browses the World Wide Web in a methodical, automated manner or in an orderly fashion.  </li></ul><ul><li>http://en.wikipedia.org/wiki/Web_crawler </li></ul>
  4. 4. Web crawler.Cuándo, cómo y por qué <ul><li>Diagrama: </li></ul><ul><li>http://en.wikipedia.org/wiki/File:WebCrawlerArchitecture.svg </li></ul>
  5. 5. Web crawler.Cuándo, cómo y por qué <ul><li>-Cuándo </li></ul><ul><ul><li>RSS </li></ul></ul>
  6. 6. Web crawler.Cuándo, cómo y por qué <ul><li>-Cuándo </li></ul><ul><ul><li>  PIPES (yahoo) </li></ul></ul>
  7. 7. Web crawler.Cuándo, cómo y por qué <ul><li>-Cuándo </li></ul><ul><ul><li>  API </li></ul></ul><ul><ul><ul><li>http://www.programmableweb.com/ </li></ul></ul></ul>
  8. 8. Web crawler.Cuándo, cómo y por qué <ul><ul><ul><li>http://www.programmableweb.com/ </li></ul></ul></ul>
  9. 9. Web crawler.Cuándo, cómo y por qué <ul><li>-Cuándo </li></ul><ul><li>¿Y si no hay? </li></ul>
  10. 10. Web crawler.Cuándo, cómo y por qué <ul><li>-Cómo </li></ul><ul><ul><li>Lenguaje de programación que permita: </li></ul></ul><ul><ul><ul><li>  Hacer un request a una página </li></ul></ul></ul><ul><ul><ul><li>  Manejar cadenas de texto </li></ul></ul></ul><ul><ul><ul><li>!!!Y ya¡¡¡ </li></ul></ul></ul>
  11. 11. Web crawler.Cuándo, cómo y por qué <ul><li>-Cómo: </li></ul>
  12. 12. Web crawler.Cuándo, cómo y por qué <ul><li>-Cómo: </li></ul><ul><li>EJEMPLOS </li></ul>
  13. 13. Web crawler.Cuándo, cómo y por qué <ul><li>-Cómo: </li></ul><ul><ul><ul><li>No decíamos que: ¿Y ya?   </li></ul></ul></ul><ul><ul><ul><ul><li>mmm, ok, sí... pero sólo para empezar. </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Aparecerán obstáculos: </li></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Falta de seguimiento estandares </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>CSS vs <table> </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Restricciones de acceso. </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Cambios en la estructura </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>TAB vs BS </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Desaparición de páginas </li></ul></ul></ul></ul></ul><ul><ul><ul><ul><ul><li>Censura ( aka ¡¡¡complot!!! ) </li></ul></ul></ul></ul></ul>
  14. 14. Web crawler.Cuándo, cómo y por qué <ul><li>-Por qué </li></ul><ul><ul><li>Utilizar </li></ul></ul><ul><ul><li>Difundir </li></ul></ul><ul><ul><li>Promover </li></ul></ul><ul><ul><li>Facilitar </li></ul></ul><ul><li>  </li></ul><ul><li>  Lo que ya existe </li></ul>
  15. 15. Web crawler.Cuándo, cómo y por qué <ul><li>- Por qué </li></ul><ul><li>OPEN DATA </li></ul><ul><li>Apertura de datos públicos </li></ul><ul><li>Sun Light Foundation </li></ul><ul><li>http://sunlightfoundation.com/ </li></ul><ul><li>Open Data </li></ul><ul><li>http://www.opendatacommons.org/ </li></ul><ul><li>Open Data Euskadi. </li></ul><ul><li>http://opendata.euskadi.net/w79-home/es </li></ul>
  16. 16. Web crawler.Cuándo, cómo y por qué <ul><li>- Por qué </li></ul><ul><li>  </li></ul><ul><li>  </li></ul><ul><li>  </li></ul><ul><li>¡¡¡ Hay que hacer cosas YA !!! </li></ul>
  17. 17. Web crawler.Cuándo, cómo y por qué <ul><li>-¿Ejemplos? </li></ul><ul><ul><li>Extender funcionalidad. </li></ul></ul><ul><ul><li>Corregir funcionalidad. </li></ul></ul><ul><ul><li>Transformar la información. </li></ul></ul>
  18. 18. Web crawler.Cuándo, cómo y por qué <ul><li>-¿Ejemplos concretos? </li></ul><ul><ul><li>Páginas de sus amigos. </li></ul></ul><ul><ul><li>Horarios del cine. </li></ul></ul><ul><ul><li>Horarios de camiones. </li></ul></ul><ul><ul><li>Información de su escuela. </li></ul></ul><ul><ul><li>Información de su Gobierno. </li></ul></ul><ul><ul><li>Información del &quot; Mundo Mundial &quot; </li></ul></ul><ul><li>Máxima :  </li></ul><ul><li>Poner la información al alcance de todos </li></ul><ul><li>de la manera más accesible posible. </li></ul><ul><li>(procurando no cometer delitos) </li></ul>
  19. 19. Web crawler.Cuándo, cómo y por qué <ul><li>-¿Ejemplos concretos? </li></ul><ul><li>EJERCICIO </li></ul>
  20. 20. Web crawler.Cuándo, cómo y por qué <ul><li>¿Preguntas? </li></ul>
  21. 21. Web crawler.Cuándo, cómo y por qué <ul><li>http://www.springio.net/ </li></ul>
  22. 22. Web crawler.Cuándo, cómo y por qué <ul><li>Referencias: </li></ul><ul><li>  </li></ul><ul><li>Build a Web spider on Linux </li></ul><ul><li>http://www.ibm.com/developerworks/linux/library/l-spider/ </li></ul><ul><li>Hack Politics </li></ul><ul><li>http://vimeo.com/8446771 </li></ul><ul><li>  </li></ul><ul><li>Introduction to Information retrieval. </li></ul><ul><li>http://nlp.stanford.edu/IR-book/information-retrieval-book.html </li></ul>
  23. 23. Web crawler.Cuándo, cómo y por qué <ul><li>RuGI </li></ul><ul><li>Isaac Ruiz Guerra </li></ul><ul><li>[email_address] </li></ul><ul><li>@rugi </li></ul><ul><li>http:// weblogs.javahispano.org/rugi </li></ul>

×