Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Construindo um Google Pyrate

Explain how build a crawler for Google Results Page.

  • Sé el primero en comentar

Construindo um Google Pyrate

  1. 1. Construindo um Google Pyrate P y l a d i e s
  2. 2. 2
  3. 3. 3 Web Crawler ● Spider, robôs ● Usados para navegar na internet buscando as paginas e lendo seu conteudo. ● Usados principalmente pelos motores de busca. ● GoogleBot, Yahoo Slurp,DuckDuckBot...
  4. 4. 4
  5. 5. 5 Bibliotecas em Python ● PySpider ● Scrapy ● Pyquery ● lxml (pyguide)
  6. 6. 6 import request ● Para humanos ● urllib2
  7. 7. 7 import lxml ● Processamento de XML e HTML ● Seletor xpath
  8. 8. 8 Seletores ● Xpath ● CSS Selectors
  9. 9. 9 I/O ● sys.argv ● print()
  10. 10. 10 Como construir meu Google Pyrate Pegar o que a usuária digitou e chamar a url do Google resposta = requisicao.get('http://google.com/search') Extrair da resposta os resultados. lxml ….aqui a mágica acontece... resultados_dict = {'titulo': resultados.text, 'url': resultados.href} Exibir os resultados no terminal print ('Titulo: ' + resultados_dict['titulo'] + ' | url: ' + resultados_dict
  11. 11. 11
  12. 12. 12 The End ● O que poder ser feito a mais: ● Verificar o status code ● Colocar mais resultados ● Permitir que o usuário customize a busca ● Criar sua própria página de resultados ● Fazer busca dentro de um site especifico. Não em toda a web. ● A idéia é aprender! Faça seu projeto.
  13. 13. Obrigada! Roselma Mendes rmendes@thoughtworks.com github.com/roselmamendes

    Sé el primero en comentar

    Inicia sesión para ver los comentarios

  • matheusdevsign

    Apr. 27, 2016

Explain how build a crawler for Google Results Page.

Vistas

Total de vistas

332

En Slideshare

0

De embebidos

0

Número de embebidos

15

Acciones

Descargas

12

Compartidos

0

Comentarios

0

Me gusta

1

×