Más contenido relacionado Más de Kazufumi Ohkawa (20) エンジョイ☆スクレイピング3. 自己紹介
• kzfm (@fmkz___)
– blog.kzfmix.com
– Shizuoka.py
• とある製薬企業の研究員
• 日本酒とdrum n bass好き
• Python歴は6年くらい
– (その前はPerl)
• よく使うのはFlask, Pandas
– 最近DjangoかRoRに移ろうかなと
8. 例
• Naverまとめからひ
たすら富士山の画像
を集める
import
re
import
requests
c
=
requests.get('h3p://
matome.naver.jp/odai/
2134560784352051501').content
print(''.join([x.group(0)
for
x
in
re.finditer(r'<img
src=".+".*?
class="MTMItemThumb".*?/>',
c)]))
参考: h3p://d.hatena.ne.jp/heavenshell/20121214/1355499643
12. コード(一部)
from
mechanize
import
Browser
from
pyquery
import
PyQuery
as
pq
br
=
Browser()
br.set_handle_robots(False)
br.addheaders
=
[('User-‐agent',
'Mozilla/5.0
(X11;
U;
Linux
i686;
en-‐US;
rv:1.9.0.1)
Gecko/2008071615
Fedora/3.0.1-‐1.fc9
Firefox/3.0.1')]
br.open(amazon_url)
br.select_form(name="sign_in")
br["email"]
=
email
br["password"]
=
password
response
=
br.submit()
d
=
pq(response.get_data())
data.text
for
data
in
d('div').filter('.data’)
17. seleniumを使う
from
selenium
import
webdriver
import
ime
driver
=
webdriver.PhantomJS()
driver.get("h3ps://www.google.co.jp/webhp?hl=ja&tab
=ww&authuser=0#authuser=0&hl=ja&q=python")
print
driver.current_url
ime.sleep(2)
driver.save_screenshot("screen_shot130918.png")
driver.quit()