闲来无事,利用python写了个爬虫,爬取煎蛋的美眉。不要问我为什么不爬取淘宝的,大家都是男人,煎蛋上面的美眉质量普遍比其他地方高啊有木有?说正经的,也算是对爬虫一些基本的库的一个总结吧。一如既往,我依然没做封装,下面贴上代码:
#-*- coding:utf-8 -*-
import urllib2
import urllib
import re
import time
import os
for page in range(1951,1962): #获取1951-1962页
url='http://jandan/ooxx/page-'+str(page)
req=urllib2.Request(url)
response=urllib2.urlopen(req)
html=response.read()
#获取图片链接
pattern=repile(' <div class="text"><span class="righttext"><a href=".*?">(.*?)</a></span><p><a href="(.*?)" target="_blank" class="view_img_link">.*?</p>',re.S)
items=re.findall(pattern,html)
#创建保存路径
dirpath='C:\\Users\\yumi\\Desktop\\JianDan\\'+str(page)
if not os.path.exists(dirpath):
filepath=os.makedirs(dirpath)
for item in items:
print item[0],item[1]
try:
u = urllib2.urlopen(item[1],timeout=10) #获取图片
data = u.read()
fileName=dirpath+'\\'+str(item[0])+'.jpg'
f=open(fileName,'wb')
f.write(data)
f.close()
except: #抛出异常就放弃该图片,获取下一张
pass
finally:
time.sleep(1) #控制爬取速度
time.sleep(2)
更多推荐
python爬取煎蛋美眉
发布评论