环境:win7、pycharm、python2
所用到的库:urllib2
注意:python2 不同于python3 在python2中要注意编码问题(爬取网页会涉及到中文要写:#coding:utf-8)
#coding:utf-8
print "hello" #中国 python2中要注意编码问题,头部要加coding=utf-8
读取网页第一种方式:
import urllib2
def down1(url):
return urllib2.urlopen(url).read()#读取全部网页
url = "https://www.baidu"
print down1(url)
利用urllib2中的urlopen方法打开url 并用read()读取全部网页
运行如下:
读取网页第二种方式:
import urllib2
def down2(url):
return urllib2.urlopen(url).readlines()#读取每一行数据,压入到列表
url="https://www.baidu"
print down2(url)
readlines():读取网页中的每一行数据,并且压入列表中。
读取网页第三种方式:
import urllib2
def down3(url):
response =urllib2.urlopen(url)#将网页抽象为文件
while True:
line = response.readlines()#读取文件中的每一行
if not line: #如果读不到数据就要退出
break
print line #打印读到的一行数据
url = "https://www.baidu"
print down2(url)
以上内容若有错误或用词不当,请留言指正,谢谢。
更多推荐
python读取网页三种基本方式
发布评论