环境:win7、pycharm、python2

所用到的库:urllib2

注意:python2 不同于python3 在python2中要注意编码问题(爬取网页会涉及到中文要写:#coding:utf-8)

#coding:utf-8
print "hello" #中国 python2中要注意编码问题,头部要加coding=utf-8

读取网页第一种方式:

import urllib2
def down1(url):
    return  urllib2.urlopen(url).read()#读取全部网页
url = "https://www.baidu"
print down1(url)

利用urllib2中的urlopen方法打开url 并用read()读取全部网页

运行如下:

读取网页第二种方式:

import urllib2
def down2(url):
    return urllib2.urlopen(url).readlines()#读取每一行数据,压入到列表
url="https://www.baidu"
print down2(url)

readlines():读取网页中的每一行数据,并且压入列表中。

读取网页第三种方式:

import urllib2
def down3(url):
    response =urllib2.urlopen(url)#将网页抽象为文件
    while True:
        line = response.readlines()#读取文件中的每一行
        if not line: #如果读不到数据就要退出
            break
        print line #打印读到的一行数据
 url = "https://www.baidu"
 print down2(url)

以上内容若有错误或用词不当,请留言指正,谢谢。


更多推荐

python读取网页三种基本方式