python读取网页三种基本方式

环境：win7、pycharm、python2

所用到的库：urllib2

注意：python2 不同于python3 在python2中要注意编码问题（爬取网页会涉及到中文要写：#coding:utf-8）

#coding:utf-8
print "hello" #中国 python2中要注意编码问题，头部要加coding=utf-8

读取网页第一种方式：

import urllib2
def down1(url):
    return  urllib2.urlopen(url).read()#读取全部网页
url = "https://www.baidu"
print down1(url)

利用urllib2中的urlopen方法打开url 并用read()读取全部网页

运行如下：

读取网页第二种方式：

import urllib2
def down2(url):
    return urllib2.urlopen(url).readlines()#读取每一行数据,压入到列表
url="https://www.baidu"
print down2(url)

readlines()：读取网页中的每一行数据，并且压入列表中。

读取网页第三种方式：

import urllib2
def down3(url):
    response =urllib2.urlopen(url)#将网页抽象为文件
    while True:
        line = response.readlines()#读取文件中的每一行
        if not line: #如果读不到数据就要退出
            break
        print line #打印读到的一行数据
 url = "https://www.baidu"
 print down2(url)

以上内容若有错误或用词不当，请留言指正，谢谢。

更多推荐

python读取网页三种基本方式