学习目标:学会获取网页文本内容。


    之前的学习中,我们学会了请求网页,并且学会了如何确定用post还是get。但是我们只能得到一个<Response [200]>,而不可以得到其他信息。今天我们来学习两个简单的方法,使我们可以得到网页的源代码。

一、 Test

    我们先来看一个实例:

import requests

r=requests.get(url="https://www.Python").text

print(r)

运行它以后,我们可以看到很多的html代码,至于什么是 html,我们后面会讲。我们这里拿了Python官网做实例,但是如果你请求的网页中有中文的内容,你也不可能看到一个中国字,而是变成了很多的乱码,这就是常见的乱码现象,我们只需要改变一下编码就可以了。

    我们在第2行下面加上这样一个语句:

r.encoding="utf-8"

这个语句可以用于设定编码,在这里我们设定成了utf-8,这是一个常见的编码,一般网页都会用到它。

二、Content

    我们把代码改成这样:

import requests

r=requests.get(url="https://www.Python").\

    content.decode("utf-8")

print(r)

Content表示要用文本的内容显示, Decode则是设置编码,这也是一种很好的办法。

    观察仔细的人可能会发现一个问题,就是网页的内容有可能只有一点点,而根据估计网页的内容不肯定不是这些,服务器可只可能给了你一点点,这个问题我们下次再解决。

 

更多推荐

获取网页源代码