获取网页源代码

学习目标：学会获取网页文本内容。

之前的学习中，我们学会了请求网页，并且学会了如何确定用post还是get。但是我们只能得到一个<Response [200]>，而不可以得到其他信息。今天我们来学习两个简单的方法，使我们可以得到网页的源代码。

一、 Test

我们先来看一个实例：

import requests

r=requests.get(url="https://www.Python").text

print(r)

运行它以后，我们可以看到很多的html代码，至于什么是 html，我们后面会讲。我们这里拿了Python官网做实例，但是如果你请求的网页中有中文的内容，你也不可能看到一个中国字，而是变成了很多的乱码，这就是常见的乱码现象，我们只需要改变一下编码就可以了。

我们在第2行下面加上这样一个语句：

r.encoding="utf-8"

这个语句可以用于设定编码，在这里我们设定成了utf-8，这是一个常见的编码，一般网页都会用到它。

二、Content

我们把代码改成这样：

import requests

r=requests.get(url="https://www.Python").\

content.decode("utf-8")

print(r)

Content表示要用文本的内容显示， Decode则是设置编码，这也是一种很好的办法。

观察仔细的人可能会发现一个问题，就是网页的内容有可能只有一点点，而根据估计网页的内容不肯定不是这些，服务器可只可能给了你一点点，这个问题我们下次再解决。

更多推荐

获取网页源代码