学习目标:学会获取网页文本内容。
之前的学习中,我们学会了请求网页,并且学会了如何确定用post还是get。但是我们只能得到一个<Response [200]>,而不可以得到其他信息。今天我们来学习两个简单的方法,使我们可以得到网页的源代码。
一、 Test
我们先来看一个实例:
import requests
r=requests.get(url="https://www.Python").text
print(r)
运行它以后,我们可以看到很多的html代码,至于什么是 html,我们后面会讲。我们这里拿了Python官网做实例,但是如果你请求的网页中有中文的内容,你也不可能看到一个中国字,而是变成了很多的乱码,这就是常见的乱码现象,我们只需要改变一下编码就可以了。
我们在第2行下面加上这样一个语句:
r.encoding="utf-8"
这个语句可以用于设定编码,在这里我们设定成了utf-8,这是一个常见的编码,一般网页都会用到它。
二、Content
我们把代码改成这样:
import requests
r=requests.get(url="https://www.Python").\
content.decode("utf-8")
print(r)
Content表示要用文本的内容显示, Decode则是设置编码,这也是一种很好的办法。
观察仔细的人可能会发现一个问题,就是网页的内容有可能只有一点点,而根据估计网页的内容不肯定不是这些,服务器可只可能给了你一点点,这个问题我们下次再解决。
更多推荐
获取网页源代码
发布评论