爬虫必备(7)- 网络请求利器requests库

在先前的文章中，我们深入讲解了Python标准库（Standard Library）`urllib`通讯库的实际运用。`urllib`作为Python编程语言的重大组成部分之一，其主要职责在于支持 HTTP 和 FTP 等主流网络协议，并内置多样化的函数及功能，旨在有效便捷地检索各类网页数据以及实现基础性的网络爬虫任务等。本文，则将向您介绍一个更为广泛应用且便利的通讯库——`requests`。

`requests`系一款简洁易用、功能完善的HTTP库，基于`urllib`开发，以轻量级的方式表现HTTP处理能力。在继承其丰富功能特性的基础上，还呈现出更具人性化、用户友善的API接口设计，进而大幅度提升了使用者对该通讯库的接受度与满意度，使得在实践运用过程中能够得心应手。已经成为Python实际上的通讯请求库。

requests图标

requests 是一个三方库，因此在使用之前需要提前安装。

pip install requests

GET 请求

GET 作为 HTTP 通讯中最为常见的请求方式，我们优先来看一下如何使用 requests 来完成一个 GET 请求。

此处案例依然使用 httpbin 的接口来测试

爬虫必备(7)- 网络请求利器requests库

httpbin网站

import requests as req

res = req.get("https://httpbin.org/get")

if res.status_code == 200:
    print(res.text)
else:
    print(f"Error: {res.status_code}")

# {
#   "args": {}, 
#   "headers": {
#     "Accept": "*/*", 
#     "Accept-Encoding": "gzip, deflate", 
#     "Host": "httpbin.org", 
#     "User-Agent": "python-requests/2.31.0", 
#     "X-Amzn-Trace-Id": "Root=1-65981de0-38498b4b13dce608142e59cb"
#   }, 
#   "origin": "110.176.23.189", 
#   "url": "https://httpbin.org/get"
# }

可以看到，使用 requests 可以超级方便的发起一个 GET 请求，而且语义更加明确，相较于 urllib 中的 urlopen 更为方便。

POST 请求

requests 发起 post 同样超级简单，方便，如下方代码：

import requests as req

res = req.post("https://httpbin.org/post", data={"name": "John", "age": 30})
print(res.status_code)

# 200

可以看到，通过 post 方法，并直接指定 data 传递参数就可以发起 post 请求。

响应处理

requests 在获取响应数据时同样超级方便，返回的结果被封装到了 response 对象中，并通过 text 和 content 属性即可获取到数据，另外还可以获取到状态码，响应头，Cookies 等数据。

import requests as req

res = req.get("https://httpbin.org/get")

if res.status_code == 200:
    print("响应码：", res.status_code)
    print("响应头：", res.headers)
    print("Cookies：", res.cookies)
    print("响应内容：", res.text)
    print("url：", res.url)
    print("请求历史：", res.history)

# 响应码： 200
# 响应头： {'Date': 'Sun, 07 Jan 2024 09:15:29 GMT', 'Content-Type': 'application/json', 'Content-Length': '308', 'Connection': 'keep-alive', 'Server': 'gunicorn/19.9.0', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Credentials': 'true'}
# Cookies： <RequestsCookieJar[]>
# 响应内容： {
#   "args": {}, 
#   "headers": {
#     "Accept": "*/*", 
#     "Accept-Encoding": "gzip, deflate", 
#     "Host": "httpbin.org", 
#     "User-Agent": "python-requests/2.31.0", 
#     "X-Amzn-Trace-Id": "Root=1-659a6bb1-18aed04963d8a8e02865f827"
#   }, 
#   "origin": "110.176.23.189", 
#   "url": "https://httpbin.org/get"
# }

# url： https://httpbin.org/get
# 请求历史： []

如上边的代码，通讯响应成功后，就会获取到 response 对象，通过status_code 可以获取到响应码，我们一般会通过响应码来判断此次通讯是否成功，来继续后续的操作。requests 中有 codes 类封装了所有的状态码，如下图：

爬虫必备(7)- 网络请求利器requests库

requests中状态码

因此还可以使用如下表明来判断通信的状态。

res.status_code == req.codes.ok

response 还可以通过其他属性来获取相关内容，如下：

headers: 读取响应头信息，其中包含了服务器返回的各种元数据，如：Conntent-Type 等。

url：请求的 url

content：响应的内容，一般是字符串或字节数组（二进制文件）

encoding：响应编码格式

elapsed：请求和响应的时间差，单位为秒

history：请求历史记录，如果有值则是一个列表，包含了请求的 URL，状态码和头信息等内容

response 中还提供额外的方法来获取更多的内容，如下：

json()：将相应内容解析为 Python 对象，这是一个超级有用的方法，对于 Ajax 方法获取的 json 字符串就不需要手动做转换了。

text()：将响应内容作为字符串返回，此方法可以直接获取文本数据。

content()：获取响应内容的二进制数据，一般用来获取影音，图片等。

raise_for_status()：一般用来检查通讯是否成功，由于此方法在状态码不是 200 的时候会抛出一个异常。

close()：关闭响应对象，释放相关资源。

到这里你可能会问，像 text，content 两个既有属性，又有方法，那到底该用哪个？

response.text 属性会自动将响应的内容解码为字符串，所以再使用的时候就不需要手动处理编解码的问题，可以直接使用。相对的 text()方法会将响应的内容解码为字节数组，然后再转为字符串，所以在解码之前对响应内容进行一些额外的处理（列如编解码）。

response.content 属性是一个只读属性，返回响应内容的二进制数据，所以在使用的时候可以直接访问原始的二进制数据，无需手动解码。而 content()方法是一个可读写的方法，虽然也是返回的二进制内容，但是与属性不同的是，调用 content()方法时，requests 会先讲相应内容解码为字节数组，再将其转换为二进制数据，因此在解码之前可以对响应内容做一些额外的处理。

请求参数设置

requests 中设置请求参数同样超级简单，而且支持高级的功能设置，本文简单介绍一下 get 和 post 如何设置请求参数。

# get请求设置query参数和header
requests.get("https://httpbin.org/get", 
             params={"name": "John", "age": 30}, 
             headers={"User-Agent": "Mozilla/5.0"})

# post请求设置query参数和header
requests.post("https://httpbin.org/post", 
              data={"name": "John", "age": 30}, 
              headers={"User-Agent": "Mozilla/5.0"})