优秀的编程知识分享平台

网站首页 > 技术文章 正文

Python网络爬虫:Requests库:get函数使用方法

nanyue 2024-11-06 11:17:10 技术文章 2 ℃

Requests库的七个主要方法:

r = requests.get(url) :

构造一个向服务器请求资源的Request对象(Request),并且get方法返回一个包含服务器资源的Response对象;

requests.get函数的完整参数如下:

requests.get(url, params = None, **kwargs)

url: 拟获取页面的url链接

params: url中额外参数,字典或字节流格式,可选

**kwargs: 12个 访问的参数

Requests库的2个重要的对象 RequestResponse对象(Response对象包含爬虫返回的所有内容)

>>> import requests #导入requests库
>>> r = requests.get("http://www.baidu.com") 
>>> print(r.status_code) #检测请求的状态码,200表示请求成功
200
>>> type(r)
<class 'requests.models.Response'>
>>> r.headers

Response对象的属性:

Response对象的处理流程如下图示:

理解Response的编码:

r.encoding:如果header中不存在charset,则认为编码为'ISO-8859-1'

r.apparent_encoding: 根据网页内容分析出的编码方式

需求:获取京东页面数据

import requests
resp=requests.get('http:www.jd.com/')
print(resp)

requests模块如何处理携带参数的get请求,返回携带参数的请求:

需求:指定一个词条,获取搜狗搜索结果所对应的页面数据

之前urllib模块处理url上参数有中文的需要处理编码,requests会自动处理url编码

发起带参数的get请求

params可以是传字典或者列表

def get(url, params=None, **kwargs):
  r"""Sends a GET request.
  :param url: URL for the new :class:`Request` object.
  :param params: (optional) Dictionary, list of tuples or bytes to send
    in the body of the :class:`Request`.
  :param \*\*kwargs: Optional arguments that ``request`` takes.
  :return: :class:`Response <Response>` object
  :rtype: requests.Response
import requests
# 指定url
url = 'https://www.sogou.com/web'
# 封装get请求参数
prams = {
  'query':'周杰伦',
  'ie':'utf-8'
}
response = requests.get(url=url,params=prams)
page_text = response.text
with open("周杰伦.html","w",encoding="utf-8") as f:
  f.write(page_text)
  f.close()
print("ok")

利用requests模块自定义请求头信息,并且发起带参数的get请求

get方法有个headers参数 把请求头信息的字典赋给headers参数

import requests
# 指定url
url = 'https://www.sogou.com/web'
# 封装get请求参数
prams = {
  'query':'周杰伦',
  'ie':'utf-8'
}
# 自定义请求头信息
headers={
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
  }
response = requests.get(url=url,params=prams,headers=headers)
page_text = response.text
with open("周杰伦.html","w",encoding="utf-8") as f:
  f.write(page_text)
  f.close()
print("ok")
最近发表
标签列表