🍥

0neStep's Blog

一步、一步两步..

python爬虫requests获取网页乱码

AI 摘要

文章详细解释了乱码现象通常是由于字符编码不匹配造成的，即 requests 库未能正确识别网页的真实编码。为了解决这一难题，文中提供了多种实用的方法。主要策略包括手动设置 response.encoding 为正确的编码类型（如 ‘utf-8’ 或 ‘gbk’），以及利用 response.apparent_encoding 进行自动识别。此外，文章还介绍了如何处理 response.content（原始字节流）进行更精确的解码。对于遇到爬虫乱码问题的开发者来说，这是一份非常有价值的指南。

起因

获取网页我是这样做的。

	r = requests.get(url,verify=False)
	print r.text.encode('utf-8')

乱码图片

处理

打印处理的内容: 用浏览器去访问网页，查看编码方式确实是utf-8

随后去百度一些解决问题： 这里写图片描述

结论

有问题多百度，多查资料

参考

segmentfault