起因
获取网页我是这样做的。
r = requests.get(url,verify=False)
print r.text.encode('utf-8')
处理
打印处理的内容: 用浏览器去访问网页,查看编码方式确实是utf-8
随后去百度一些解决问题:
结论
有问题多百度,多查资料
requests 库未能正确识别网页的真实编码。为了解决这一难题,文中提供了多种实用的方法。主要策略包括手动设置 response.encoding 为正确的编码类型(如 ‘utf-8’ 或 ‘gbk’),以及利用 response.apparent_encoding 进行自动识别。此外,文章还介绍了如何处理 response.content(原始字节流)进行更精确的解码。对于遇到爬虫乱码问题的开发者来说,这是一份非常有价值的指南。
获取网页我是这样做的。
r = requests.get(url,verify=False)
print r.text.encode('utf-8')
打印处理的内容: 用浏览器去访问网页,查看编码方式确实是utf-8
随后去百度一些解决问题:
有问题多百度,多查资料