文章詳情頁(yè)

Python爬蟲(chóng)的亂碼問(wèn)題？

瀏覽：101日期：2022-07-30 16:40:27

問(wèn)題描述

使用python實(shí)現(xiàn)模擬登陸并爬取返回頁(yè)面的時(shí)候出現(xiàn)了亂碼，目標(biāo)網(wǎng)頁(yè)的編碼使用utf-8 Python爬蟲(chóng)的亂碼問(wèn)題？

相關(guān)代碼：

#coding=utf-8import urllibimport urllib2headers={ ’Accept’:’text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8’, ’Accept-Encoding’:’gzip, deflate’, ’Accept-Language’:’zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3’, ’Connection’:’keep-alive’, ’User-Agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.73 Safari/537.36’}payload={ ’_eventId’:’submit’, ’lt’:’_cF2A0EB3F-D044-046C-6F4A-C828DE0ACE8E_k8B4BE5F5-4CAD-375D-0DDC-FB84A18445DF’, ’password’:’’, ’submit’:’登錄’, ’username’:’’}payload=urllib.urlencode(payload)request = urllib2.Request(posturl, payload, headers)print requestresponse = urllib2.urlopen(request)text = response.read()print text

控制臺(tái)輸出信息： Python爬蟲(chóng)的亂碼問(wèn)題？

第一次遇見(jiàn)這種亂碼比較懵逼

問(wèn)題解答

回答1：

urllib2沒(méi)有處理壓縮的問(wèn)題，你要使用gzip解壓，比如這樣

from StringIO import StringIOimport gzipif response.info().get(’Content-Encoding’) == ’gzip’: buf = StringIO(text) f = gzip.GzipFile(fileobj=buf) data = f.read()

總結(jié)urllib2比較底層，建議使用requests

Python 編程

上一條：http - python requests上傳文件問(wèn)題下一條：elasticsearch - 在python函數(shù)執(zhí)行過(guò)程中，如何判斷并處理其中一條語(yǔ)句的返回值？

相關(guān)文章：

1. docker - 如何修改運(yùn)行中容器的配置2. 關(guān)于docker下的nginx壓力測(cè)試3. 為什么我ping不通我的docker容器呢？？？4. nignx - docker內(nèi)nginx 80端口被占用5. Span標(biāo)簽6. redis啟動(dòng)有問(wèn)題？7. angular.js - webpack build后的angularjs路由跳轉(zhuǎn)問(wèn)題8. SessionNotFoundException：會(huì)話ID為null。調(diào)用quit（）后使用WebDriver嗎？（硒）9. java - Spring MVC無(wú)法識(shí)別Controller導(dǎo)致返回的結(jié)果是404？10. java - Collections類(lèi)里的swap函數(shù)，源碼為什么要新定義一個(gè)final的List型變量l指向傳入的list？

排行榜

					
					關(guān)于docker下的nginx壓力測(cè)試
為什么我ping不通我的docker容器呢？？？
docker - 如何修改運(yùn)行中容器的配置
nignx - docker內(nèi)nginx 80端口被占用
Span標(biāo)簽
docker-machine添加一個(gè)已有的docker主機(jī)問(wèn)題
javascript - ng-options 設(shè)置默認(rèn)選項(xiàng)，不是設(shè)置第一個(gè)哦，看清楚了！
android新手一枚，android使用httclient獲取服務(wù)器端數(shù)據(jù)失敗，但是用java工程運(yùn)行就可以成功獲取。
javascript - 計(jì)算面積函數(shù)代碼
SessionNotFoundException：會(huì)話ID為null。調(diào)用quit（）后使用WebDriver嗎？（硒）
java - Collections類(lèi)里的swap函數(shù)，源碼為什么要新定義一個(gè)final的List型變量l指向傳入的list？
				

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

Python爬蟲(chóng)的亂碼問(wèn)題？