文章詳情頁

python lxml解析中文的問題

瀏覽：84日期：2022-07-26 18:49:01

問題描述

使用lxml來抓取中文字符,抓到的結果很蛋疼,不知道怎么處理...

comUrl='http://m.51job.com/search/codetail.php?coid=4108723'res=requests.get(comUrl)html=etree.HTML(res.text)p=html.xpath('//aside')[1].xpath('./p') #結果為[<Element p at 0x7bf01c8>, <Element p at 0x78f4408>, <Element p at 0x69db388>]p[0].xpath('./span/text()') #這個是想要抓取的字符

結果抓到的是這樣的 [u’xe6x80xa7xe8xb4xa8’]unicode但是內容是str的編碼,請問怎么把這個東西轉成中文?正常應該是’xe6x80xa7xe8xb4xa8’或者u’u6027u8d28’

問題解答

回答1：

’’.join(map(lambda x:chr(x), map(lambda x:ord(x), u’xe6x80xa7xe8xb4xa8’))).decode(’utf-8’)回答2：

出現這種情況，一般是requests猜錯了網頁的編碼了因此指定requests的編碼就可以了.res.encoding =’utf-8’

In [33]: comUrl='http://m.51job.com/search/codetail.php?coid=4108723' ...: res=requests.get(comUrl) ...: res.encoding =’utf-8’ ...: html=etree.HTML(res.text) ...: p=html.xpath('//aside')[1].xpath('./p') #結果為[<Element p at 0x7b ...: f01c8>, <Element p at 0x78f4408>, <Element p at 0x69db388>] ...: p[0].xpath('./span/text()') #這個是想要抓取的字符 ...: Out[33]: [u’u6027u8d28’]In [34]: print _[0]性質

Python 編程

上一條：python - flask sqlalchemy migrate 如何忽略已存在的表或字段下一條：使用python的wmi進行遠程連接的時候報錯

相關文章：

1. 數組按鍵值封裝！2. python3.x - git bash如何運行.bat文件？3. docker不顯示端口映射呢？4. Docker for Mac 創建的dnsmasq容器連不上/不工作的問題5. python - flask _sqlalchemy 能否用中文作為索引條件6. java - 阿里的開發手冊中為什么禁用map來作為查詢的接受類?7. javascript - 為什么創建多行多列的表格最后只有一行內有表格8. javascript - ES6規范下 repeat 函數報錯 Invalid count value9. javascript - webpack中alias配置中的“@”是什么意思？10. html5 - 使用echarts中的圖表一個頁面導入了好幾個js圖表實現echarts圖表隨著瀏覽器窗口變化而變化時出現了問題

排行榜

					
					數組按鍵值封裝！
Docker for Mac 創建的dnsmasq容器連不上/不工作的問題
docker不顯示端口映射呢？
java - 阿里的開發手冊中為什么禁用map來作為查詢的接受類?
python3.x - git bash如何運行.bat文件？
python - flask _sqlalchemy 能否用中文作為索引條件
docker安裝后出現Cannot connect to the Docker daemon.
angular.js - 如何用gulp打包ionic應用，項目JS腳本是使用 require.js 來組織的
angular.js - 請問ng-click="alterCheck()"和ng-click="check=true"有什么不同？
clone - git sourceTree克隆倉庫時,都不停彈出Password Required彈窗,即時輸入正確的git賬號密碼還是彈出
html5 - 使用echarts中的圖表  一個頁面導入了好幾個js圖表  實現echarts圖表隨著瀏覽器窗口變化而變化時出現了問題
				

熱門標簽

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

python lxml解析中文的問題