python-xpath獲取html文檔的部分內(nèi)容
有些時(shí)候我在們需要的用正則提取出html中某一個(gè)部分的文字內(nèi)容,如圖:
獲取dd部分的html文檔,我們要通過(guò)它的一個(gè)屬性去確定他的位置才可以拿到他這個(gè)部分我們可以看到他的這個(gè)屬性class=’row clearfix ’,然后用xpath去獲取到這部分:
name = tree.xpath('//dd[@class=’row clearfix ’]')from lxml import htmlimport requestsurl = ’http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD’res = requests.get(url)tree = html.fromstring(res.text)name = tree.xpath('//dd[@class=’row clearfix ’]')print(name)
如果直接打印他是不能夠出來(lái)的,
我們需要對(duì)Element進(jìn)行處理,用到name1 = html.tostring(name[0]),代碼如下:
from lxml import htmlimport requestsurl = ’http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD’res = requests.get(url)tree = html.fromstring(res.text)name = tree.xpath('//dd[@class=’row clearfix ’]')name1 = html.tostring(name[0])print(name1)
打印截圖:
但是大家可以看到里面的等內(nèi)容并不是中文,原因是我們使用tostring方法輸出的是修正后的HTML代碼,但是結(jié)果是bytes類型,在python中bytes類型是不可以進(jìn)行編碼的,需要轉(zhuǎn)換成字符串,使用代碼name1.decode(),此時(shí)我們將bytes類型轉(zhuǎn)換為str(字符串)類型。
那么此時(shí)我們關(guān)鍵是如何將$#26080;此類的符號(hào)轉(zhuǎn)換成漢字?。?!那么首先要搞清楚這是什么編碼?這類符號(hào)是HTML、XML 等 SGML 類語(yǔ)言的轉(zhuǎn)義序列。它們不是”編碼“,也就是說(shuō)我們不能使用utf-8、gbk等編碼進(jìn)行處理,需要使用HTMLParse進(jìn)行處理,完整代碼如下:
from lxml import htmlimport requestsfrom html.parser import HTMLParser #導(dǎo)入html解析庫(kù)url = ’http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD’res = requests.get(url)tree = html.fromstring(res.text)name = tree.xpath('//dd[@class=’row clearfix ’]')name1 = html.tostring(name[0])name2 = HTMLParser().unescape(name1.decode())print(name2)
此時(shí)運(yùn)行結(jié)果如下:
那么此時(shí)就已經(jīng)大功告成了?。。?/p>
以上這篇python-xpath獲取html文檔的部分內(nèi)容就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持好吧啦網(wǎng)。
相關(guān)文章:
1. JSP+Servlet實(shí)現(xiàn)文件上傳到服務(wù)器功能2. PHP循環(huán)與分支知識(shí)點(diǎn)梳理3. jsp EL表達(dá)式詳解4. 利用FastReport傳遞圖片參數(shù)在報(bào)表上展示簽名信息的實(shí)現(xiàn)方法5. Ajax請(qǐng)求超時(shí)與網(wǎng)絡(luò)異常處理圖文詳解6. jsp cookie+session實(shí)現(xiàn)簡(jiǎn)易自動(dòng)登錄7. jsp實(shí)現(xiàn)textarea中的文字保存換行空格存到數(shù)據(jù)庫(kù)的方法8. JavaWeb Servlet中url-pattern的使用9. JSP之表單提交get和post的區(qū)別詳解及實(shí)例10. chat.asp聊天程序的編寫(xiě)方法
