python - pythoh3 下 ’<abc>’ 遇到這樣的html轉義符如何自動轉義呢?
問題描述
初學python,在使用scray 爬蟲時,遇到html的特殊字符,于是百度搜看了下文檔:
import HTMLParser html_parser = HTMLParser.HTMLParser() s = ’&l t;abc&g t;&nbs p;’ #避免網頁轉義留了個空格s = html_parser.unescape(s)
運行時提示:import markupbaseImportError: No module named ’markupbase’
借助翻譯軟件,看HTMLParser官方文檔找了第二種方法
from html.parser import HTMLParser
class MyHTMLParser(HTMLParser):
def handle_data(self, data): print(data) return data
parser = MyHTMLParser()s = ’&l t;abc&g t;&nbs p;’ #避免網頁轉義留了個空格ss=parser.feed(s)
第二種方法測試成功,遇到的問題是,return data 這一句,返回數據是無效的?
請問,有沒有就幾句代碼解決轉義的,如果沒有第二種方法里如何才有返回值?
問題解答
回答1:from html.parser import HTMLParserhtml_parser = HTMLParser()s = ’<abc> ’txt = html_parser.unescape(s)print(txt)# 結果:<abc>
相關文章:
1. java - 阿里的開發手冊中為什么禁用map來作為查詢的接受類?2. 數組按鍵值封裝!3. docker不顯示端口映射呢?4. python3.x - git bash如何運行.bat文件?5. Docker for Mac 創建的dnsmasq容器連不上/不工作的問題6. python - flask _sqlalchemy 能否用中文作為索引條件7. 主題切換問題,用過別人的webapp在后臺切換模板主題后手機端打開網頁就是切換到的主題了8. javascript - ES6規范下 repeat 函數報錯 Invalid count value9. clone - git sourceTree克隆倉庫時,都不停彈出Password Required彈窗,即時輸入正確的git賬號密碼還是彈出10. html5 - 使用echarts中的圖表 一個頁面導入了好幾個js圖表 實現echarts圖表隨著瀏覽器窗口變化而變化時出現了問題
