python - ulipad爬網(wǎng)頁時中文為何是16進制?
問題描述
#! /usr/bin/env python#coding=utf-8import urlliburl = 'http://www.tust.edu.cn'content = urllib.urlopen(url).read()print content
python初學者,也是編程初學者。上面是代碼,用python2.7編譯的時候網(wǎng)頁上的中文可以正常顯示,但是用ulipad編譯的時候,網(wǎng)頁中的文字就是以16進制的方式顯示的。請問這個是什么問題?
我搜索的時候,看到有的回答說是在代碼后面加上encode
然而我在content后面接encode(’utf-8’)或者encode(’gb2312’)的時候都會提示報錯
ascii codec can’t decode byte 0Xef in position 0:ordinal not in range
我查了一下,找到了下面這個網(wǎng)址
http://blog.csdn.net/qian_f/a...
好像是說是字符編碼不統(tǒng)一的問題。緊接著我查了一下read返回的好像就是byte string呀....
求各位大神解答...
問題解答
回答1:個人理解,應該是read()默認的編碼無法解析網(wǎng)頁內(nèi)容,查下資料,嘗試在read的括號內(nèi)指定編碼,應該沒有必要用encode的
回答2:unicode.encode(content,’utf-8’);
相關文章:
1. java - 部署web項目時無法省略項目名?2. mysql 5個left關鍵 然后再用搜索條件 幾千條數(shù)據(jù)就會卡,如何解決呢3. python - [已解決]flask QQ郵箱mail4. javascript - position fixed;設置了height 100 卻不是瀏覽器可視窗口的寬高,求大神釋疑。5. mysql - 在不允許改動數(shù)據(jù)表的情況下,如何優(yōu)化以varchar格式存儲的時間的比較?6. javascript - vue-cli proxyTable怎么配置7. 主題切換問題,用過別人的webapp在后臺切換模板主題后手機端打開網(wǎng)頁就是切換到的主題了8. python3.x - git bash如何運行.bat文件?9. html - eclipse 標簽錯誤10. java - 如何寫一個intellij-idea插件,實現(xiàn)編譯時修改源代碼的目的
