文章詳情頁

python - 爬蟲內容保存成文本文件編碼問題

瀏覽：118日期：2022-06-29 09:03:36

問題描述

測試一個非常簡單的爬蟲，把一個非常簡約風格的網頁的文本內容保存到本地的電腦上。最后出現錯誤：

UnicodeEncodeErrorTraceback (most recent call last)<ipython-input-35-ead5570b2e15> in <module>() 7 filename=str(i)+’.txt’ 8 with open(filename,’w’)as f:----> 9 f.write(content) 10 print(’當前小說第{}章已經下載完成’.format(i)) 11 f.close()UnicodeEncodeError: ’gbk’ codec can’t encode character ’xa0’ in position 7: illegal multibyte sequence

代碼如下：

In [1]: import requestsIn [2]: from bs4 import BeautifulSoupIn [3]: re=requests.get(’http://www.qu.la/book/168/’)In [4]: html=re.textIn [5]: soup=BeautifulSoup(html,’html.parser’)In [6]: list=soup.find(id='list')In [9]: link_list=list.find_all(’a’)In [14]: mylist=[] ...: for link in link_list: ...: mylist.append(’http://www.qu.la’+link.get(’href’)) ...: ...:#遍歷每個鏈接，下載文本內容到本地文本文件i=0 ...: for url in mylist1: ...: re1=requests.get(url) ...: html2=re1.text ...: soup=BeautifulSoup(html2,'html.parser') ...: content=soup.find(id='content').text.replace(’chaptererror();’, ’’) ...: filename=str(i)+’.txt’ ...: with open(filename,’w’)as f: ...: f.write(content) ...: print(’當前小說第{}章已經下載完成’.format(i)) ...: f.close() ...: i=i+1

問題解答

回答1：

f.write(content.encode(’utf-8’))

或者

import codecswith codecs.open(filename, ’w’, ’utf-8’) as f: f.write(content)

Python 編程

上一條：python3 PyQt5 多線程報錯，QObject: Cannot下一條：python - 使用pyinstaller 可以添加指定的模塊嗎？

相關文章：

1. 數組按鍵值封裝！2. docker不顯示端口映射呢？3. java - 阿里的開發手冊中為什么禁用map來作為查詢的接受類?4. java - 無法執行該操作，因為鏈接服務器 "***" 的 OLE DB 訪問接口 "SQLNCLI" 無法啟動分布式事務。解決方法？5. 主題切換問題，用過別人的webapp在后臺切換模板主題后手機端打開網頁就是切換到的主題了6. javascript - 為什么創建多行多列的表格最后只有一行內有表格7. javascript - 使用vue官方腳手架進行單元測試，如何覆蓋到watch里的變量？8. clone - git sourceTree克隆倉庫時,都不停彈出Password Required彈窗,即時輸入正確的git賬號密碼還是彈出9. javascript - webpack中alias配置中的“@”是什么意思？10. html5 - 使用echarts中的圖表一個頁面導入了好幾個js圖表實現echarts圖表隨著瀏覽器窗口變化而變化時出現了問題

排行榜

					
					數組按鍵值封裝！
docker不顯示端口映射呢？
java - 阿里的開發手冊中為什么禁用map來作為查詢的接受類?
Docker for Mac 創建的dnsmasq容器連不上/不工作的問題
angular.js - 如何用gulp打包ionic應用，項目JS腳本是使用 require.js 來組織的
angular.js - 請問ng-click="alterCheck()"和ng-click="check=true"有什么不同？
node.js - node啟動本地服務失效但是瀏覽器卻能打開localhost的原因是什么
clone - git sourceTree克隆倉庫時,都不停彈出Password Required彈窗,即時輸入正確的git賬號密碼還是彈出
html5 - 使用echarts中的圖表  一個頁面導入了好幾個js圖表  實現echarts圖表隨著瀏覽器窗口變化而變化時出現了問題
java - 無法執行該操作，因為鏈接服務器 "***" 的 OLE DB 訪問接口 "SQLNCLI" 無法啟動分布式事務。解決方法？
求大神指點js修改margintop導致無限下滑的問題
				

熱門標簽

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

python - 爬蟲內容保存成文本文件 編碼問題

python - 爬蟲內容保存成文本文件編碼問題