文章詳情頁

python - scrapy 爬取pages比實際進入items的多得多？

瀏覽：95日期：2022-07-23 10:55:26

2017-05-12 23:39:52 [scrapy.extensions.logstats] INFO:Crawled 3000 pages (at 61 pages/min), scraped 454 items (at 10 items/min)

為什么我使用scrapy爬取的時候訪問pages要比實際進入items的的多的多?就是爬了半天items里沒有幾條數據入庫的有什么辦法解決么？

問題解答

回答1：

重定向了，你看到了吧，重定向就得請求兩個頁面啊。還有就是看有不有頁面解析發生了錯誤。

Python 編程

上一條：算法 - python ahocorasick 從本地文件讀取文本，進行關鍵字匹配，匹配失敗下一條：運行python程序時出現“應用程序發生異常”的內存錯誤？

相關文章：

1. javascript - JS中如何實現 DIV內部和鼠標的距離2. 谷歌訪問助手安裝不了3. Python中使用超長的List導致內存占用過大4. javascript - 怎么獲取一個頁面中的所數據，然后弄成一個json格式的字符串傳給后臺5. 文本處理 - 求教使用python庫提取pdf的方法？6. javascript - dropload+tab頁面，圖文頁滾動有兩個滾動區域怎么破？7. python - 如何用pandas處理分鐘數據變成小時線？8. 雙擊安裝程序，安裝不了9. html5 - 百度echart官網下載的地圖json數據亂碼10. pdo - mysql 簡單注入疑問

排行榜

					
					java中Enumeration與Enum兩個接口沒什么區別呀？
pdo - mysql 簡單注入疑問
java - android 有沒有離線版的sdk文檔 不用聯網就可以本地查找的，提高查閱文檔的速度？
docker容器呢SSH為什么連不通呢？
docker綁定了nginx端口 外部訪問不到
css - input中transition 設置background-color過渡，chrome瀏覽器頁面初始化渲染會有過度效果
javascript - webpack打包css 導致頁面加載樣式慢 FOUC
html - css氣泡，實現“倒三角（不知道算不算三角了）”可透明的。
Java。如何在第n個空格上分割多個空格的字符串？
javascript - 表單ajax提交后跳轉,手機按返回又進入這個表單頁了!!
javascript - jquery怎么給select option一個點擊時觸發的事件,如圖 如果選擇自定義觸發一個時間？
				

熱門標簽

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

python - scrapy 爬取pages比實際進入items的多得多？