文章詳情頁

網頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬取？

瀏覽：127日期：2022-09-03 13:50:21

問題描述

用Python27些爬蟲，想要爬取一些網站，我需要判斷網頁是否可以爬取，第一反應是通過狀態(tài)碼來判斷，但是寫完運行后發(fā)現有許多目標網站訪問它不存在的頁面時會返回一個404錯誤頁面，可他的狀態(tài)碼卻是200，結果爬回來好多根本就不存在的頁面。這個本來是網站設置的問題，但是現在也不能用狀態(tài)碼來判斷了，請問還有什么方法可以正確判斷一個頁面是不是404該不該爬？

問題解答

回答1：

首先， 200 狀態(tài)碼，是網絡連接狀態(tài)，所以你只判斷200并不能滿足所有網站。

其次，寫爬蟲嘛，你應該實際去看看這些網站的規(guī)則是什么，可以先人工判斷下，找找規(guī)律，比如看看網頁返回內容是不是有什么特點之類的。

回答2：

做個網頁內容的判斷，如果他網頁里面沒有內容就直接返回。

回答3：

就算是頁面狀態(tài)碼200，返回的404頁面，應該和正常能爬取的頁面html有不同的html元素吧，根據有沒有特定的html元素來判斷是不是404頁面也行的

Python 編程

上一條：python - Flask內如何跳轉至其他頁面。下一條：Python做掃描，發(fā)包速度實在是太慢了，有優(yōu)化的方案嗎？

相關文章：

1. docker網絡端口映射，沒有方便點的操作方法么？2. css - chrome下a標簽嵌套img 顯示會多個小箭頭?3. vim - docker中新的ubuntu12.04鏡像,運行vi提示,找不到命名.4. javascript - 網頁打印頁另存為pdf的代碼一個問題5. java中返回一個對象，和輸出對像的值，意義在哪兒6. mysql - 在不允許改動數據表的情況下，如何優(yōu)化以varchar格式存儲的時間的比較？7. css3 - 純css實現點擊特效8. javascript - 關于apply（）與call（）的問題9. javascript - 有適合開發(fā)手機端Html5網頁小游戲的前端框架嗎？10. docker start -a dockername 老是卡住，什么情況？

排行榜

					
					docker網絡端口映射，沒有方便點的操作方法么？
vim - docker中新的ubuntu12.04鏡像,運行vi提示,找不到命名.
java中返回一個對象，和輸出對像的值，意義在哪兒
javascript - 網頁打印頁另存為pdf的代碼一個問題
css - chrome下a標簽嵌套img 顯示會多個小箭頭?
mysql - 在不允許改動數據表的情況下，如何優(yōu)化以varchar格式存儲的時間的比較？
docker - 各位電腦上有多少個容器啊？容器一多，自己都搞混了，咋辦呢？
docker start -a dockername 老是卡住，什么情況？
javascript - 有適合開發(fā)手機端Html5網頁小游戲的前端框架嗎？
css3 - 純css實現點擊特效
javascript - 關于apply（）與call（）的問題
				

熱門標簽

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

網頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬取？