av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

您的位置:首頁技術文章
文章詳情頁

網頁爬蟲 - Python爬蟲如何正確判斷頁面是否可以爬取?

瀏覽:127日期:2022-09-03 13:50:21

問題描述

用Python27些爬蟲,想要爬取一些網站,我需要判斷網頁是否可以爬取,第一反應是通過狀態(tài)碼來判斷,但是寫完運行后發(fā)現有許多目標網站訪問它不存在的頁面時會返回一個404錯誤頁面,可他的狀態(tài)碼卻是200,結果爬回來好多根本就不存在的頁面。這個本來是網站設置的問題,但是現在也不能用狀態(tài)碼來判斷了,請問還有什么方法可以正確判斷一個頁面是不是404該不該爬?

問題解答

回答1:

首先, 200 狀態(tài)碼,是網絡連接狀態(tài), 所以你只判斷200并不能滿足所有網站。

其次, 寫爬蟲嘛, 你應該實際去看看這些網站的規(guī)則是什么,可以先人工判斷下, 找找規(guī)律, 比如看看網頁返回內容是不是有什么特點之類的。

回答2:

做個網頁內容的判斷,如果他網頁里面沒有內容就直接返回。

回答3:

就算是頁面狀態(tài)碼200,返回的404頁面,應該和正常能爬取的頁面html有不同的html元素吧,根據有沒有特定的html元素來判斷是不是404頁面也行的

標簽: Python 編程
相關文章:
主站蜘蛛池模板: 在线观看黄色电影 | 亚洲区一区二 | 久久亚洲一区二区三区四区 | 欧美综合一区二区 | 久久福利电影 | 一级毛片在线播放 | 国产精品视频免费看 | 丁香色婷婷| 久久高清| 国产日韩精品视频 | 久久不卡 | 欧美日韩一区二区在线观看 | 伊人性伊人情综合网 | 亚洲精品视频一区二区三区 | 一二三区在线 | 日韩久久久久 | 一区二区在线观看av | 久久99精品久久久 | 操久久| 一区二区三区国产视频 | 国产一区二区三区久久久久久久久 | 成人在线免费视频 | 亚洲欧美中文日韩在线v日本 | 国产精品污www一区二区三区 | 337p日本欧洲亚洲大胆精蜜臀 | 国产一区中文字幕 | 国产91色在线 | 亚洲 | 精品免费国产 | 日韩免费高清视频 | 81精品国产乱码久久久久久 | 国产午夜精品一区二区三区嫩草 | se婷婷| 在线中文字幕第一页 | av一级久久 | 成人精品福利 | 精品一区二区三区91 | 免费视频一区 | 一区二区不卡 | 国产99免费视频 | 欧美一区二区三区视频 | 日韩精品免费视频 |