文章詳情頁(yè)

python爬蟲(chóng)調(diào)度器用法及實(shí)例代碼

瀏覽：2日期：2022-07-03 16:26:17

我們一般使用爬蟲(chóng)看到的都是最后的數(shù)據(jù)結(jié)果，對(duì)于整個(gè)的獲取過(guò)程沒(méi)有過(guò)多了解過(guò)。對(duì)于初學(xué)python的小伙伴們來(lái)說(shuō)，不光是代碼的練習(xí)，還是原理的分析都是必不可少的。

小編把整個(gè)爬取的過(guò)程分為了幾個(gè)部分，從一開(kāi)始的下載，到數(shù)據(jù)的去重解析，再到整個(gè)爬蟲(chóng)循環(huán)的結(jié)束，以圖片和代碼的雙重形式展現(xiàn)給大家，希望能夠?qū)ε老x(chóng)調(diào)度器有一個(gè)深刻的理解。

我們可以編寫(xiě)幾個(gè)元件，每個(gè)元件完成一項(xiàng)功能，下圖中的藍(lán)底白字就是對(duì)這一流程的抽象：

UrlManager：將存儲(chǔ)和獲取url以及url去重的幾個(gè)步驟在url管理器中完成（當(dāng)然也可以針對(duì)每一步分別編寫(xiě)相應(yīng)的函數(shù)，但是這樣更直觀）。url管理器要有兩個(gè)url倉(cāng)庫(kù)，一個(gè)存儲(chǔ)未爬取的url，一個(gè)存儲(chǔ)已爬取的url，除了倉(cāng)庫(kù)之外，還應(yīng)該具有一些完成特定功能的函數(shù)，如存儲(chǔ)url、url去重、從倉(cāng)庫(kù)中挑選并返回一個(gè)url等 HtmlDownloader：將下載網(wǎng)頁(yè)內(nèi)容的功能在HTML下載器中完成，下載器的功能較為單一，不多解釋。但從整個(gè)爬蟲(chóng)的角度上來(lái)說(shuō)，下載器是爬蟲(chóng)的核心，在實(shí)際操作的過(guò)程中，下載器要和目標(biāo)網(wǎng)站的各種反爬蟲(chóng)手段斗智斗勇（各種表單、隱藏字段和假鏈接、驗(yàn)證碼、IP限制等等），這也是最耗費(fèi)大腦的步驟 HtmlParser：解析提取數(shù)據(jù)的功能在HTML解析器中完成，解析器內(nèi)的函數(shù)應(yīng)該分別具有返回?cái)?shù)據(jù)和新url的功能 DAtaOutput：存儲(chǔ)數(shù)據(jù)的功能由數(shù)據(jù)存儲(chǔ)器完成 SpiderMan：主循環(huán)由爬蟲(chóng)調(diào)度器來(lái)完成，調(diào)度器為整個(gè)程序的入口，將其余四個(gè)元件有序執(zhí)行

爬蟲(chóng)調(diào)度器將要完成整個(gè)循環(huán)，下面寫(xiě)出python下爬蟲(chóng)調(diào)度器的程序：

# coding: utf-8new_urls = set()data = {}class SpiderMan(object): def __init__(self): #調(diào)度器內(nèi)包含其它四個(gè)元件，在初始化調(diào)度器的時(shí)候也要建立四個(gè)元件對(duì)象的實(shí)例 self.manager = UrlManager() self.downloader = HtmlDownloader() self.parser = HtmlParser() self.output = DataOutput() def spider(self, origin_url): #添加初始url self.manager.add_new_url(origin_url) #下面進(jìn)入主循環(huán)，暫定爬取頁(yè)面總數(shù)小于100 num = 0 while(self.manager.has_new_url() and self.manager.old_url_size()<100): try: num = num + 1 print '正在處理第{}個(gè)鏈接'.format(num) #從新url倉(cāng)庫(kù)中獲取url new_url = self.manager.get_new_url() #調(diào)用html下載器下載頁(yè)面 html = self.downloader.download(new_url) #調(diào)用解析器解析頁(yè)面，返回新的url和data try: new_urls, data = self.parser.parser(new_url, html) except Exception, e: print e for url in new_urls: self.manager.add_new_url(url) #將已經(jīng)爬取過(guò)的這個(gè)url添加至老url倉(cāng)庫(kù)中 self.manager.add_old_url(new_url) #將返回的數(shù)據(jù)存儲(chǔ)至文件 self.output.store_data(data) print 'store data succefully' print '第{}個(gè)鏈接已經(jīng)抓取完成'.format(self.manager.old_url_size()) except Exception, e: print e #爬取循環(huán)結(jié)束的時(shí)候?qū)⒋鎯?chǔ)的數(shù)據(jù)輸出至文件 self.output.output_html()

從整個(gè)循環(huán)的流程我們可以看出，由爬蟲(chóng)調(diào)度器指揮四個(gè)元件完成數(shù)據(jù)的抓取、篩選、保存流程，并以此為基礎(chǔ)還可以進(jìn)行新的循環(huán)。看懂原理之后，我們就可以使用以上的代碼進(jìn)行實(shí)戰(zhàn)啦。

到此這篇關(guān)于python爬蟲(chóng)調(diào)度器用法及實(shí)例代碼的文章就介紹到這了,更多相關(guān)python爬蟲(chóng)調(diào)度器是什么內(nèi)容請(qǐng)搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)！

Python 編程

上一條：Python基于Faker假數(shù)據(jù)構(gòu)造庫(kù)下一條：Python接口自動(dòng)化測(cè)試框架運(yùn)行原理及流程

相關(guān)文章：

1. python爬蟲(chóng)實(shí)戰(zhàn)之制作屬于自己的一個(gè)IP代理模塊2. asp批量添加修改刪除操作示例代碼3. 基于javaweb+jsp實(shí)現(xiàn)企業(yè)財(cái)務(wù)記賬管理系統(tǒng)4. css代碼優(yōu)化的12個(gè)技巧5. 如何在jsp界面中插入圖片6. Vue element ui用戶(hù)展示頁(yè)面的實(shí)例7. Ajax返回值類(lèi)型與用法實(shí)例分析8. 使用FormData進(jìn)行Ajax請(qǐng)求上傳文件的實(shí)例代碼9. .NET6打包部署到Windows Service的全過(guò)程10. HTML 絕對(duì)路徑與相對(duì)路徑概念詳細(xì)

排行榜

					
					python爬蟲(chóng)實(shí)戰(zhàn)之制作屬于自己的一個(gè)IP代理模塊
Python面向?qū)ο蟪绦蛟O(shè)計(jì)之繼承、多態(tài)原理與用法詳解
python實(shí)現(xiàn)在內(nèi)存中讀寫(xiě)str和二進(jìn)制數(shù)據(jù)代碼
IDEA部署Docker到WSL2的詳細(xì)過(guò)程
Android安全問(wèn)題-網(wǎng)絡(luò)傳輸
IntelliJ IDEA刪除類(lèi)的方法步驟
基于javaweb+jsp實(shí)現(xiàn)企業(yè)財(cái)務(wù)記賬管理系統(tǒng)
HTML 絕對(duì)路徑與相對(duì)路徑概念詳細(xì)
如何在jsp界面中插入圖片
python 利用toapi庫(kù)自動(dòng)生成api
Java程序的編碼規(guī)范（6）
				

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

python爬蟲(chóng)調(diào)度器用法及實(shí)例代碼