文章詳情頁

python 爬蟲實現增量去重和定時爬取實例

瀏覽：75日期：2022-08-05 14:50:32

前言：在爬蟲過程中，我們可能需要重復的爬取同一個網站，為了避免重復的數據存入我們的數據庫中通過實現增量去重去解決這一問題本文還針對了那些需要實時更新的網站增加了一個定時爬取的功能；

本文作者同開源中國（殊途同歸_）；

解決思路：

1.獲取目標url

2.解析網頁

3.存入數據庫（增量去重）

4.異常處理

5.實時更新（定時爬取）

下面為數據庫的配置 mysql_congif.py：

import pymysql def insert_db(db_table, issue, time_str, num_code): host = ’127.0.0.1’ user = ’root’ password = ’root’ port = 3306 db = ’lottery’ data_base = pymysql.connect(host=host, user=user, password=password, port=port, db=db) cursor = data_base.cursor() try: sql = 'INSERT INTO %s VALUES (’%s’,’%s’,’%s’)' % (db_table, issue, time_str, num_code) cursor.execute(sql) data_base.commit() except ValueError as e: print(e) data_base.rollback() finally: cursor.close() data_base.close() def select_db(issue, db_table): host = ’127.0.0.1’ user = ’root’ password = ’root’ port = 3306 db = ’lottery’ data_base = pymysql.connect(host=host, user=user, password=password, port=port, db=db) cursor = data_base.cursor() try: sql = 'SELECT ’%s’ FROM %s ' % (issue, db_table) cursor.execute(sql) data_base.commit() except ValueError as e: print(e) data_base.rollback() finally: return issue

接下來是主要代碼 test.py：

# 使用bs4進行網頁解析# 實現了增量去重# 實現了定時爬取import datetimeimport time from bs4 import BeautifulSoupimport requests from mysql_config import insert_dbfrom mysql_config import select_db def my_test(): db_table = ’lottery_table’ url = ’http://kj.13322.com/kl10_dkl10_history_dtoday.html’ res = requests.get(url) content = res.content soup = BeautifulSoup(content, ’html.parser’, from_encoding=’utf8’) c_t = soup.select(’#trend_table’)[0] trs = c_t.contents[4:] for tr in trs: if tr == ’n’: continue tds = tr.select(’td’) issue = tds[1].text time_str = tds[0].text num_code = tr.table.text.replace(’n0’, ’,’).replace(’n’, ’,’).strip(’,’) print(’期號：%st時間：%st號碼:%s’ % (str(issue), str(time_str), str(num_code))) issue_db = select_db(issue, db_table) try: if issue_db == issue:insert_db(db_table, issue_db, time_str, num_code)print(’添加%s到%s成功’ % (issue_db, db_table)) except Exception as e: print(’%s 已經存在！’ % issue_db) print(e) if __name__ == ’__main__’: flag = 0 now = datetime.datetime.now() sched_time = datetime.datetime(now.year, now.month, now.day, now.hour, now.minute, now.second) + datetime.timedelta(seconds=3) while True: now = datetime.datetime.now() if sched_time < now: time.sleep(3) print(now) my_test() flag = 1 else: if flag == 1:sched_time = sched_time + datetime.timedelta(minutes=2)flag = 0

以上這篇python 爬蟲實現增量去重和定時爬取實例就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支持好吧啦網。

Python 編程

上一條：python GUI庫圖形界面開發之PyQt5菜單欄控件QMenuBar的詳細使用方法與實例下一條：淺談python元素如何去重,去重后如何保持原來元素的順序不變

相關文章：

1. python如何實現word批量轉HTML2. python excel和yaml文件的讀取封裝3. python3實現往mysql中插入datetime類型的數據4. python爬蟲實戰之制作屬于自己的一個IP代理模塊5. moment轉化時間戳出現Invalid Date的問題及解決6. 詳解Java實現拓撲排序算法7. 詳解docker pull 下來的鏡像都存到了哪里8. Docker鏡像管理常用操作代碼示例9. 關于 Android WebView 的內存泄露問題10. Python中內建模塊collections如何使用

排行榜

					
					python如何實現word批量轉HTML
python excel和yaml文件的讀取封裝
python3實現往mysql中插入datetime類型的數據
moment轉化時間戳出現Invalid Date的問題及解決
python爬蟲實戰之制作屬于自己的一個IP代理模塊
詳解Java實現拓撲排序算法
詳解docker pull 下來的鏡像都存到了哪里
關于 Android WebView 的內存泄露問題
Python中內建模塊collections如何使用
Docker鏡像管理常用操作代碼示例
idea重置默認配置的方法步驟