文章詳情頁

python - 如何爬取跳轉網站的數據

瀏覽：101日期：2022-06-30 14:37:44

問題描述

目前在學習一些爬蟲的知識，對于一些復雜的網站使用selenium進行爬取。碰到一個問題，我需要爬取的工單網站（不知道密碼）需要先通過登錄一個鑒權系統，然后鑒權系統頁面點擊其中的工單系統連接，就會自動免登錄跳轉到工單系統網站，這種系統的數據我該如何使用爬蟲進行抓取？以下是鑒權系統selenium拿到關于工單系統的html

問題解答

回答1：

用firefox的擴展selenium ide錄制一遍操作。然后導出為python文件。改改運行就可以了。

建議你去讀讀蟲師寫的書。

回答2：

例如使用requests庫作為爬蟲的話，先創建session()，A登錄，B是跳轉的頁面即可。

T=requests.session()A=T.post(url=url,data=data)B=T.get(url=url)

創建的T就代表存儲的cookie，會一直保留

Python 編程

上一條：python如何獲得一個url地址對應的跳轉后的最終網址下一條：python - Django如何在View中發送異步HTTP請求？

相關文章：

1. bootstrp是col-md-12列的,只有col-md-10有內容,可以讓沒有內容的不占據位置嗎;2. java - 如何用圖畫的方式有效地表示多線程？3. thinkPHP5中獲取數據庫數據后默認選中下拉框的值，傳遞到后臺消失不見。有圖有代碼，希望有人幫忙4. python - Fiddler+Android模擬器抓取app，json數據被加密了，如何解析？5. datetime - Python如何獲取當前時間6. android - 請問一下類似QQ音樂底部播放在每個頁面都顯示是怎么做的？7. wordpress里，這樣的目錄列表是屬于小工具還是啥？8. sublime text3安裝package control失敗9. 常量在外面不加引號會報錯。10. python 3.4 error: Microsoft Visual C++ 10.0 is required

排行榜

					
					bootstrp是col-md-12列的,只有col-md-10有內容,可以讓沒有內容的不占據位置嗎;
java - 如何用圖畫的方式有效地表示多線程？
thinkPHP5中獲取數據庫數據后默認選中下拉框的值，傳遞到后臺消失不見。有圖有代碼，希望有人幫忙
python - Fiddler+Android模擬器抓取app，json數據被加密了，如何解析？
vue.js - 關于Vue-cli項目在VPS中用Nginx部署完請求頁面app.js找不到提示404錯誤。
wordpress里，這樣的目錄列表是屬于小工具還是啥？
常量在外面不加引號會報錯。
java - spring boot 如何打包成asp.net core 那種獨立應用?
無法添加事件
請問這套課程是否是《函數與閉包》最后提到的講閉包案例的課程？
android - 請問一下 類似QQ音樂底部播放 在每個頁面都顯示 是怎么做的？
				

熱門標簽

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

python - 如何爬取跳轉網站的數據