python - 如何爬取跳轉網站的數據
問題描述
目前在學習一些爬蟲的知識,對于一些復雜的網站使用selenium進行爬取。碰到一個問題,我需要爬取的工單網站(不知道密碼)需要先通過登錄一個鑒權系統,然后鑒權系統頁面點擊其中的工單系統連接,就會自動免登錄跳轉到工單系統網站,這種系統的數據我該如何使用爬蟲進行抓取?以下是鑒權系統selenium拿到關于工單系統的html
<a href='http://www.4tl426be.cn/link-test001' target='_blank' rel='link-test001' data='1' datasrc='工單系統|||/files/link/test001.gif|||new|||/link-test001'> <img src='http://www.4tl426be.cn/files/link/test001.gif' alt='工單系統' align='absmiddle'><span>工單系統</span></a>
問題解答
回答1:用firefox的擴展selenium ide錄制一遍操作。然后導出為python文件。改改運行就可以了。
建議你去讀讀蟲師寫的書。
回答2:例如使用requests庫作為爬蟲的話,先創建session(),A登錄,B是跳轉的頁面即可。
T=requests.session()A=T.post(url=url,data=data)B=T.get(url=url)
創建的T就代表存儲的cookie,會一直保留
相關文章:
1. bootstrp是col-md-12列的,只有col-md-10有內容,可以讓沒有內容的不占據位置嗎;2. java - 如何用圖畫的方式有效地表示多線程?3. thinkPHP5中獲取數據庫數據后默認選中下拉框的值,傳遞到后臺消失不見。有圖有代碼,希望有人幫忙4. python - Fiddler+Android模擬器抓取app,json數據被加密了,如何解析?5. datetime - Python如何獲取當前時間6. android - 請問一下 類似QQ音樂底部播放 在每個頁面都顯示 是怎么做的?7. wordpress里,這樣的目錄列表是屬于小工具還是啥?8. sublime text3安裝package control失敗9. 常量在外面不加引號會報錯。10. python 3.4 error: Microsoft Visual C++ 10.0 is required
