文章詳情頁

selenium - 請教一下 Python 爬蟲工具

瀏覽：142日期：2022-06-27 16:46:59

問題描述

1)我要抓的是 Instagram 某明星的粉絲2)Instagram pc 站使用了大量的 js 渲染3)沒寫過爬蟲,老板明天就要數(shù)據(jù)

我目前使用的是BeautifulSoup, selenium 和phantomjs

代碼 demo 大概是

driver = webdriver.PhantomJS(self.browser)driver.get(self.url)driver.implicitly_wait(3)element = driver.find_element_by_class_name('_s53mj')element.click()html = driver.page_sourcesoup = BeautifulSoup(html)

問題是:1) 我不知道click 有沒有執(zhí)行成功, click 的元素對不對, driver 好像沒有返回值給我參考2) 即使 click 成功了, 但是他是不是只調(diào)了 js里的 click() 方法,并沒有觸發(fā) target 怎么辦3)我不知道是先渲染page_source, 還是應該先 click, 假設執(zhí)行成功了 click, 是不是也不會再 source 里返回了

啊, 謝各位爬蟲大佬了

問題解答

回答1：

說的是什么意思？百思不得其解啊。。。

selenium自動化，click能模仿用戶點擊，就跟你自己在頁面上點擊一樣，一切都在虛擬瀏覽器驅(qū)動中進行。

看你的業(yè)務邏輯啊。。。比如有些數(shù)據(jù)要點擊后才有，那就先click再獲取源代碼。

Python 編程

上一條：Python從URL中提取域名下一條：python - sklearn如何訓練大規(guī)模數(shù)據(jù)集

相關文章：

1. docker - 各位電腦上有多少個容器啊？容器一多，自己都搞混了，咋辦呢？2. java - spring boot 如何打包成asp.net core 那種獨立應用?3. java - 在用戶不登錄的情況下，用戶如何添加保存到購物車？4. datetime - Python如何獲取當前時間5. javascript - nginx反向代理靜態(tài)資源403錯誤?6. docker網(wǎng)絡端口映射，沒有方便點的操作方法么？7. 安全性測試 - nodejs中如何防m(xù)ySQL注入8. javascript - 關于apply（）與call（）的問題9. docker start -a dockername 老是卡住，什么情況？10. python - 調(diào)用api輸出頁面，會有標簽出現(xiàn)，請問如何清掉？

排行榜

					
					java - spring boot 如何打包成asp.net core 那種獨立應用?
docker - 各位電腦上有多少個容器啊？容器一多，自己都搞混了，咋辦呢？
docker start -a dockername 老是卡住，什么情況？
docker網(wǎng)絡端口映射，沒有方便點的操作方法么？
javascript - nginx反向代理靜態(tài)資源403錯誤?
安全性測試 - nodejs中如何防m(xù)ySQL注入
java - 在用戶不登錄的情況下，用戶如何添加保存到購物車？
datetime - Python如何獲取當前時間
javascript - 關于apply（）與call（）的問題
docker容器呢SSH為什么連不通呢？
debian - docker依賴的aufs-tools源碼哪里可以找到啊？
				

熱門標簽

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

selenium - 請教一下 Python 爬蟲工具