文章詳情頁

python如何爬取動態(tài)網(wǎng)站

瀏覽：2日期：2022-07-11 17:01:47

python有許多庫可以讓我們很方便地編寫網(wǎng)絡(luò)爬蟲，爬取某些頁面，獲得有價值的信息！但許多時候，爬蟲取到的頁面僅僅是一個靜態(tài)的頁面，即網(wǎng)頁的源代碼，就像在瀏覽器上的“查看網(wǎng)頁源代碼”一樣。一些動態(tài)的東西如javascript腳本執(zhí)行后所產(chǎn)生的信息，是抓取不到的，這里暫且先給出這么一些方案，可用于python爬取js執(zhí)行后輸出的信息。

1、兩種基本的解決方案

1.1 用dryscrape庫動態(tài)抓取頁面

js腳本是通過瀏覽器來執(zhí)行并返回信息的，所以，抓取js執(zhí)行后的頁面，一個最直接的方式就是用python模擬瀏覽器的行為。WebKit 是一個開源的瀏覽器引擎，python提供了許多庫可以調(diào)用這個引擎，dryscrape便是其中之一，它調(diào)用webkit引擎來處理包含js等的網(wǎng)頁！

import dryscrape# 使用dryscrape庫動態(tài)抓取頁面def get_url_dynamic(url): session_req=dryscrape.Session() session_req.visit(url) #請求頁面 response=session_req.body() #網(wǎng)頁的文本 #print(response) return responseget_text_line(get_url_dynamic(url)) #將輸出一條文本

這里對于其余包含js的網(wǎng)頁也是適用的！雖然可以滿足抓取動態(tài)頁面的要求，但缺點還是很明顯的：慢！太慢了，其實想一想也合理，python調(diào)用 webkit請求頁面，而且等頁面加載完，載入js文件，讓js執(zhí)行，將執(zhí)行后的頁面返回，慢一點也是應(yīng)該的！除外還有很多庫可以調(diào)用 webkit：PythonWebkit，PyWebKitGit，Pygt（可以用它寫個瀏覽器），pyjamas等等，聽說它們也可以實現(xiàn)相同的功能！

1.2 selenium web測試框架

selenium是一個web測試框架，它允許調(diào)用本地的瀏覽器引擎發(fā)送網(wǎng)頁請求，所以，它同樣可以實現(xiàn)抓取頁面的要求。

# 使用 selenium webdriver 可行，但會實時打開瀏覽器窗口

def get_url_dynamic2(url): driver=webdriver.Firefox() #調(diào)用本地的火狐瀏覽器，Chrom 甚至 Ie 也可以的 driver.get(url) #請求頁面，會打開一個瀏覽器窗口 html_text=driver.page_source driver.quit() #print html_text return html_textget_text_line(get_url_dynamic2(url)) #將輸出一條文本

這也不失為一條臨時的解決方案！與selenium類似的框架還有一個windmill，感覺稍復(fù)雜一些，就不再贅述！

2、selenium的安裝與使用

2.1 selenium的安裝

在Ubuntu上安裝可以直接使用pip install selenium。由于以下原因：

1. selenium 3.x開始，webdriver/firefox/webdriver.py的__init__中，executable_path='geckodriver'；而2.x是executable_path='wires'

2. firefox 47以上版本，需要下載第三方driver，即geckodriver

還需要一些特殊操作：

1. 下載 geckodriverckod 地址：

mozilla/geckodriver

2. 解壓后將geckodriverckod 存放至 /usr/local/bin/ 路徑下即可：

sudo mv ～/Downloads/geckodriver /usr/local/bin/

2.2 selenium的使用

1. 運行報錯：

driver = webdriver.chrome()TypeError: ’module’ object is not callable

解決方案：瀏覽器的名稱需要大寫Chrome和Firefox，Ie

2. 通過

content = driver.find_element_by_class_name(’content’)

來定位元素時，該方法返回的是FirefoxWebElement，想要獲取包含的值時，可以通過

value = content.text

到此這篇關(guān)于python如何爬取動態(tài)網(wǎng)站的文章就介紹到這了,更多相關(guān)python怎么爬動態(tài)網(wǎng)站內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)！

Python 編程

上一條：python如何運行js語句下一條：python如何停止遞歸

相關(guān)文章：

1. python如何實現(xiàn)word批量轉(zhuǎn)HTML2. python excel和yaml文件的讀取封裝3. Java8內(nèi)存模型PermGen Metaspace實例解析4. python3實現(xiàn)往mysql中插入datetime類型的數(shù)據(jù)5. moment轉(zhuǎn)化時間戳出現(xiàn)Invalid Date的問題及解決6. python爬蟲實戰(zhàn)之制作屬于自己的一個IP代理模塊7. Docker鏡像管理常用操作代碼示例8. 詳解docker pull 下來的鏡像都存到了哪里9. Python中內(nèi)建模塊collections如何使用10. asp批量添加修改刪除操作示例代碼

排行榜

					
					python如何實現(xiàn)word批量轉(zhuǎn)HTML
Java8內(nèi)存模型PermGen Metaspace實例解析
python excel和yaml文件的讀取封裝
python3實現(xiàn)往mysql中插入datetime類型的數(shù)據(jù)
moment轉(zhuǎn)化時間戳出現(xiàn)Invalid Date的問題及解決
python爬蟲實戰(zhàn)之制作屬于自己的一個IP代理模塊
詳解docker pull 下來的鏡像都存到了哪里
Python中內(nèi)建模塊collections如何使用
Docker鏡像管理常用操作代碼示例
Spring Security OAuth2 授權(quán)碼模式的實現(xiàn)
解決Android Studio Log.v和Log.d不顯示的問題