av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

您的位置:首頁技術(shù)文章
文章詳情頁

python如何爬取動態(tài)網(wǎng)站

瀏覽:2日期:2022-07-11 17:01:47

python有許多庫可以讓我們很方便地編寫網(wǎng)絡(luò)爬蟲,爬取某些頁面,獲得有價值的信息!但許多時候,爬蟲取到的頁面僅僅是一個靜態(tài)的頁面,即網(wǎng)頁 的源代碼,就像在瀏覽器上的“查看網(wǎng)頁源代碼”一樣。一些動態(tài)的東西如javascript腳本執(zhí)行后所產(chǎn)生的信息,是抓取不到的,這里暫且先給出這么一 些方案,可用于python爬取js執(zhí)行后輸出的信息。

1、兩種基本的解決方案

1.1 用dryscrape庫動態(tài)抓取頁面

js腳本是通過瀏覽器來執(zhí)行并返回信息的,所以,抓取js執(zhí)行后的頁面,一個最直接的方式就是用python模擬瀏覽器的行為。WebKit 是一個開源的瀏覽器引擎,python提供了許多庫可以調(diào)用這個引擎,dryscrape便是其中之一,它調(diào)用webkit引擎來處理包含js等的網(wǎng)頁!

import dryscrape# 使用dryscrape庫 動態(tài)抓取頁面def get_url_dynamic(url): session_req=dryscrape.Session() session_req.visit(url) #請求頁面 response=session_req.body() #網(wǎng)頁的文本 #print(response) return responseget_text_line(get_url_dynamic(url)) #將輸出一條文本

這里對于其余包含js的網(wǎng)頁也是適用的!雖然可以滿足抓取動態(tài)頁面的要求,但缺點還是很明顯的:慢!太慢了,其實想一想也合理,python調(diào)用 webkit請求頁面,而且等頁面加載完,載入js文件,讓js執(zhí)行,將執(zhí)行后的頁面返回,慢一點也是應(yīng)該的!除外還有很多庫可以調(diào)用 webkit:PythonWebkit,PyWebKitGit,Pygt(可以用它寫個瀏覽器),pyjamas等等,聽說它們也可以實現(xiàn)相同的功能!

1.2 selenium web測試框架

selenium是一個web測試框架,它允許調(diào)用本地的瀏覽器引擎發(fā)送網(wǎng)頁請求,所以,它同樣可以實現(xiàn)抓取頁面的要求。

# 使用 selenium webdriver 可行,但會實時打開瀏覽器窗口

def get_url_dynamic2(url): driver=webdriver.Firefox() #調(diào)用本地的火狐瀏覽器,Chrom 甚至 Ie 也可以的 driver.get(url) #請求頁面,會打開一個瀏覽器窗口 html_text=driver.page_source driver.quit() #print html_text return html_textget_text_line(get_url_dynamic2(url)) #將輸出一條文本

這也不失為一條臨時的解決方案!與selenium類似的框架還有一個windmill,感覺稍復(fù)雜一些,就不再贅述!

2、selenium的安裝與使用

2.1 selenium的安裝

在Ubuntu上安裝可以直接使用pip install selenium。由于以下原因:

1. selenium 3.x開始,webdriver/firefox/webdriver.py的__init__中,executable_path='geckodriver';而2.x是executable_path='wires'

2. firefox 47以上版本,需要下載第三方driver,即geckodriver

還需要一些特殊操作:

1. 下載 geckodriverckod 地址:

mozilla/geckodriver

2. 解壓后將geckodriverckod 存放至 /usr/local/bin/ 路徑下即可:

sudo mv ~/Downloads/geckodriver /usr/local/bin/

2.2 selenium的使用

1. 運行報錯:

driver = webdriver.chrome()TypeError: ’module’ object is not callable

解決方案:瀏覽器的名稱需要大寫Chrome和Firefox,Ie

2. 通過

content = driver.find_element_by_class_name(’content’)

來定位元素時,該方法返回的是FirefoxWebElement,想要獲取包含的值時,可以通過

value = content.text

到此這篇關(guān)于python如何爬取動態(tài)網(wǎng)站的文章就介紹到這了,更多相關(guān)python怎么爬動態(tài)網(wǎng)站內(nèi)容請搜索好吧啦網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持好吧啦網(wǎng)!

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 日韩高清精品免费观看 | 日本免费一级片 | 天天操天天操天天 | 老女人丨91丨九色 | 欧美精品999 | 欧美一级黄色录像 | 亚洲第一av网站 | 九色91popny蝌蚪新疆 | 伦一理一级一a一片 | 久久久久久久国产精品 | 亚洲在线中文字幕 | 国产精品一区二区三区四区五区 | 国产逼逼 | 亚洲欧美视频 | 秋霞一区二区三区 | 欧美日韩在线一区 | 日韩免费观看 | 蜜乳av懂色av粉嫩av | 伊人网综合 | 黄色大片视频 | 黄色大片在线免费观看 | 综合一区二区三区 | 日韩国产一区 | 一级毛片黄色 | 黄色一集片 | 国产精品久久网 | 欧美亚洲国产日韩 | 伊人精品在线 | 波多野结衣乳巨码无在线观看 | 国产精品国产精品国产专区不卡 | 亚洲最新网址 | 亚洲视频中文字幕 | 国产成人精品三级麻豆 | 久久精品免费看 | 成人激情片| 欧美做受 | 黄在线免费观看 | 欧美专区在线 | 天天操天天操天天操 | 韩日av| 国产成人+综合亚洲+天堂 |