文章詳情頁

Python使用Selenium自動(dòng)進(jìn)行百度搜索的實(shí)現(xiàn)

瀏覽：132日期：2022-06-14 15:13:46

目錄安裝 Selenium寫代碼點(diǎn)位網(wǎng)頁元素

我們今天介紹一個(gè)非常適合新手的python自動(dòng)化小項(xiàng)目，項(xiàng)目雖小，但是五臟俱全。它是一個(gè)自動(dòng)化操作網(wǎng)頁瀏覽器的小應(yīng)用：打開瀏覽器，進(jìn)入百度網(wǎng)頁，搜索關(guān)鍵詞，最后把搜索結(jié)果保存到一個(gè)文件里。這個(gè)例子非常適合新手學(xué)習(xí)Python網(wǎng)絡(luò)自動(dòng)化，不僅能夠了解如何使用Selenium，而且還能知道一些超級(jí)好用的小工具。

當(dāng)然有人把操作網(wǎng)頁，然后把網(wǎng)頁的關(guān)鍵內(nèi)容保存下來的應(yīng)用一律稱作網(wǎng)絡(luò)爬蟲，好吧，如果你想這么爬取內(nèi)容，隨你。但是，我更愿意稱它為網(wǎng)絡(luò)機(jī)器人。

我今天介紹的項(xiàng)目使用Selenium，Selenium 是支持 web 瀏覽器自動(dòng)化的一系列工具和庫的綜合項(xiàng)目。Selenium 的核心是 WebDriver，這是一個(gè)編寫指令集的接口，可以在許多瀏覽器中互換運(yùn)行。

閑言少敘，硬貨安排。

安裝 Selenium

可以使用 pip 安裝 Python 的 Selenium 庫：pip install selenium

（可選項(xiàng)：要執(zhí)行項(xiàng)目并控制瀏覽器，需要安裝特定于瀏覽器的 WebDriver 二進(jìn)制文件。

下載 WebDriver 二進(jìn)制文件并放入系統(tǒng) PATH 環(huán)境變量中.）

由于本地瀏覽器版本升級(jí)，引起的版本不一致問題，和系統(tǒng)PATH環(huán)境變量的設(shè)置比較繁瑣，所以我使用webdriver_manager，

安裝 Install manager:

pip install webdriver-manager寫代碼

引入模塊：

from selenium import webdriverfrom webdriver_manager.chrome import ChromeDriverManagerfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.keys import Keys

首先我們定義一個(gè)類Search_Baidu，它主要用于初始化；定義自動(dòng)化步驟的方法；結(jié)束關(guān)閉瀏覽器。

class Search_Baidu:def __init__(self):def search(self, keyword):def tear_down(self):

接下來我們分別介紹每個(gè)方法的實(shí)現(xiàn)過程。

def __init__(self): #類構(gòu)造函數(shù)，用于初始化selenium的webdriverurl = ’https://www.baidu.com/’ #這里定義訪問的網(wǎng)絡(luò)地址self.url = urloptions = webdriver.ChromeOptions()options.add_experimental_option('prefs', {'profile.managed_default_content_settings.images': 2}) # 不加載圖片,加快訪問速度options.add_experimental_option(’excludeSwitches’, [’enable-automation’]) # 此步驟很重要，設(shè)置為開發(fā)者模式，防止被各大網(wǎng)站識(shí)別出來使用了Selenium# 這里使用chrome瀏覽器，而且使用我們剛才安裝的webdriver_manager的chrome driver，并賦值上面的瀏覽器設(shè)置options變量self.browser = webdriver.Chrome(ChromeDriverManager().install(), options=options)self.wait = WebDriverWait(self.browser, 10) #超時(shí)時(shí)長為10s，由于自動(dòng)化需要等待網(wǎng)頁控件的加載，所以這里設(shè)置一個(gè)默認(rèn)的等待超時(shí)，時(shí)長為10秒 def tear_down(self):self.browser.close() #最后，關(guān)閉瀏覽器

接下來是重頭戲，寫我們操作瀏覽器的步驟，打開瀏覽器，進(jìn)入百度網(wǎng)頁，輸入搜索關(guān)鍵字：Selenium，等待搜索結(jié)果，把搜索結(jié)果的題目和網(wǎng)址保存到文件里。

def search(self, keyword): # 打開百度網(wǎng)頁 self.browser.get(self.url) # 等待搜索框出現(xiàn)，最多等待10秒，否則報(bào)超時(shí)錯(cuò)誤 search_input = self.wait.until(EC.presence_of_element_located((By.XPATH, ’//*[@id='kw']’))) # 在搜索框輸入搜索的關(guān)鍵字 search_input.send_keys(keyword) # 回車 search_input.send_keys(Keys.ENTER) # 等待10秒鐘 self.browser.implicitly_wait(10) # 找到所有的搜索結(jié)果 results = self.browser.find_elements_by_css_selector('.t a , em , .c-title-text') # 遍歷所有的搜索結(jié)果 with open('search_result.txt','w') as file: for result in results: if result.get_attribute('href'):print(result.get_attribute('text').strip())# 搜索結(jié)果的標(biāo)題title = result.get_attribute('text').strip()# 搜索結(jié)果的網(wǎng)址link = result.get_attribute('href')# 寫入文件file.write(f'Title: {title}, link is: {link} n')點(diǎn)位網(wǎng)頁元素

這里頭有個(gè)關(guān)鍵點(diǎn)，就是如何點(diǎn)位網(wǎng)頁元素：

比如：

search_input = self.wait.until(EC.presence_of_element_located((By.XPATH, ’//*[@id='kw']’)))

還有：

self.browser.find_elements_by_css_selector('.t a , em , .c-title-text')

打個(gè)比方，快遞員通過地址找到你家，給你送快遞，這里的XPATH和CSS Selector就是網(wǎng)頁元素的地址，那么如何得到呢？第一個(gè)就是Chrome自帶的開發(fā)者工具，可以快捷鍵F12，也可以自己在下圖中找到：