文章詳情頁

python爬數據，得到一個列表，但怎樣去掉里面的span標簽呢？

瀏覽：130日期：2022-07-11 09:18:11

問題描述

用p6ython3.6爬下了部分數據，但是最后顯示的是含span標簽的列表，當我用get_text、contents等方法，就會報錯。這是為什么呢？最開始返回的結果如下：

[2017.5.2][2017.4.26][2017.4.24][2017.4.19][2017.3.23][2017.3.17][2017.2.14][2017.2.9][2017.2.6][2017.2.6]

我的代碼如下：

import requestsfrom bs4 import BeautifulSoupimport re# def url_list():# for number in range(1,21):# url_links=[]# url='X'.format(i=number)# url_links.append(url)h={'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.81 Safari/537.36'}r=requests.get('url',headers=h)soup=BeautifulSoup(r.text,’lxml’)for data in soup.find('p',{'class':'list-main-eventset-finan'}).find_all('li'): content=data.find('i',{'class':'cell date'}).find_all('span') print(time)

問題解答

回答1：

bs的API記得不是很清楚了，應該是有可以直接獲取文本的函數的,應該是get_text()這個函數吧。由于你用的是find_all(),那么需要再在返回的結果下做一次遍歷，就是這樣

rs = list()for data in soup.find('p',{'class':'list-main-eventset-finan'}).find_all('li'): contents=data.find('i',{'class':'cell date'}).find_all('span') for content in contents:rs.append(content.get_text())

此外，也可以使用正則表達式來匹配，直接匹配(.*?)<這個pattern。但是也得像上面那樣遍歷這個contens列表才行。

回答2：

題主可以試試 text_content() 方法

回答3：

正則表達式或者split+SUBSTRING也可以，靈活著用

Python 編程

上一條：python讀取一個文檔中的內容并提取處理下一條：python - 請教如何爬取簡書某一時間段發帖。

排行榜

					
					數組按鍵值封裝！
Docker for Mac 創建的dnsmasq容器連不上/不工作的問題
docker不顯示端口映射呢？
java - 阿里的開發手冊中為什么禁用map來作為查詢的接受類?
python3.x - git bash如何運行.bat文件？
python - flask _sqlalchemy 能否用中文作為索引條件
docker安裝后出現Cannot connect to the Docker daemon.
angular.js - 如何用gulp打包ionic應用，項目JS腳本是使用 require.js 來組織的
angular.js - 請問ng-click="alterCheck()"和ng-click="check=true"有什么不同？
clone - git sourceTree克隆倉庫時,都不停彈出Password Required彈窗,即時輸入正確的git賬號密碼還是彈出
html5 - 使用echarts中的圖表  一個頁面導入了好幾個js圖表  實現echarts圖表隨著瀏覽器窗口變化而變化時出現了問題
				

熱門標簽

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

python爬數據，得到一個列表，但怎樣去掉里面的span標簽呢？