文章詳情頁

python - 正則表達式匹配html的問題。

瀏覽：88日期：2022-09-05 14:29:29

問題描述

<dd class='gray6'> 中文 中文 中文內容 #需要抓取的內容</dd>用BeautifulSoup html.parser解析的網頁，現在用re模塊想抓取**第7行**的中文內容，放在一個組里面（.*?）。正則老是匹配不上，用換行符也匹配不上，不知道怎么寫了。。。

問題解答

回答1：

既然你都用bs4解析了，為什么不用它提取哪？bs4內有一個stripped_string的函數正好滿足你的需要。

回答2：

import repattern = re.compile(r’.*?(.*?)</dd>’, re.S)str = ’’’<dd class='gray6'> 中文 中文 中文內容 #需要抓取的內容</dd>’’’print(pattern.search(str).group(1))===> 中文內容 #需要抓取的內容回答3：

const re = /^(.*)</dd>$/

這樣可以不?

Python 編程

上一條：python - 這段函數如何改寫比較優雅?下一條：python - 如何在scrapy中帶cookie訪問？

相關文章：

1. angular.js - webpack build后的angularjs路由跳轉問題2. java - web項目中，用戶登陸信息存儲在session中好還是cookie中好，取決于什么？3. 數組按鍵值封裝！4. mysql - navicat 經常打開表一直在載入中也不能關閉著急解決5. 為什么bindClass訪問不了的？6. 我寫的哪里有錯？請大神幫忙查看一下。7. 老師，怎么不講一次性添加多個數據8. 為什么必須在<ul> 下建立 <li> 在建<a>?9. mySql排序，序號10. 這個是什么問題？

排行榜

					
					數組按鍵值封裝！
angular.js - webpack build后的angularjs路由跳轉問題
java - web項目中，用戶登陸信息存儲在session中好 還是cookie中好，取決于什么？
為什么 必須在<ul> 下建立 <li> 在建<a>?
表格對其 只涉及到對其，沒有涉及到大小，長寬還有背景色類的嗎
python - beautifulSoup4 .select(’.bnrName’) 取不到到 text 文字
html5 - 在echarts3中怎么使用echarts2中的wordCloud
Java：無法將Gridlayout應用于Jscrollpane。獲取獲取java.lang.ClassCastException
javascript - vue-resource 如何二次封裝
python - 正則表達式匹配html的問題。
為什么bindClass訪問不了的？
				

熱門標簽

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

python - 正則表達式匹配html的問題。