文章詳情頁

python - 請教這個頁面中的這兩個信息能否不用無頭瀏覽器爬取到?

瀏覽：110日期：2022-09-22 16:46:47

問題描述

在爬取'http://www.haodf.com/doctor/DE4r08xQdKSLBVM8i9sHYQ8uQGIO.htm'這個頁面的時候, 發現'擅長'和'執業經歷'這兩個信息通過beautifulsoup是取不到的, 我選取這兩個信息的代碼如下:

soup.select(’#full_DoctorSpecialize’).get_text(strip=True)soup.select(’#full’).get_text(strip=True)

查詢頁面發現這兩個信息好像是通過JS查詢的結果, 除了把網頁全部正則表達式匹配的方法, 請教各位: 1, 這兩個信息能否直接取到? 2, 除了類似'Selenium'這樣的工具, 是否還有其他方式能夠取到這兩個信息?3, 能否通過分析查詢接口的方式解決?

謝謝

問題解答

回答1：

可能這個頁面，你要抓的這個數據，是頁面加載后，使用js渲染出來的。也就是說，這個#full_DoctorSpecialize里面的數據是ajax，從服務器上拿回來的。具體要如何拿這樣的數據，你可以百度下 phantomjs ，你一定會有收獲的。

回答2：

這2個信息可以直接獲取，只是信息包含在JS塊中BigPipe.onPageletArrive({這個里面}) , 可以通過正則表達式獲取。這個里面是一段JSON格式的字符串。匹配之后轉換為json還是很容易處理的。想要通過查詢接口獲取的話，應該是可以的，不過得分析JS代碼，這個太麻煩，可以通過抓包工具來抓它的http請求。然后看看是那個請求返回的數據。相比較而言還是寫正則匹配比較快。

回答3：

這個就像樓上說的是js渲染的，內容在js代碼里面，可以正則匹配js代碼里面的元素，得到你想要的信息

Python 編程

上一條：python3 snmp大家都用什么擴展模塊下一條：PYTHON 根目錄主程序導入子目錄下的所有模塊，提示模塊找不到

相關文章：

1. JavaScript將.apply（）與'new'運算符配合使用這可能嗎？2. angular.js - webpack build后的angularjs路由跳轉問題3. java - Activity中的成員變量被賦值之后，Activity被回收的時候內存才會被釋放嗎4. java - web項目中，用戶登陸信息存儲在session中好還是cookie中好，取決于什么？5. 為什么必須在<ul> 下建立 <li> 在建<a>?6. 請求一個數據返回內容為空或者錯誤如何再次請求幾次7. 老師，flex-shrink: 1; 按視頻操作，不會自動縮放8. 為什么bindClass訪問不了的？9. Discuz! Q 有人用過嗎?10. 我寫的哪里有錯？請大神幫忙查看一下。

排行榜

					
					java - Activity中的成員變量被賦值之后，Activity被回收的時候內存才會被釋放嗎
angular.js - webpack build后的angularjs路由跳轉問題
java - web項目中，用戶登陸信息存儲在session中好 還是cookie中好，取決于什么？
JavaScript將.apply（）與'new'運算符配合使用這可能嗎？
javascript - grunt、gulp和webpack有什么區別和各自的優缺點
python - AttributeError: ’tuple’ object has no attribute ’strip’錯誤
8.1.0.5版本的root數據庫怎么導出啊？
創建mysqli對象與數據庫連接 - 出錯
java - android如何為alertdialog設置大小以適應不同的屏幕
html5 - 在移動端設置font-size小于12px。line-height的問題
為什么 必須在<ul> 下建立 <li> 在建<a>?
				

熱門標簽

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

python - 請教這個頁面中的這兩個信息能否不用無頭瀏覽器爬取到?