文章詳情頁
python - 請教如何爬取簡書某一時間段發帖。
瀏覽:128日期:2022-07-11 10:45:01
問題描述
我想爬取簡書在某一時間段的帖子,比如 2013 年 4 月 13 — 2013 年 5 月 13
想嘗試的思路如下:
百度
利用百度的 site 語法
限定日期
觀察大約有 70 個帖子
google 的 site 語法
限定日期
觀察大約有 120 個帖子
實現:用 Python 直接請求搜索的結果,然后把得到的網址重定向一下得到真正的簡書網址,然后對真正的網址進行請求
問題
用這種方法得到的結果是否靠譜?請問有更靠譜的方法嗎?
用 Google 還是用百度呢?
問題解答
回答1:為了全面,你可以把主流的搜索引擎接口都拿來用,不一定要限制在某個搜索引擎接口上。我們有隊友搜索某些話題就是這么干的,因為有的網站站內沒提供滿足需求的搜索方式,這個時候也只有借助搜索引擎了。不過通過搜索引擎搜索的方式信息可能不全面,robots協議規定了不能搜索的,搜索引擎不會收錄
相關文章:
1. 數組按鍵值封裝!2. java - 阿里的開發手冊中為什么禁用map來作為查詢的接受類?3. docker不顯示端口映射呢?4. 主題切換問題,用過別人的webapp在后臺切換模板主題后手機端打開網頁就是切換到的主題了5. javascript - 為什么創建多行多列的表格最后只有一行內有表格6. javascript - 使用vue官方腳手架進行單元測試,如何覆蓋到watch里的變量?7. clone - git sourceTree克隆倉庫時,都不停彈出Password Required彈窗,即時輸入正確的git賬號密碼還是彈出8. html5 - 使用echarts中的圖表 一個頁面導入了好幾個js圖表 實現echarts圖表隨著瀏覽器窗口變化而變化時出現了問題9. 如何用Java向kafka發送json數據10. javascript - webpack中alias配置中的“@”是什么意思?
排行榜
