文章詳情頁

python - 爬蟲獲取所有數據的思路是什么

瀏覽：157日期：2022-09-20 09:30:05

問題描述

比如一個網站有下一頁，我要怎么能把所有下一頁爬完呢，用遞歸嗎，遞歸深度不會有限制嗎，初學，希望得到指點

問題解答

回答1：

遞歸，消息隊列，儲存已經爬取的頁面（redis, 數據庫)

回答2：

如果你指的所有數據是一個小域名下的所有數據，并且你并不想細究原理，那就去學scrapy。

如果你指的所有數據是全網數據，并且想搞明白爬取時是廣度優先還是深度優先等等原理，那首先你得有10000+服務器。

回答3：

如果是同一個網站，用遞歸爬去呀，同一個網站怎么會爬不完

回答4：

如果網站的結構是簡單重復的，可以先分析頁碼url的規律，然后直接從第一頁拿到總頁數，然后手動構造出其他頁的url。

回答5：

首先大致說下爬取的思路,如果頁面鏈接很簡單,類似 www.xxx.com/post/1.html這種有規律可循的頁面,可以寫遞歸或者循環去爬取

如果頁面鏈接是未知的,可以獲取爬取的頁面去解析標簽的鏈接,然后繼續爬取,在這一過程中,你需要將已經爬取過的鏈接存下來,爬新鏈接的時候去尋找一下是否之前爬取過,然后也是通過遞歸去爬取

爬取思路通過url爬取->解析爬取內容中新的url->通過url爬取->....->當爬取到一定數量或者很長一段時間沒有新鏈接的時候跳出遞歸

最后在python界有一個很厲害的爬蟲框架scrapy,基本上把爬蟲常用套路全部都封裝好了,稍微學習下就會了傳送門

回答6：

import java.io.File;import java.io.IOException;import java.io.InputStream;import java.net.URL;import java.net.URLConnection;import org.apache.commons.io.FileUtils;public class SpiderDemo { public static void main(String[] args) throws IOException {//URL url = new URL('http://www.zhongguoxinyongheimingdan.com');//URLConnection connection = url.openConnection();//InputStream in = connection.getInputStream();//File file = new File('F://a.txt');//FileUtils.copyInputStreamToFile(in, file);File srcDir = new File('F://a.txt');String str = FileUtils.readFileToString(srcDir, 'UTF-8');String[] str1 = str.split('href='http://www.4tl426be.cn/wenda/);for (int i = 3; i < str1.length-1; i++) { URL url = new URL('http://www.zhongguoxinyongheimingdan.com'+str1[i].substring(1, 27)); File f = new File('F://abc//'+str1[i].substring(2, 22)); if(!f.exists()){ f.mkdir();File desc1 = new File(f,str1[i].substring(1, 22)+'.txt'); URLConnection connection = url.openConnection(); InputStream in = connection.getInputStream(); FileUtils.copyInputStreamToFile(in, desc1); String str2 = FileUtils.readFileToString(desc1, 'UTF-8'); String[] str3 = str2.split('' src='http://www.4tl426be.cn/wenda/10676.html'); for(int j = 1;j<str3.length-2;j++){URL url1 = new URL(str3[j].substring(0, 81));URLConnection connection1 = url1.openConnection();connection1.setDoInput(true);InputStream in1 = connection1.getInputStream();File desc2 = new File(f,str3[j].substring(44,76)+'.jpg');FileUtils.copyInputStreamToFile(in1, desc2); } } }} }

簡單的代碼把中國信用黑名單網站的所有照片保存到本地網站本身簡單！不過當場這個網站奔潰了也是醉了！

Python 編程

上一條：Python如何考慮代碼注入安全？下一條：python - try應該寫在for里面還是外面

相關文章：

1. java - 部署web項目時無法省略項目名？2. mysql 5個left關鍵然后再用搜索條件幾千條數據就會卡，如何解決呢3. python - [已解決]flask QQ郵箱mail4. javascript - position fixed；設置了height 100 卻不是瀏覽器可視窗口的寬高，求大神釋疑。5. mysql - 在不允許改動數據表的情況下，如何優化以varchar格式存儲的時間的比較？6. javascript - vue-cli proxyTable怎么配置7. 主題切換問題，用過別人的webapp在后臺切換模板主題后手機端打開網頁就是切換到的主題了8. python3.x - git bash如何運行.bat文件？9. html - eclipse 標簽錯誤10. java - 如何寫一個intellij-idea插件，實現編譯時修改源代碼的目的

排行榜

					
					為什么我ping不通我的docker容器呢？？？
docker-machine添加一個已有的docker主機問題
debian - docker依賴的aufs-tools源碼哪里可以找到啊？
dockerfile - 我用docker build的時候出現下邊問題  麻煩幫我看一下
html - eclipse 標簽錯誤
mysql 5個left關鍵 然后再用搜索條件 幾千條數據就會卡，如何解決呢
java - 如何寫一個intellij-idea插件，實現編譯時修改源代碼的目的
python3.x - git bash如何運行.bat文件？
initPage：是什么意思？ 是返回的意思嗎？
主題切換問題，用過別人的webapp在后臺切換模板主題后手機端打開網頁就是切換到的主題了
javascript - position fixed；設置了height 100 卻不是瀏覽器可視窗口的寬高，求大神釋疑。
				

熱門標簽

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

python - 爬蟲獲取所有數據的思路是什么