文章詳情頁

python - scrapy 處理文章分頁的內容

瀏覽：111日期：2022-08-03 16:15:10

問題描述

如一篇文章有2-3頁，然后想把這些內容頁爬下來，拼接成一頁，然后再放入數據庫。文章url如：article_1.html,article_2.htmlitem有：item[’title’],item[’content’]而item[’content’]就是拼接成一頁的內容。大概怎么寫呢？

問題解答

回答1：

找到分頁接口url

回答2：

找到那個下一頁的鏈接，加入到爬取url列表中

回答3：

可以在rules里面寫正則自動掃描符合的url

Python 編程

上一條：python - 如何讓dataframe A 的一列與dataframe B的一列相減相加結果記到A的c列？下一條：亂碼 - VS2013+PTVS，python編碼問題

相關文章：

1. java - spring boot 如何打包成asp.net core 那種獨立應用?2. java - 在用戶不登錄的情況下，用戶如何添加保存到購物車？3. javascript - webpack 分割加載代碼后,react 界面不更新4. 安全性測試 - nodejs中如何防mySQL注入5. html - eclipse 標簽錯誤6. javascript - nginx反向代理靜態資源403錯誤?7. python文檔怎么查看？8. javascript - 關于apply（）與call（）的問題9. datetime - Python如何獲取當前時間10. android - SwipeRefreshLayout5.0以下不兼容

排行榜

					
					java - spring boot 如何打包成asp.net core 那種獨立應用?
docker - 各位電腦上有多少個容器啊？容器一多，自己都搞混了，咋辦呢？
docker start -a dockername 老是卡住，什么情況？
docker網絡端口映射，沒有方便點的操作方法么？
docker綁定了nginx端口 外部訪問不到
javascript - nginx反向代理靜態資源403錯誤?
html - eclipse 標簽錯誤
python文檔怎么查看？
安全性測試 - nodejs中如何防mySQL注入
javascript - webpack 分割加載代碼后,react 界面不更新
datetime - Python如何獲取當前時間
				

熱門標簽

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

python - scrapy 處理 文章 分頁的內容

python - scrapy 處理文章分頁的內容