網(wǎng)頁爬蟲 - 如何使用使用java抓取信息并制作一個(gè)排名系統(tǒng)?
問題描述
在學(xué)習(xí)java web 正好有一個(gè)有趣的項(xiàng)目可以做 。 我們學(xué)校需要晨跑刷卡,體育部提供一個(gè)查詢網(wǎng)站,但是不提供接口。 想做一個(gè)網(wǎng)站/微信后臺(tái)從學(xué)校網(wǎng)上抓取信息儲(chǔ)存到數(shù)據(jù)庫 然后用戶可以通過我的 網(wǎng)站/微信來查詢自己的跑操記錄。并且根據(jù)這些記錄顯示排名 等其他的功能。
查詢只需要提供學(xué)號和姓名,這個(gè)數(shù)據(jù)已經(jīng)有了。
模擬登錄 用httpclient 實(shí)現(xiàn)。 獲取了整個(gè)頁面 頁面是一個(gè)表格顯示記錄。 該用什么從頁面里提取數(shù)據(jù)呢?
關(guān)于java web的方向,我只會(huì)用jsp 寫一個(gè)增刪改查。 對于之后的內(nèi)容不是太懂 。
我要做這樣一個(gè)后臺(tái)管理抓取操作 用戶查詢 返回。 該從什么地方開始學(xué)? 或者說使用是什么樣的技術(shù)/框架呢?
關(guān)于查詢的網(wǎng)站: 有一個(gè)元素是跑操次數(shù)。 之后的是對應(yīng)的記錄 每條記錄顯示跑操時(shí)間 具體到分鐘。
抓取不是最困難的部分,問題是怎么做一個(gè)這樣一個(gè)管理系統(tǒng) 對于如何開發(fā)一個(gè)完整的web全棧 沒有思路。 我發(fā)現(xiàn)我不能評論。。。
謝謝!
問題解答
回答1:我就隨便說個(gè),因?yàn)槲乙矝]想到用什么方法。
用Jsoup去爬頁面數(shù)據(jù),哈哈
回答2:想到了幾點(diǎn),簡單說下:1.數(shù)據(jù)抓取,可以自己寫抓取程序,制定數(shù)據(jù)爬取的時(shí)間規(guī)則之類的2.數(shù)據(jù)處理,抓取到網(wǎng)頁的內(nèi)容通過jsoup或者其他方式對網(wǎng)頁有效內(nèi)容提取,并設(shè)計(jì)數(shù)據(jù)結(jié)構(gòu),學(xué)號應(yīng)該是唯一的,可以有學(xué)員表和晨跑記錄表,通過學(xué)號進(jìn)行關(guān)聯(lián)3.我的個(gè)人理解是按照次數(shù)排序,因?yàn)橄肓讼拢绻凑諘r(shí)間排序是不合理的,因?yàn)槭菦]有辦法判斷真正的晨跑時(shí)間的,那我這里就按次數(shù)來說吧,可以直接在學(xué)員表存放跑步次數(shù)的字段,減少通過記錄表查詢,提高效率,就是需要數(shù)據(jù)處理時(shí)維護(hù)此字段
回答3:一般來說呢,是基于httpclient這樣的工具將返回包拿到,解析報(bào)文實(shí)體(這里指html頁面),接下來就是利用xpath、正則、類似于jQuery方式解析DOM元素獲取你想要的數(shù)據(jù)(如jsoup包),如果還嫌麻煩可以使用webmagic框架
回答4:模擬登陸:用瀏覽器打開登陸頁觀察接收學(xué)號密碼的url;模擬登陸時(shí)post數(shù)據(jù)到該url;從response的header中解析Set-cookie字段信息;
數(shù)據(jù)抓取:向體育數(shù)據(jù)頁發(fā)起get請求(帶上上一步中拿到的cookie字段),拿到response,然后進(jìn)行正則解析獲得數(shù)據(jù)即可;
建議:緩存用戶每次查詢的數(shù)據(jù),比如緩存2個(gè)小時(shí),建議使用redis;數(shù)據(jù)庫可以存查詢到的數(shù)據(jù),先從redis中取數(shù)據(jù),取不到再模擬登陸拿新數(shù)據(jù)。至于數(shù)據(jù)庫這一層,個(gè)人感覺可有可無,有的話也可以進(jìn)行數(shù)據(jù)分析什么的
相關(guān)文章:
1. java中返回一個(gè)對象,和輸出對像的值,意義在哪兒2. css - chrome下a標(biāo)簽嵌套img 顯示會(huì)多個(gè)小箭頭?3. vim - docker中新的ubuntu12.04鏡像,運(yùn)行vi提示,找不到命名.4. docker網(wǎng)絡(luò)端口映射,沒有方便點(diǎn)的操作方法么?5. mysql - 在不允許改動(dòng)數(shù)據(jù)表的情況下,如何優(yōu)化以varchar格式存儲(chǔ)的時(shí)間的比較?6. mysql 為什么主鍵 id 和 pid 都市索引, id > 10 走索引 time > 10 不走索引?7. css3 - 純css實(shí)現(xiàn)點(diǎn)擊特效8. css - 網(wǎng)頁div區(qū)塊 像蘋果一樣可左右滑動(dòng) 手機(jī)與電腦9. javascript - Img.complete和img.onload判斷圖片加載完成有什么區(qū)別?10. javascript - 有適合開發(fā)手機(jī)端Html5網(wǎng)頁小游戲的前端框架嗎?
