文章詳情頁

java - 對gzip文件進行流式解壓時，如何解壓出其中某些單獨的數據塊中的數據？

瀏覽：81日期：2023-11-06 18:09:25

問題描述

場景描述：

現有許多行日志文本，按天壓縮成一個個TB級的gzip文件。使用流對每個壓縮文件的數據段進行傳輸然后解壓，對解壓出的文本分詞并索引以后查到這個詞時，定位到這個詞所在的文件和段，再用流傳輸并解壓（實際上是想利用已有的壓縮文件構造一個類似ES的搜索引擎）

現在的問題是，因為接收到的不是完整的壓縮文件而是塊狀二進制數據，所以接收的數據由于信息不完全而無法解壓

現在想實現這樣的功能：首先將接收到的流數據解壓還原為完整的數據（原始日志數據以換行符分隔，能得到每段流數據壓縮前的文本和對應文件的偏移量就好），然后考慮到傳輸和存儲等過程可能使數據出錯，所以針對每段數據流，在出錯的情況下解壓出盡可能多的數據。

部分相關代碼如下：（改自https://stackoverflow.com/que...）

import zlibimport tracebackCHUNKSIZE=30d = zlib.decompressobj(16 + zlib.MAX_WBITS)f = open(’test.py.gz’,’rb’)buffer = f.read(CHUNKSIZE)i = 0while buffer : i += 1 try:#skip two chunk if i < 3 or i > 4: outstr = d.decompress(buffer) print(’*’*10 + outstr + ’#’*10) except Exception, e:print(traceback.print_exc()) finally:buffer = f.read(CHUNKSIZE)outstr = d.flush()print(outstr)f.close()

當i>=3以后，每次循環均報錯我的結論是若流不連續（跳過接收部分數據），則之后的數據都無法解壓。問題1：如果做到能正確的解壓出收到的每部分數據？（因為可能牽涉到gzip壓縮的算法和數據結構，我正在看相關代碼。如果可以通過追加傳輸頭部的某一chuck或者需要解壓的數據的前后某些chuck能解決問題也算可以）問題2：如果不能正確的解壓接收到的每部分數據，那么如何做到解壓出盡可能多的數據？

問題解答

回答1：

我覺得可以做一個出錯重新續傳的功能，傳輸前備份當前這一段數據流，你得判斷出當前傳輸的這一段數據流是否傳輸完整了。這就要求傳送端和接收端之間的傳輸協議是你能改動的，出現錯誤就立刻反饋fail給傳輸端，從剛才這段重新續傳，沒有錯誤就反饋OK，繼續傳輸下一段。這樣就能保證數據的完整性。如果文件太大，可以在內存中備份多些數據段，做些細節性的判斷。

回答2：

不太確定你描述的問題，不過在stackoverflow 有些問答或許有幫助。

How can I decompress a gzip stream with zlib?

Python decompressing gzip chunk-by-chunk

java

上一條：java - 如何在調用static方法前默認調用一段代碼？下一條：java - 單元測試，怎么讓spring管理事務又不污染數據庫

排行榜

					
					數組按鍵值封裝！
Docker for Mac 創建的dnsmasq容器連不上/不工作的問題
docker不顯示端口映射呢？
java - 阿里的開發手冊中為什么禁用map來作為查詢的接受類?
python - flask _sqlalchemy 能否用中文作為索引條件
angular.js - 如何用gulp打包ionic應用，項目JS腳本是使用 require.js 來組織的
angular.js - 請問ng-click="alterCheck()"和ng-click="check=true"有什么不同？
node.js - node啟動本地服務失效但是瀏覽器卻能打開localhost的原因是什么
clone - git sourceTree克隆倉庫時,都不停彈出Password Required彈窗,即時輸入正確的git賬號密碼還是彈出
python3.x - git bash如何運行.bat文件？
html5 - 使用echarts中的圖表  一個頁面導入了好幾個js圖表  實現echarts圖表隨著瀏覽器窗口變化而變化時出現了問題
				

熱門標簽

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

java - 對gzip文件進行流式解壓時，如何解壓出其中某些單獨的數據塊中的數據？

java - 對gzip文件進行流式解壓時，如何解壓出其中某些單獨的數據塊中的數據？