文章詳情頁(yè)

python解析PDF程序代碼

瀏覽：3日期：2022-06-16 11:18:41

說(shuō)在前面

和word的文本相比PDF更類似于一張張圖片，圖上放著一個(gè)個(gè)文字。對(duì)其的解析是將圖片上的文字提取到text文件中，方便之后的分析。

添加依賴

在python的環(huán)境中安裝PDFminer3k，不要裝錯(cuò)了，一開(kāi)始我裝的是PDFminer，結(jié)果有幾個(gè)包不能用pip install pdfminer3k

源程序代碼

#!/usr/bin/env python3# -*- coding:utf-8 -*-# pip3 install pdfminer3kimport osfrom pdfminer.converter import PDFPageAggregatorfrom pdfminer.layout import LAParams, LTTextBoxHorizontalfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, PDFTextExtractionNotAllowedfrom pdfminer.pdfdevice import PDFDevicedef read_pdf(pdf_name, result_name): # 以二進(jìn)制讀模式打開(kāi) fp = open(pdf_name, ’rb’) # 用文件對(duì)象來(lái)創(chuàng)建一個(gè)pdf文檔分析器 parser = PDFParser(fp) # 創(chuàng)建一個(gè)pdf文檔 doc = PDFDocument() # 連接分析器與文檔對(duì)象 parser.set_document(doc) doc.set_parser(parser) # 提供初始密碼，如果沒(méi)有密碼就創(chuàng)建一個(gè)空的字符串 doc.initialize(’’) # 檢測(cè)文檔是否提供txt轉(zhuǎn)換，不提供就拋出異常 if not doc.is_extractable:raise PDFTextExtractionNotAllowed # 創(chuàng)建PDf 資源管理器來(lái)管理共享資源 rsrcmgr = PDFResourceManager() # 創(chuàng)建一個(gè)PDF設(shè)備對(duì)象 laparams = LAParams() device = PDFPageAggregator(rsrcmgr, laparams=laparams) # 創(chuàng)建一個(gè)PDF解釋器對(duì)象 interpreter = PDFPageInterpreter(rsrcmgr, device) with open(result_name, 'w', encoding='u8') as fd_out:# 循環(huán)遍歷列表，每次處理一個(gè)page的內(nèi)容for i, page in enumerate(doc.get_pages(), 1): index = '===========《第{}頁(yè)》==========='.format(i) print(index) fd_out.write(index + 'n') interpreter.process_page(page) # 接受該頁(yè)面的LTPage對(duì)象 layout = device.get_result() for x in layout:# 這里layout是一個(gè)LTPage對(duì)象里面存放著這個(gè)page解析出的各種對(duì)象一般包括LTTextBox,# LTFigure, LTImage, LTTextBoxHorizontal 等等想要獲取文本就獲得對(duì)象的text屬性if not isinstance(x, LTTextBoxHorizontal): continueresults = x.get_text()print(results)fd_out.write(results)if __name__ == ’__main__’: # 獲取讀取文件夾 filePath = ’../PDFfile’ #遍歷文件夾 for i,j,k in os.walk(filePath):for m in k: # 格式化輸出的名稱和地址 result = ’../TextFile/’ + m[:-4] + ’.txt’ # 格式化源文件路徑 fileName = i + ’/’ + m # 調(diào)用函數(shù)解析 read_pdf(fileName, result)

參考以下代碼內(nèi)容：python 讀取pdf文本內(nèi)容

#!/usr/bin/env python3#-*- coding:utf-8 -*-# pip3 install pdfminer3k from pdfminer.converter import PDFPageAggregatorfrom pdfminer.layout import LAParams, LTTextBoxHorizontalfrom pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, PDFTextExtractionNotAllowedfrom pdfminer.pdfdevice import PDFDevice def read_pdf(pdf_name, result_name): # 以二進(jìn)制讀模式打開(kāi) fp = open(pdf_name, ’rb’) # 用文件對(duì)象來(lái)創(chuàng)建一個(gè)pdf文檔分析器 parser = PDFParser(fp) # 創(chuàng)建一個(gè)pdf文檔 doc = PDFDocument() # 連接分析器與文檔對(duì)象 parser.set_document(doc) doc.set_parser(parser) # 提供初始密碼，如果沒(méi)有密碼就創(chuàng)建一個(gè)空的字符串 doc.initialize(’’) # 檢測(cè)文檔是否提供txt轉(zhuǎn)換，不提供就拋出異常 if not doc.is_extractable:raise PDFTextExtractionNotAllowed # 創(chuàng)建PDf 資源管理器來(lái)管理共享資源 rsrcmgr = PDFResourceManager() # 創(chuàng)建一個(gè)PDF設(shè)備對(duì)象 laparams = LAParams() device = PDFPageAggregator(rsrcmgr, laparams=laparams) # 創(chuàng)建一個(gè)PDF解釋器對(duì)象 interpreter = PDFPageInterpreter(rsrcmgr, device) with open(result_name,'w',encoding='u8') as fd_out:# 循環(huán)遍歷列表，每次處理一個(gè)page的內(nèi)容for i,page in enumerate(doc.get_pages(),1): index = '===========《第{}頁(yè)》==========='.format(i) print(index) fd_out.write(index + 'n') interpreter.process_page(page) # 接受該頁(yè)面的LTPage對(duì)象 layout = device.get_result() for x in layout:# 這里layout是一個(gè)LTPage對(duì)象里面存放著這個(gè)page解析出的各種對(duì)象一般包括LTTextBox,# LTFigure, LTImage, LTTextBoxHorizontal 等等想要獲取文本就獲得對(duì)象的text屬性if not isinstance(x, LTTextBoxHorizontal): continueresults = x.get_text()print(results)fd_out.write(results) if __name__ == ’__main__’: pdf_name = ’test.pdf’ result = ’test.txt’ read_pdf(pdf_name, result)

以上就是python解析PDF的詳細(xì)內(nèi)容，更多關(guān)于python解析PDF的資料請(qǐng)關(guān)注好吧啦網(wǎng)其它相關(guān)文章！

Python 編程

上一條：用python搭建一個(gè)花卉識(shí)別系統(tǒng)下一條：如何用Pythony驗(yàn)證萬(wàn)物歸一(考拉咨猜想)

相關(guān)文章：

1. moment轉(zhuǎn)化時(shí)間戳出現(xiàn)Invalid Date的問(wèn)題及解決2. python爬蟲(chóng)實(shí)戰(zhàn)之制作屬于自己的一個(gè)IP代理模塊3. 使用JSP技術(shù)實(shí)現(xiàn)一個(gè)簡(jiǎn)單的在線測(cè)試系統(tǒng)的實(shí)例詳解4. asp批量添加修改刪除操作示例代碼5. 開(kāi)發(fā)效率翻倍的Web API使用技巧6. HTML 絕對(duì)路徑與相對(duì)路徑概念詳細(xì)7. 解決ajax請(qǐng)求后臺(tái),有時(shí)收不到返回值的問(wèn)題8. ajax請(qǐng)求后臺(tái)得到j(luò)son數(shù)據(jù)后動(dòng)態(tài)生成樹(shù)形下拉框的方法9. .NET6打包部署到Windows Service的全過(guò)程10. WML的簡(jiǎn)單例子及編輯、測(cè)試方法第1/2頁(yè)

排行榜

					
					moment轉(zhuǎn)化時(shí)間戳出現(xiàn)Invalid Date的問(wèn)題及解決
python爬蟲(chóng)實(shí)戰(zhàn)之制作屬于自己的一個(gè)IP代理模塊
動(dòng)態(tài)設(shè)置django的model field的默認(rèn)值操作步驟
Java剖析工具YourKit 發(fā)布5.0版本
Android的線程和線程池
Android Studio 小技巧匯總
關(guān)于Python Socket編程的要點(diǎn)詳解
Python數(shù)據(jù)分析之繪圖和可視化詳解
如何快速理解python的垃圾回收機(jī)制
HTML 絕對(duì)路徑與相對(duì)路徑概念詳細(xì)
如何在jsp界面中插入圖片
				

av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

python解析PDF程序代碼