av一区二区在线观看_亚洲男人的天堂网站_日韩亚洲视频_在线成人免费_欧美日韩精品免费观看视频_久草视

您的位置:首頁技術(shù)文章
文章詳情頁

如何使用Python進行PDF圖片識別OCR

瀏覽:2日期:2022-06-29 11:54:07
使用場景

使用圖片識別可以快速提取圖片中的信息,方便高效。

Python并不能直接對PDF進行識別,所以如果是識別PDF的話,需要先將PDF轉(zhuǎn)化為圖片,然后再進行識別。

必備工具 Python

可以安裝3.7及以上版本

tesseract-ocr

下載地址: https://github.com/UB-Mannheim/tesseract/wiki 使用最新版本即可

需要用到的庫

pip install pillowpip install opencv-pythonpip install fitzpip install PyMuPDFpip install pytesseract代碼示例

from PIL import Imageimport osimport pytesseract import cv2 as cvimport fitzdef pdf_image(pdfPath,imgPath,zoom_x,zoom_y,rotation_angle): # 打開PDF文件 pdf = fitz.open(pdfPath) # 逐頁讀取PDF for pg in range(0, pdf.pageCount): page = pdf[pg] # 設(shè)置縮放和旋轉(zhuǎn)系數(shù) trans = fitz.Matrix(zoom_x, zoom_y).preRotate(rotation_angle) pm = page.getPixmap(matrix=trans, alpha=False) # 開始寫圖像 pm.writePNG(imgPath+str(pg)+'.png') #pm.writePNG(imgPath) pdf.close()pdf_path =’D:/123.pdf’img_path =’D:/123.png’pdf_image(pdf_path,img_path,5,5,0)# 依賴opencvimg=cv.imread(img_path)text=pytesseract.image_to_string(Image.fromarray(img),lang=’chi_tra’)# 不依賴opencv寫法# text=pytesseract.image_to_string(Image.open(img_path))print(text)總結(jié)

識別清晰的文字圖片的時候準確率非常高

但是識別手寫體的話效果不太好

注意事項

在安裝tesseract-ocr 的時候一定要記得選擇對應(yīng)的語言,不然是無法正常使用的。

以上就是如何使用Python進行PDF圖片識別OCR的詳細內(nèi)容,更多關(guān)于python pdf圖片識別ocr的資料請關(guān)注好吧啦網(wǎng)其它相關(guān)文章!

標簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 欧美性猛交99久久久久99按摩 | 国产一区二区三区精品视频 | 欧美日韩网站 | 国产精品一区二区三 | 一区二区三区四区在线视频 | 欧美日韩亚洲天堂 | 91丨porny丨成人蝌蚪 | 日韩在线免费视频 | 久久精品欧美一区二区三区不卡 | xxxx亚洲| 国产网站在线 | 亚洲国产成人在线 | 中文字幕在线播放视频 | 午夜激情在线 | 欧美一区视频 | 天天干夜夜骑 | 国产精品天堂 | 老司机深夜福利视频 | 综合一区二区三区 | 久久免费精品 | 欧美做爰xxxⅹ性欧美大片 | 91免费国产| 色婷婷18| 婷婷第四色 | 国产在线观看一区二区三区 | 日韩免费看片 | 爱情岛论坛av | 亚洲 欧美 激情 另类 校园 | 成人毛片网 | 成人区精品一区二区婷婷 | 中文字幕在线观 | 成人一区二区在线 | 日韩国产精品视频 | 在线观看成年人视频 | 国产www视频 | 中文在线永久免费观看 | 日韩成人精品一区二区 | 亚洲一级特黄 | 成人黄色av | 亚洲天堂一区二区三区 | 中文字幕亚洲精品 |