python 將html轉換為pdf的幾種方法
將 HTML 網(wǎng)頁轉換為 PDF 是很多人常見的一個需求,在瀏覽器上,我們可以通過瀏覽器的“打印”功能直接將網(wǎng)頁打印輸出為 PDF。
但是如果有多個網(wǎng)頁就不好辦了。
二進制軟件網(wǎng)絡上存在很多將 HTML 轉換為 PDF 的軟件和工具。比較著名的有 Carelib、wkhtmltopdf。
whtmltopdfwkhtmltopdf 真是一個優(yōu)秀的 HTML 轉換 PDF 工具。其借助 Qt 的 WebKit 渲染引擎,將 HTML 文檔渲染導出為 PDF 文檔或圖像。
功能十分完善,但是由于使用的渲染引擎是 Qt 的 WebKit,其沒法對 ES6 的 JavaScript 代碼提供支持,導致一些采用 ES6 編寫的 HTML 頁面渲染不出實際的效果來,導致州的先生最終放棄了它。
CarelibCarelib 是一個電子書管理軟件,其中提供了各類文檔的轉換工具,所以可以借助其電子書轉換工具來實現(xiàn) HTMl 到 PDF 的轉換。
這些都是用于桌面環(huán)境的二進制軟件,如果要在 Python 中使用,要么使用 Popen() 方法調用這些二進制軟件的命令,要么使用一些第三方的封裝模塊,比如:pdfkit、pypandoc 等,這些第三方模塊通過集成調用上述二進制軟件,封裝了一些方便 Python 調用的接口。
純 Python 庫實現(xiàn)上面介紹的那些 Python 第三方模塊雖然可以很好的進行 HTML 到 PDF 的轉換工作,但是都需要額外在計算機上安裝其他的二進制軟件,很多小伙伴并不喜歡這種調用方式。
不依賴于二進制軟件的實現(xiàn),有如下的方案:
xhtml2pdf這是一個基于 ReportLab、html5lib、PyPDF2 等 Python 模塊構建的 HTML 到 PDF 轉換模塊。能夠很好的支持 HTML5 、CSS2.1 和部分 CSS3 語法。
因為是基于 Report Lab 模塊進行的開發(fā),其對中文的支持在某些環(huán)境下會有問題。而且由于開發(fā)人員的變更,模塊的功能出現(xiàn)了一些斷層。但是仍然是一個非常棒的 HTML 轉 PDF 模塊。
weasyprint這是一個用于 HTML 和 CSS 的可視化渲染引擎,可以將 HTML 文檔導出為打印標準的 PDF 文件。
xhtml2pdf 模塊也曾推薦使用這個模塊來進行 HTML 轉換 PDF 的工作。
這個模塊功能很強大、效果很出色,但是,模塊的依賴項太多了:
州的先生至今沒有在 Windows 電腦上安裝成功過!
瀏覽器方案在上述兩種方案中,二進制程序的可控制性稍有不足,而純 Python 實現(xiàn)的渲染解析則在功能上和依賴上不是有友好。
處理上述兩種方案,我們還能采用第三種方式進行 HTMl 到 PDF 的轉換。那就是借助 Web 自動化測試的瀏覽器內核和 Qt for Python 的 Web 引擎 來實現(xiàn)。
Web 自動化的瀏覽器內核使用 Python 的小伙伴經(jīng)常會使用 Selenium、pyppeteer 這兩個 Web 自動化測試的模塊來進行數(shù)據(jù)采集和 Web 自動化測試工作。
這兩個模塊都是用來驅動一個真實的瀏覽器來進行網(wǎng)頁的操作。正是基于此,我們可以調用瀏覽器中打印相關的 API 接口,來實現(xiàn) HTML 轉 PDF 的功能。
例如,在 pyppeteer 中可以按照下面示例的方式,打開一個 HTML 文檔,然后將其轉換為 PDF 文檔:
在 Qt5 中,Qt 使用新的 Chromium 內核代替了老舊的 WebKit 作為 Web 的渲染引擎。使得在 Qt 中進行可以現(xiàn)代化的瀏覽器開發(fā)。
借助于 Qt 的 Python 實現(xiàn)(PyQt5 系列 和 PySide2 系列),我們可以直接調用 Qt 中的 Web 引擎相關的接口。
其中 QtWebEngineWidgets 子模塊中的 QWebEngineView() 類提供了 printToPdf 方法供我們將網(wǎng)頁打印為 PDF 文檔,所以基于此,我們也可以使用 PyQt5 或 PySide2 進行 HTML 轉換 PDF,示例如下所示:
在上面,州的先生介紹了 3 種在 Python 中轉換 HTML 文檔為 PDF 文檔的方案,每種方案都有各自的優(yōu)勢和不足,正確地評估自己的需求然后選擇合適的方案,也能彌補其不足。
以上就是python 將html轉換為pdf的幾種方法的詳細內容,更多關于python 將html轉換為pdf的資料請關注好吧啦網(wǎng)其它相關文章!
相關文章:
1. vue style width a href動態(tài)拼接問題的解決2. Java源碼解析之接口List3. 在vue中獲取wangeditor的html和text的操作4. python mysql 字段與關鍵字沖突的解決方式5. Python用K-means聚類算法進行客戶分群的實現(xiàn)6. Java xml數(shù)據(jù)格式返回實現(xiàn)操作7. python編寫五子棋游戲8. 解決Android Studio Design界面不顯示layout控件的問題9. 使用vue-cli創(chuàng)建項目并webpack打包的操作方法10. python讀取中文路徑時出錯(2種解決方案)
