新聞中心
將圖片翻譯成文字一般被稱為光學(xué)文字識別(Optical Character Recognition,OCR)??梢詫崿F(xiàn)OCR 的底層庫并不多,目前很多庫都是使用共同的幾個底層OCR 庫,或者是在上面進(jìn)行定制。

Tesseract 是一個OCR 庫,目前由Google 贊助(Google 也是一家以O(shè)CR 和機(jī)器學(xué)習(xí)技術(shù)聞名于世的公司)。Tesseract 是目前公認(rèn)最優(yōu)秀、最精確的開源OCR 系統(tǒng)。
Tesseract的安裝與使用:
Tesseract的Windows安裝包下載地址為: http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe ,下載后雙擊直接安裝即可。
安裝完后,需要將Tesseract添加到系統(tǒng)變量中。在CMD中輸入tesseract -v, 如顯示以下界面,則表示Tesseract安裝完成且添加到系統(tǒng)變量中。
Linux 用戶可以通過apt-get 安裝:
$sudo apt-get tesseract-ocr
使用示例:
圖片路徑為:E://figures/other/poems.jpg
輸入命令 tesseract E://figures/other/poems.jpg E://figures/other/poems.txt, 則會將poems.jpg中的識別文字寫入到poems.txt中
標(biāo)題名稱:創(chuàng)新互聯(lián)Python教程:怎么用python實現(xiàn)把圖片上的字寫入文本文件
網(wǎng)頁路徑:http://m.5511xx.com/article/djojecs.html


咨詢
建站咨詢
