OCR 工具tesseract初体验 #1

leon0625 · 2018-01-08T02:51:30Z

OCR 工具tesseract初体验

@(工具使用)[工具使用, python]

OCR即图片上文字识别

安装tesseract

github地址
tesseract是一个命令行程序，后面安装的pytesseract也只是一层包装，实际还是调用命令行

下载
windows版下载地址

安装
下载完之后安装时点下一步慢点，因为安装的时候可以下载中文语言包

设置环境变量
安装完之后需要设置两个环境变量

把安装路径添加到PATH环境变量
设置TESSDATA_PREFIX环境变量，不然找不到语言包
TESSDATA_PREFIX=D:\Program Files (x86)\Tesseract-OCR\tessdata

这时命令行版tesseract就可以使用了

安装pytesseract

pip install pytesseract

测试程序：

import pytesseract
from PIL import Image


# 默认英语
image = Image.open('en.png')
text = pytesseract.image_to_string(image)
print(text)

print("====================")

# 识别中文, 巨慢
image = Image.open('cn.png')
text = pytesseract.image_to_string(image, lang='chi_sim')
print(text)

print("====================")

# 设置中文和英语，识别巨慢，而且易错
image = Image.open('en_cn_test.png')
text = pytesseract.image_to_string(image, lang='chi_sim+eng')
print(text)