个人知识管理站

分享个人生活、工作、学习过程中各种所学、所见、所闻,有趣的、好玩的、技术积累等各方面的内容。

您尚未登录。

公告

不积跬步无以至千里,不积小流无以成江海,网址:www.itecfun.com

#1 2018-11-26 11:50:59

xuyg
管理员
注册时间: 2015-01-21
帖子: 667

python3.6 + tesseract-orc 4.0 + pillow 5.1图片识别(中文识别)(源码 可执行)【原创】

tesseract4.0安装参考链接进入

以下代码保存文件名为trans2Chi_sim.py

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from PIL import Image
import pytesseract

import argparse

#命令行执行 添加图片目录和结果保存路径
ap = argparse.ArgumentParser()

ap.add_argument("-i","--image",required=True,help="path to input image")
#结果保存的文件可以不设置,默认保存到当前目录下的result.txt文件中
ap.add_argument("-r","--result",required=False,help="the name of the result txt file save name")

args = vars(ap.parse_args())

#获取图片
img_path = args["image"]
print('image path : %s'%img_path)

#识别结果默认保存到当前目录result.txt文件中
res_path ='result'
if args["result"] is not None:
	res_path = args["result"]

#print('result path : %s'%res_path)

image = Image.open(img_path)
#使用tessdata chi_sim简体中文训练数据进行识别
text = pytesseract.image_to_string(image, lang='chi_sim')

filename = res_path
if '.txt' not in res_path:
	filename = res_path+".txt"
#结果保存
with open(filename,'w') as f:
	f.write(text.replace(' ',''))  #识别后每个字之间有空格,需要去掉空格

print('识别内容已保存到文件:%s'%filename)

命令号执行如下:
python trans2Chi_sim.py -i imagename.jpg [ -r result.txt]

非手写字体识别率非常高,很不错

离线

页脚

©2019 YG Wang 备案号: 赣ICP备19010196号-1