基于深度学习的中文OCR识别

估计很多开发员使用tesseract做中文识别,但是结果不是一般的差,譬如下面的图片

test_data

其实现在做文字识别不是很难,特别基于深度学习,这里是这个项目的reco_chars.py脚本,基于caffe的识别效果,是不是好很多?而且代码比tesseract短很多。

获取识别结果

大家可以基于caffe训练自己的字体,系统基于这个文章开发单个字的识别:

https://github.com/JinpengLI/deep_ocr

系列课程:

Lesson 1: 如何做文本行和文字分割
Lesson 2: 单个字符识别 (sklearn)

更多。。还在写。。。小编努力ing

微信公众号 changdata

wechat: changdata
wechat: changdata

《基于深度学习的中文OCR识别》有8个想法

      1. 大神,你好!我现在在尝试做图片识别,已经把图片按行和列分割成了单个字符,我手动打了一些语料,数字识别效果还可以,但是中文不行,我想问一下单字中文识别的语料是手动打呢还是有一些自动生成的方法?

        1. 这个问题有点累,我还在上班呢,我觉得最大的问题是单个字符的分割吧?其他的单个文字你找到字体文件生成吗?有字体文件,可以自动生成,或许还可以加一些人工噪音进去训练。

  1. 博主,你好。我发现同样的图片文件在你给出的github源码下的识别效果,和在你网站上的识别效果相差很大。比如就用示例中的test_data.png图片,网站上的结果要好的多,想请教下原因是什么?

发表评论

电子邮件地址不会被公开。 必填项已用*标注