图像文字识别—人工智能的慧眼
前言
人类对世界的感知大约80%是通过视觉获取的,因此,如何让计算机具备甚至超越人类的视觉能力一直以来都是科学研究的重要方向。图像文字识别技术是计算机视觉技术的重要组成部分,在日常生活中具有重要的价值和意义。
现状
图像文字识别是指识别图像中的文字。传统的文字识别的一般框架如图1所示,包括预处理、特征提取、分类器设计三个主要模块[1]。首先经过预处理操作,形成规定的图片大小,使字符位置在图片中心,然后对预处理后的图片提取字符特征,最后分类器根据提取的特征对字符进行分类。图像文字识别的预处理部分主要包括样本归一化、平滑去噪、伪样本生成技术;特征提取部分可以分为结构特征和统计特征两种,结构特征主要是对文字结构、笔画或部件来进行提取,统计特征目前比较常用的是Garbor特征和Gradient特征;分类器常用的有SVM、HMM、二次判决函数等。
图1 传统文字识别框架图
近几年,基于上述方法在识别性能上的研究进展不大,主要是字符分类结果主要依赖于提取的特征,但是很难设计出比较稳健的特征。而自从有了深度学习技术,文字识别又有了新的活力,我们可以利用深度学习技术如CNN、DNN、RNN可以把文字识别问题解决的很好并且识别过程也不像传统方法那么复杂,不用做预处理和手工设计特征、提取特征操作,直接将文字图像作为网络的输入。并且文字识别一直是深度学习一个主要的应用方向,上世纪90年代,深度学习的先驱者如Y. Lecun和Bengio合作设计了LeNet5解决了手写数字识别问题,图2是他们在贝尔实验室做的Demo。
图2 手写数字识别demo图
而简单利用深度学习解决汉字识别,效果并不是很理想,近几年研究者针对汉字识别问题也做了大量的工作,发现加上一些领域的知识并结合CNN的方法可以更好地解决中文识别问题。如使用数据生成技术生成大量的样本数据来防止过拟合问题[2]和传统特征提取方法结合CNN方法提高识别效果。Zhong[3]等人提出用特征提取+CNN的方法来识别手写汉字,提取的特征是八方向的Garbor特征、梯度特征和HOG特征,积字的特征图如图3所示。他们改进的AlexNet和GoogleNet网络结构如图4与图5所示,和原先结构相比他们在输入层做了改进,将特征图像也作为输入层,最后的集成网络结构的识别结果在CASIA-HWDB数据集上达到96.74%,首次超过人类的识别水平(96.13%)。
图3“积”字特征图
图4 离线手写体汉字识别AlexNet结构图
图5 离线手写体汉字识别GoogleNet结构图
目前,使用深度学习技术进行单字符识别在某种程度上取得了很好的效果,大量学者开始研究含序列信息的文本行的识别[4]。针对此问题,有极大潜力的解决方法是应用神经回归网络(RNN)模型、LSTM、BLSTM(Bidirectional long short term memory)等模型,因为这些模型对序列数据有很好的建模能力,因此它们适合解决有时序先后顺序信息的文字行识别的问题。基于LSTM-RNN方法在英文、拉丁文等西方语言的文本行识别中取得了很好的效果[5-7],文献[8]首个将LSTM-RNN模型用于中文的文本行识别,也达到此领域先进的水平。总之RNN+CNN可以训练端到端的深度学习模型,也是研究文字识别的主要方法。
应用
文字识别在生活中有广泛的应用。例如我们比较熟悉的移动设备上的手写文字识别,手写输入功能已成为移动设备(手机、pad)的标配。
图6 移动设备手写识别
文字识别实现办公自动化将纸质文件转换为电子文档。还有证件的识别和邮政地址的识别也早已得到应用。
图7 文档图像识别
此外,文字识别还有很多有趣的应用,比如可以辅助我们进行图像的搜索和分类,AR眼镜实现实时场景包括街景文字的翻译。
图8 场景文字识别
在未来,文字识别也有很大的应用市场,如在图像搜索引擎、自动驾驶、金融保险、AR、智能机器人、教育医疗等方面都有很多的应用[9]。并且还可以产生很多的创新应用,如可以让盲人看懂世界、盲人看大片等。
结语
目前的人工智能中有不同的识别引擎,也就相当于用不同的眼睛来解决视觉感知问题,并且文字识别作为人工智能中一个典型的模式识别问题,虽经历了几十年的发展取得了很好的成就,但做的还不够智能和通用。其在许多方面都还值得研究,如把手写、表单、名片、场景文字等用一个通用的统一的方案来解决这个问题,这样文字识别这个眼睛才能真正称得上是人工智能中一只智慧的眼睛。
参考文献:
[1] 金连文, 钟卓耀, 杨钊,等. 深度学习在手写汉字识别中的应用综述[J]. 自动化学报, 2016, 42(8):1125-1141.
[2] Yang W, Jin L, Liu M. Chinese character-level writer identification using path signature feature, DropStroke and deep CNN[J]. 2015:546-550.
[3] Zhong Z, Jin L, Xie Z. High performance offline handwritten Chinese character recognition using GoogLeNet and directional feature maps[C]// International Conference on Document Analysis and Recognition. IEEE Computer Society, 2015:846-850.
[4] Liao M, Shi B, Bai X, et al. TextBoxes: A Fast Text Detector with a Single Deep Neural Network[J]. 2016.
[5] Frinken V, Uchida S. Deep BLSTM neural networks for unconstrained continuous handwritten text recognition[C]// International Conference on Document Analysis and Recognition. IEEE Computer Society, 2015:911-915.
[6] Rawls S, Cao H, Kumar S, et al. Combining Convolutional Neural Networks and LSTMs for Segmentation-Free OCR[C]// Iapr International Conference on Document Analysis and Recognition. IEEE Computer Society, 2017:155-160.
[7] Simistira F, Ulhassan A, Papavassiliou V, et al. Recognition of historical Greek polytonic scripts using LSTM networks[C]// International Conference on Document Analysis and Recognition. 2015:766-770.
[8] Messina R, Louradour J. Segmentation-free handwritten Chinese text recognition with LSTM-RNN[C]// International Conference on Document Analysis and Recognition. IEEE, 2015:171-175.