OCR票据识别系统如何实现表格自动录入?

作者: Vivian 来源: 网络 时间: 2017-08-31

随着互联网的不断发展,各行各业对无纸化的需求也越来越强烈,特别是拥有大量表单数据录入的企业或政府机构。人工录入表单信息需要耗费大量的时间和人力,云脉OCR票据识别系统的开发正好解决了这一问题,最大程度上减少用户的工作量。

凭借多年来在OCR技术领域的研发和积累,国内OCR技术的领航者厦门云脉推出了自主研发的云脉OCR票据识别系统,为客户提供企业级的票据表单采集方案。云脉OCR票据识别系统是一种票据格式的表格自动录入系统,它能快捷、准确、高效地实现日常业务的信息化,适合于银行、税务等行业大量票据表格的自动扫描、识别及电子存储,也可应用于证券、保险、海关等众多领域。

票据识别流程_meitu_1.jpg

OCR票据识别系统如何实现表格自动录入?主要技术实现包括:样本数据的输入、图像的预处理、图面分析及字符切出、基于单字符的特征选择与提取、识别模板的设计及判别决策。

票据样本数据的输入:光电扫描仪作为输入设备,扫描仪的扫描精度与所能获取的票据样本信息量的大小直接相关,而票据样本图像的清晰度是影响系统系能的重要因素之一,也是OCR票据识别系统的一个重要参数。扫描精度越高,图像的清晰度就越高,所包含的信息量就越大,这对提高识别率是有利的。但是图像清晰度越高数据量也就越大,所需要的内存和处理时间也要增加,处理速度收到明显印象。因此,合理选取扫描精度很重要。

票据图像的预处理:为突出字符的有效信息而采取的灰度线性拉伸处理,不仅压缩了字符图像背景灰度的层次,而且使字体灰度分布与背景灰度分布之间的距离得以扩张,最大程度地保证了字符笔划的完整性以及字符和背景的有效分离,显著提高了二值化的效果。二值化采用了兼顾全局和局部特点的改进的自适应二值化算法,不仅能完成二值化处理,还能优化图像的质量,对二值化以后的图像又进行了水平和垂直两次中值滤波,以及去除噪声块的处理。

图面分析及字符切出:在普通的脱机文本识别尤其是自由手写体的识别中,图像的分割往往是二值化之后的重要一步,有较大难度。由于定位信息的存在,使行分割的难度大大降低了。在单字符的切分中,考虑到印刷体的特点和耗时因素,采用了投影法,根据文本行而二值图像作纵向投影所获取的波峰投影图,结合字符有效宽度完成对字符的切分。

基于单字符的特征选择与提取:特征选择和提取在任何系统中,都是OCR技术的核心所在,很大程度上决定了系统的识别系能。在本系统中采用的是将字符的投影信号和小波变换相结合的方法,提取多尺度分解后的小波系数作为字符的特征。由于投影信号特征简单直观易于获得,但是细分能力较差。而小波变换是一种信号的时间-尺度分析方法,它具有多分辨分析的特点。离散小波变换可以将信号分解为不同尺度下的近似和细节。

识别模板的设计及判别决策:不同形式的识别模板及判别决策,将会对系统的识别性能产生不同的影响。

OCR系统可以实现将大量存储在纸介质上的信息,进行自动识别和电子化转存、处理,把人们从繁忙的录入工作中解放出来,极大地提高了工作效率。因此,OCR系统尤其是专业OCR系统有着广泛的应用前景和极高的使用价值,成为众多商家纷纷看好和投入力量开发的高科技热门产品。