表单识别:准确快速实现纸质表格表单的电子化

作者: Yoyo 来源: 网络 时间: 2020-11-02

表单识别是在OCR识别核心基础上开发的基于固定表格识别的一种OCR识别工具,适用于具有表格特征的表单、票据、单证等。通过扫描、图像处理、自动分类、OCR(光学字符识别)技术,将表格图像中的数据信息准确、快速、真实地提取并保存。

应用背景

表格表单是一种高度精炼,集中的信息表达手段,纸质表格被广泛的应用于数据采集,将纸质表格数据转换成电子数据是信息化必然趋势。然而,传统的人工数据录入方式需要由专门的数据录入员将数据一条一条手动录入到计算机存储,这种方式耗费了大量的人力和时间,存在许多弊端:

录单任务繁重、强度大、录入员在高强度重复工作状态下极易疲劳出错;

增加录单人手、增加计算机设备都导致办公成本增加;

业务剧增,表格表单文件数量庞大,企业机构需要耗费更多的人力和时间去处理这些表格表单。

OCR表单识别应用

随着OCR技术的出世与应用,表格表单信息录入管理模式也随之发生了改变,通过OCR表单识别技术,实现表格图像中的数据信息准确、快速、真实地提取,最大程度上减少企业员工的工作量。

厦门云脉凭借其十几年的OCR研发经验和技术积累,以及对市场的深入调查,全面推出表单识别技术,为客户提供企业级的数据采集方案,大大提高计算机识别表单票据的准确率和速度,促进企业机构纸质表单信息化。

云脉表单识别包含国内尖端的票据表格核心处理技术,可根据各类纸质票据、表格、单证等排版特点,按区域分别将不同的内容识别并提取成字符、图像等电子数据。这就意味着利用云脉表单识别,可以针对自定义模板处理各种形式、格式的表单,无论大小、布局和内容,可根据自定义栏目、文本进行框选后识别。

云脉通过深度的OCR引擎识别和文本处理技术给予表格表单提供了无与伦比的文档分析和数据的提取功能,云脉表单识别包含了先进的模板学习和文本、图像分析提取技术,通过模板元素定义表单,将整个表单生命周期和生产数据以自动化形式产出数据资源,节省人工的处理时间。

云脉表单识别的优势:

识别表格种类多,各种银行单据、票据、测评表等固定性表格都能识别;

表格分类精确,可实现各种表格、票据的自动分类

识别速度快,单张平均识别时间小于2秒;

识别率高,字符识别率>96%,栏目识别率>97%;

API开发支持Java、C++、C、object pascal及objective-C等多种语言。


© 2019 - 厦门云脉技术有限公司 闽ICP备05018578号-5 | 网站地图