档案数字化中OCR的运用

作者: Yoyo 来源: 网络 时间: 2021-06-17

信息时代,档案数字化已成为今后一段时期档案工作的重中之重,纸质档案扫描工作在各地如火如荼地进行。然而,扫描所产生的电子档案实际上只是以图像形式存在的文件,而非真正意义上的文本文件。也就是说,计算机只认识档案的外表,却不认识其内在文字。用户通过计算机只能看到档案的原貌,却不能对其中的内容进行引用、检索等操作,这无疑对将来的电子档案利用工作造成了很大的不便。考虑到档案用户的利用需求,若要得到真正文本形态的电子档案,使档案数字化工作更加有效、更加彻底,便要应用到OCR技术。

OCR的工作流程为影像输入、影像前处理、文字特征抽取、比对识别、人工校正、最后将识别结果输出保存。OCR技术相对于传统的手工录入方式来说,具有强大的优势。首先,OCR文字识别的速度远快于手工录入, OCR还节省了大量人力资源,优化了资源配置,使人员分配于更加有意义的工作。

厦门云脉推出的云脉文档识别就是依托OCR技术为基础,云脉文档识别SDK适用于高拍仪、扫描笔、档案数字化加工等行业的合作伙伴集成开发,不但适用于印刷识别且适用于手写识别。

准确——识别率高达97%以上

快速——800万中文识别时间小于3秒

简单——企业可将该识别服务部署在自有服务器上(云服务器或本地服务器)

通用——支持APP、客户端、浏览器、微信端、扫描仪、高拍仪等多种途径调用识别

1.创新著录标引方式

OCR技术提供了一种新的著录方式,使档案条目通过计算机录入成为可能。工作人员可以直接从OCR后的全文中找到著录项:如题名、文号、责任者等复制粘贴到目录数据库的相应字段中去。

2.实现真正的全文检索

实现真正的全文检索自然离不开OCR技术,因为只有将扫描图像中的文字变成文本格式,才有可能对其中的文字进行逐字检索。

3.支持双层PDF和OFD技术

3.支持双层PDF和OFD技术

4.优化图像质量,对图像进行纠偏、去污处理,调整亮度,对比度使图像更美观。


在线体验:https://www.yunmaiocr.com/; 手机h5访问地址:https://www.aipim.cn/docs/