导读
OCR(光学字符识别)引擎是指:对扫描仪或数码相机对文本资料进行扫描成的图像文件进行分析处理,自动识别获取文字信息及版面信息的软件。
痛点
流程工厂数字化建设需求日益强烈,以技术转让、老工厂数字化恢复项目为例,这类项目在实施数字化的过程中,有大量的数据是以纸质文件或者扫描版的图像形式存在,这类数据属于非结构化数据,计算机无法读取其内在信息,用户通过计算机只能看到档案的原貌,却不能对其中的内容进行检索、引用等,如果这些重要的电厂基础数据无法被灵活引用,将在一定程度上会制约电厂的数字化建设。此外,由于这类文件数量巨大,如果采用手动录入的处理方式则需要投入大量的人力成本和时间成本。
为了实现图像类文件的数据提取,大幅度降低人力投入的成本,图为技术自主研发了OCR引擎。
介绍
图为技术OCR引擎是一款基于深度学习算法,为纸质图档(如CAD纸质图纸)、图形图像(如扫描后的Excel、Word、PPT等办公文档)等提供了智能文本识别解决方案的工具软件。通过将识别对象的字段切割成可独立识别的单元并分析其形态特征,运用人工智能算法将其转换为文本,最终输出为文本文件。具有高效精准、自主可控、安全稳定等优势,可应用于各类流程工业技术转让或老工厂数字化项目建设。
(案例截图)
功能
(1)多图像格式支持
支持对PNG、JPG、JPEG、TGA、BMP以及PDF等多种图像格式文档进行识别,识别后自动转换为文本文件。
(2)全文检索
支持对识别对象的内容位置识别,记录字段所在页面坐标,实现全文检索。
(某项目OCR应用截图)
(3)内容定位/模型联动
支持文档内容的关键词快速定位,结合T-Plant平台二三维定位功能,可实现文档内容与三维模型的双向联动。
(某项目OCR应用截图)
优势与应用
1、高精度识别率:图为技术OCR引擎采用领先的人工智能算法,并针对数字化移交资料常见文件进行了专项优化,关键字段识别准确率达到95%以上,大大降低后期人工数据校准成本。
2、自主可控,安全稳定,保障数据安全:图为技术OCR引擎系纯自主研发,不依赖任何第三方基础平台进行二次开发,自主可控,安全稳定,有效保障企业核心数据安全。
应用举例
总结
图为技术自主研发的OCR引擎是一款业界领先的图像识别工具,可快速实现纸质类图档的数字化转化,为流程工厂的基础数据抓取、查询、引用及深化利用创造了条件,大大降低了企业手动数据录入的人力及时间成本,有效提升企业数字化程度,助力企业数字化转型。