OCR是最早应用于企业降本增效的AI技术之一,目前已广泛应用在金融、保险、医疗、交通、教育等诸多行业。
OCR是最早应用于企业降本增效的AI技术之一,可以对企业在经营过程中产生的大量的文档、表格、图片等非结构数据进行识别与提取,使其快速转变为计算机文字,帮助降低数据存储量、支撑企业档案循环分析。目前已广泛应用在金融、保险、医疗、交通、教育等诸多行业。
随着实践的不断深入,企业对OCR模型的需求呈现越来越多元化的趋势。以广东省农村信用社联合社(以下简称“广东省农信联社”)的日常业务为例,工作人员需要人工识别和录入大量不同类型的手写文字,包括办理存取款业务时的签名识别、预留签名印鉴的签名比对、支票、解款、汇款等业务的手写凭证等。
传统OCR厂商组合式的服务存在算法普适性不强的问题,当面对不同的识别场景,开发人员需要重新对数据进行标注并训练一个新的模型,这使得OCR服务的开发维护成本居高不下,也无法满足业务快速发展的要求。
另一方面,缺乏高质量的手写字体标注数据是提升OCR手写字体识别模型精度的最大挑战之一。相较于通用印刷体,手写字体存在不规则、连笔、潦草等特点。OCR技术对手写字体的识别难度远超印刷体。在数据方面,对手写字体的模型训练也无法参照印刷体的训练方式,即通过大量合成数据提高算法精度。
为解决广东省农信联社面临的业务需求多元化、数据量少的难题,华为云盘古金融OCR大模型通过独有的对比学习与掩膜图像建模相融合的自监督学习方法,能够学习并充分利用大规模的无标签OCR数据,只需要传统方式十分之一的标注量,就可以训练出高精度的手写字体识别模型。在华为云与广东省农信联社的联创实践项目中,相较业界的小模型开发方式,盘古金融OCR大模型可以将字段识别精度从83.9%提升至91.0%。
此外,通过盘古金融OCR大模型,广东省农信联社可以实现用一个模型覆盖多个通用的文字识别场景。例如,在柜面手写单据业务场景中,盘古金融OCR大模型可以自动识别出日期、账号、户名、开户行、大小写金额等手写信息,将原有的“人工录两录一校”简化为“系统自动一录,人工一录一校”。对于柜外清、VTM/STM上无纸化的签字图片,盘古金融OCR大模型可以识别签名的具体文字或签名的动态数据矢量文件,完成静态签名和动态签名对比。
华为云盘古金融OCR大模型已在十一项经典数据集(如IIIT5K, SVT, IC13, IC15, SVTP, CUTE等)测试中取得显著的精度提升。与原本领先的文字识别算法相比,盘古金融OCR大模型的精度平均提升5%以上。
面对当下越来越广泛的移动办公场景,业界移动端OCR算法普遍以牺牲算法精度的方式换取运行速度。华为云盘古金融OCR大模型可以平滑蒸馏出体积相差1000倍的大、中、小模型,满足在多种设备上高效运行的使用条件,覆盖金融、零售、电商、地产等行业的新型单据、卡证、表格的识别需求。
此外,华为云盘古金融OCR大模型能够提供二次训练能力,企业可在通用模型基础上快速训练出适应业务场景的新模型,让企业自主掌握OCR服务构建能力。降低模型定制成本,缩短业务上线周期,帮助更多企业从传统人工作业环节中解放出来,创造更大的生产力和价值,为金融行业数字化变革注入源动力。
(华为)