香港赛马会高手特彩吧

楚识科技OCR票据解决方案:武汉东讯台湾电力项目实践纪实

发布日期:2026-05-02 16:24点击次数:131

这两年,能源行业的信息化改造一直在加速。不光是大陆这边在做智慧能源管理,海外的项目也在同步推进。前阵子了解到武汉东讯科技在台湾做了一个电力信息化项目,其中涉及电费水费票据的OCR识别,楚识科技给做了配套的解决方案。这个项目有点特殊,不是那种标准化的OCR产品直接拿来用就行的,背后有不少技术上的弯弯绕绕。

台电信息化

一、项目背景

武汉东讯科技做的是电力信息化这块业务,在台湾那边接了一个电力管理系统升级的项目。简单来说,就是帮电力公司搭建一套数字化平台,把用户的水电缴费数据统一纳进来做分析和管理。这里面有一个很具体的需求——电费单和水费单的识别。台湾电力公司(台电)和台湾自来水公司(台水)的用户缴费通知单,每天产生量很大,如果靠人工录入,成本高不说,还容易出错。

台电的水电费票据和我们大陆常见的不太一样。台湾地区的电费通知单,近几年来经历过多次版式调整,公告指出自110年(2021年)1月份起,高压电力用户的缴费通知单样式进行了调整,主要目的是提高版面活化度和增加计费信息揭露版面。这就意味着,光是在台湾,电费票据的格式就不是一成不变的,新旧版本之间差异不小。水费这边也类似,比如台北自來水事業处的缴费明细申请涉及用户水号、用水量等多类信息的提取,不同时期版式不同。东讯方面统计了一下,需要覆盖的电费水费票据格式多达七八种模板,这还不算因打印设备不同导致的细微差异。

展开剩余71%

更麻烦的是,这些票据的字段是浮动的。比如用电地址有时候在上边,有时候在中间;应缴金额的位置也不固定,不同格式的票据标注位置差别很大。如果用常规的固定模板OCR去识别,很容易定位错字段,把用户姓名识别成了地址,或者把金额漏掉了。所以这个项目从一开始就不适合用现成的标准OCR产品,需要做二次开发。

二、楚识的技术方案

楚识科技接了这个活之后,做的第一件事不是急着写代码,而是先把七八种票据模板的样本全部收集齐了。台电的官网有提供缴费通知单样稿下载,但实际业务中收到的票据五花八门,有彩色的、有黑白的、有盖了章的、有污损的。楚识的团队把每种模板拿出来一张张分析,梳理出每个模板的关键字段布局和特征锚点。比如有的模板左上角有固定图标可以作为定位基准,有的模板则是靠特定文字段来锚定坐标。

台湾电水票据关键字段识别

识别引擎这块,楚识用的是改进版YOLOv8目标检测算法来做关键区域定位,能够精准识别票据上不同字段的位置,平均精度均值(mAP@0.5)达到了97%。然后结合CRNN与Transformer混合识别架构进行文字识别,印刷体和手写体都能处理。这个混合架构的好处是,CRNN擅长捕捉字符的序列特征,Transformer则能理解字符之间的语义关系,两者配合起来,即使遇到有点模糊或者盖章遮挡的票据,识别准确率也能保持得不错。

但真正让这个方案跑通的是二次开发的部分。楚识给东讯做了一套动态模板管理模块,不是固定死每一种模板的识别规则,而是支持模板的动态增加和字段映射配置。新来一种没见过的票据版式,业务人员可以在系统里上传样例图片,框选关键字段位置,定义字段名称和校验规则,系统自动生成对应的识别模板。这样一来,就算后续台电又出了新版式的缴费单,也不需要楚识再派工程师重新开发,东讯自己的技术人员就能配进去。这对于一个长期运维的项目来说,运维成本能降不少。

三、实际落地效果

这套系统上线之后,东讯的台湾电力项目那边反馈还不错。以前处理一批电费单,需要专门的人盯着一条条录入,一天处理几百张就到头了。现在用OCR批量识别,电费单和水费单混在一起也能自动分类,系统先把票据类型识别出来,再调用对应的模板去提取字段。关键字段的召回率能做到99%以上,发票代码、用户编号、应缴金额、缴费期限这些核心信息基本都能准确抓出来。

值得一提的是,这个项目的交付形态是私有化部署。台湾地区的电力数据涉及用户隐私和基础设施安全,数据不能上传到公有云,全部识别运算都在东讯自己的服务器上完成。楚识的方案支持CPU环境下的高效推理,不需要专门买昂贵的GPU加速卡,在普通服务器上就能跑,单张票据识别时间控制在一秒以内。

四、一些技术上的难点和解决思路

其实这种多模板、浮动字段的票据识别项目,难点不在于OCR模型本身——现在各家大厂的识别精度都不差。真正的难点在于怎么把通用OCR能力适配到具体业务场景里,而且要能应对变化。楚识这次的做法,概括起来就是“通用引擎+定制模板+灵活配置”。通用引擎保证识别质量的下限,定制模板解决特定版式的结构化提取问题,灵活配置让系统在面对新增模板时有扩展性。

另一个值得提的点是图像预处理。台湾地区的电费水费票据有的是从传真机出来的,有的是手机拍照上传的,图像质量参差不齐。楚识在预处理阶段用了自适应阈值分割和形态学处理去除噪点,还引入了透视变换对倾斜的票据图像进行矫正。这些预处理做扎实了,后续的识别准确率才有保证。

五、总结一下

东讯的这个台湾电力项目,算是楚识科技在境外能源票据识别领域的一个实践案例。项目本身不算特别大,但胜在技术上的针对性强——不是把现成产品卖给客户就不管了,而是根据台湾地区电费水费票据的实际情况做了定制化二次开发。七八种浮动字段的模板,通过动态模板管理模块实现了灵活配置,后续新增模板也能低成本扩展。对于那些有类似需求的B端客户来说,这个案例还是有一定参考价值的。

发布于:湖北省
推荐资讯