云计算

找到数据背后的血缘关系 IBM帮助四川税务局实现“以数治税”

2025China.cn   2022年06月15日

  当数字经济成为社会发展的主旋律,数据可以说是支撑业务创新的源动力,能否充分发挥数据价值反映了一家企业达成数字化转型的程度与质量,尤其是随着越来越多的生产系统和业务系统走上云端、迈向智能化,如何挖掘数据、理解数据、管好数据就成了重中之重。以数据治理为例,从过去的IT为先逐渐向业务层面渗透,让数据治理项目能够为企业贡献可持续的经济效益。“数据治理已成为一种刚需,原来出报表的时候没有数据治理工具也能做,但是现在有些数据是难以理解的,不知道到哪里去找数据,不清楚数据与业务有什么关系。”四川省税务局大数据风险管理局大数据平台技术专家肖斌说。

  去年3月,中共中央办公厅、国务院办公厅印发了《关于进一步深化税收征管改革的意见》,指出要加快推进智慧税务建设,充分运用大数据、云计算、人工智能、移动互联网等现代信息技术,着力推进内外部涉税数据汇聚联通、线上线下有机贯通,驱动税务执法、服务、监管制度创新和业务变革,进一步优化组织体系和资源配置。在税收征管数字化升级和智能化改造的过程中,国家税务总局四川省税务局积极响应,并推行了一系列举措。

打破数据的烟囱化壁垒

  不过,要想全面实现“以数治税”并不容易。传统的税务系统业务模式较为固化,分散式、手工式、信息化程度低,缺乏系统性的建设思路和科学的服务工具。此外,还要构建起总局、省局两级数据管理体系,建立系统化的数据应用体系,打造多层级的数据服务体系,实施一体化数据调度和统一的标准规范体系,用“互联网+”大数据加强税收风险管理,建立统一的数据应用平台,实现数据高效共享服务。

  肖斌所在的税收大数据风险管理局,是国家税务总局主管组织指导全国税收大数据和风险管理相关工作的机构。过去,四川税务局的各单位机构自建系统没有统一数据标准,数据质量参差不齐,尽管用户拥有海量数据,但数据和业务知识之间的关联还比较弱,没有把数据和业务知识体系关联起来,难以做到数据与业务知识之间的快速转换,不能对数据进行自主的探索和挖掘,数据的深层价值难以体现,没有形成知识图谱。

  在国家税务总局金税四期的背景下,四川省税务局大数据风险管理局对省级数据进行了管理,涉及分散各处、不同时期的70 多个数据库。起初,大数据风险管理局花了两年时间把这些数据分门别类的汇聚到大数据平台上,所遇到的问题之一就是一部分历史数据的内容和业务含义已经无从辨别,有些数据甚至要追溯到七、八年前。同时,此前合作的数据公司并未给出系统的要求和规范,导致该局的数据平台缺少必要的逻辑模型、物理模型,难以形成一套完整的数据知识体系。

  “我们的职责除了汇聚数据,还要为各个业务处室、基层提供一些数据服务,当对方提出一个数据需求时,我们就要去找这个数据放在什么地方,如果是在一张表上,那么各个表之间的关系是什么,有什么逻辑,字段有什么特殊含义,都要提取出来。”肖斌谈到,“我们的数据治理以前就是‘口口相传’,大概问一下以前运维的公司,看看数据在哪个地方,在系统里面的功能,功能里面有哪个表等等,主要是通过员工来慢慢积累数据。但如果换了一批员工就又不知道了,会反复出现这样的问题。”

建立数据与业务知识的联系

  据悉,四川省税务局希望实现元数据标准化体系,集成现有的元数据管理系统,建立统一的数据资产目录,持续提升数据质量,对数据消费实现自服务,提升效率。此外,建立完整的数据治理体系,掌握资产之间关系,了解数据的来源和去向。借助IBM Watson Knowledge Catalog(IBM WKC),四川省税务局构建了数据知识体系,把表、证、单、书等数据与业务进行关联,在征管规范之下帮助业务人员和IT人员看懂数据的含义,掌握了元数据的关联和管理能力。

  对于大量的历史业务系统和持续增长的生产业务系统,四川省税务局建立了统一的数字资产目录,对每个系统进行统一管理。同时,根据定义的业务规则提升数据质量,对有问题的数据进行生产评估或进行标记。通过数据知识体系指导数据消费,四川省税务局对数据安全有了更明确的分级管理,利用数据治理工具对数据进行高、中、低的敏感度定义,为其他系统调用该数据时提供参考和权限设置。IBM WKC内置了丰富的数字资产类型,可以快速表达业务数据之间的关系,通过可视化的方式进行展现。

  “我们使用了Apache Atlas,在Hadoop架构中,Atlas在创建复杂的表时会自动记录血缘关系,IBM WKC则会读取这些关系。在选型的过程中,我们使用了一些产品,发现IBM WKC自动形成的数据知识图谱,可以把表、证、单、书和征管规范等信息的关系进行图形展示,包括物理模型、逻辑模型、血缘关系等等。”肖斌表示,“现在整个数据治理环节已经打通了,后续还会有进一步的规划,把更多的系统和平台纳入管理范围,由IBM WKC来承载。”

  四川省税务局使用IBM WKC实现了企业级数据治理系统平台建设,赋能了税务登记、税务申报、发票类、国际税收业务类,税务行政、出口退免税等业务系统。借助IBM WKC解决方案,采用AI技术提升了自动化治理数据效率,减低运营成本,为用户数据提供可信赖的信息、开展新业务。目前,该项目处于建成数据知识体系阶段,下一步将是更大规模的应用。

与客户共建的专业团队

  可以说,IBM专家团队与四川省税务局的紧密合作确保了项目成功实施。2021年1月,肖斌所在的四川省税务局大数据风险管理局开始推进数据治理工作,与IBM专家多次交流后确定了对IBM软件测试的场景,在春节前开展了PoC测试,节后完成了可行性方案调研和软件产品测试。期间,IBM团队积极争取 IBM不同部门和渠道的资源,制定了对四川省税务局最有价值的策略。2021年7月到2022年5月,IBM客户成功管理团队和IBM中国开发中心介入项目,分别负责生产系统安装和系统上线,以及解决生产系统问题。

  正是有了IBM客户成功管理团队的帮助,才让四川省税务局对IBM WKC和IBM Cloud Pak for Data的使用更加游刃有余。肖斌称:“项目落地的过程总会遇到很多问题,IBM中国开发中心的专家会对IBM WKC做出相应的改变来贴近客户的实际需求,并且有IBM客户成功管理团队这样可信赖的伙伴来辅助,可以帮助我们梳理业务,结合IBM WKC的特点做一些尝试,合作研究如何与业务关联起来。”除了IBM Cloud Pak for Data,四川省税务局还在测试使用IBM Cloud Pak for Business Automation等产品。IBM中国客户成功架构师张敏介绍称:“Cloud Pak for Data内置了很多分析工具,包括SPSS等,还有Cloud Pak for Business Automation的规则引擎、工作流,近期就会进行测试。”

  据了解,IBM Cloud Pak for Data是统一和简化数据收集、组织和分析的平台,构建在Red Hat OpenShfit之上,嵌入了IBM企业级和产品化的AI技术(Watson AI)与功能,企业可以通过集成的云原生架构将数据转化为洞察力,IBM Watson Knowledge Catalog则是其中用于数据治理的重要工具,可以接入客户的数仓、Hadoop集群的元数据、Apache Atlas的数据等,将其变成数据资产进行分析。

  IBM WKC可以提供数据可视化,自动化数据质量分析和打分,从多维度评估数据,给出全面的质量档案信息、趋势分析、遵循业务规则的评估信息。通过让数据资产与业务信息建立映射关系,实现端-到-端的数据世袭关系分析,建立跨业务类别、跨系统的数据治理策略和流程管理,推进业务部门对其数据归属管理。IBM WKC提供了与业务集成的数据治理流程管理,大量应用机器学习能力提高获取数据能力和分析数据的准确率。同时,利用关键字图形化搜索,快速获取相关信息和数据图谱,让企业不同角色人员都能掌握业务策略、治理规则和业务术语,了解数据资产结构、数据治理逻辑表达式、规则定义、数据治理流程等信息。

结束语

  在Cloud Pak for Data的帮助下,IBM帮助四川省税务局迈出了“以数治税”的重要一步,随着双方合作的持续深入,相信会看到更多的税务数字化实践,为全面推进税收征管的数字化升级和智能化改造贡献更大的力量。

(转载)

标签:IBM 税务数字化 我要反馈 
参与ABB电机与发电机拼图挑战赛赢取探厂等好礼,快来挑战!
西克
2023世界人工智能大会专题
专题报道
安全走向数字化
安全走向数字化

如果说安全是过程工业的基本盘,数字化是过程工业的新锚点,那么作为2023 NAMUR中国年会唯一的赞助商,HIMA与这次

第三届EESA储能展
第三届EESA储能展

EESA储能展是由储能领跑者联盟主办的品牌展会,创办至今已经连续举办了两届。为加快适应储能规模化发展的步伐,促进储能行业

2023全景工博会 | 直播探馆 · 全景解读
2023全景工博会 | 直播探馆 · 全景解读

2023年9月19日-23日,第二十三届中国国际工业博览会将于国家会展中心(上海)隆重举行。本届工博会将以“碳循新工业、