当前位置:首页 > 公司动态
工业企业欲彻底解决数据质量,唯有源端+末端综合数据治理
  • 发表时间:2022-01-07 点击数:134
  • 来源:未知

当下,数据治理的理念、书籍以及各种软文铺天盖地,仔细分辨大部分是基于DAMA或者DCMM相关理念基础。无论是DAMA理论体系还是DCMM模型中数据治理的内容无外乎包括解决数据质量、数据安全、数据应用服务以及提升解决以上三个问题的能力。

可以感觉到,所有人都已经深刻的认识到数据质量是数据治理中的核心所在,也是最难解决的问题,但大部分的理念、方案在解决数据质量方面相对传统且力度较浅。

目前市面上主要存在以下两种数据治理模式,具体如下:

1)    源端数据治理,是指通过解决业务系统源头数据质量的问题,实现提高数据分析的准确率。

2)    末端数据治理,是指针对解决数据全生命周期的末端(数据仓库层)数据质量的问题,实现提高数据分析的准确率。

1.     企业数据治理之源端模式

针对源端的数据治理是主流的数据治理模式,目前行业内80%以上的方案都是如此。如静态数据治理、主数据管理、编码管理等,都是属于针对业务系统的直接影响实现数据质量的改造,最终达到支撑数据应用分析的目的。

源端数据治理模式适用的企业,包括生产型企业、大型集团本部、运营管控型集团等的初步治理。

源端数据治理支撑数据分析及业务管理框架,具体如下图所示。

图 源端数据治理支撑数据分析及业务管理

由上图可以看出,数据治理平台新增数据或者通过数据交换平台(Exchange)从业务系统采集数据进行规范、改造后,一方面冗余数据自动进入数据映射关系库,另一方面改造后的数据再次回传到对应业务系统实现对业务系统数据质量的改造(业务系统运行的前提下)。

ETL从业务系统中抽取数据的时候,同时从冗余数据映射关系库中抽取冗余数据的关系参照,在加载到数据仓库时会注明某些编码(数据)对应的业务实体对象其实是一个,这样未来进行数据分析时可以实现同一业务实体对象不同编码的业务数据的累加,从而最大化实现数据分析的精确度。

2.     企业数据治理之末端模式

关于末端的数据治理,目前存在的形式比较多,最传统的应该是借用ETL进行数据清洗的模式,这种模式基本都是结合数仓、BI的实施展开的,但是多年来的经验告诉我们效果非常之不理想。因此,在AI技术刚刚萌芽之际,很多人把希望都寄托于AI技术能力挽狂澜,殊不知复杂的汉语环境更是让纯AI技术尴尬无比,比较典型的是数据中台中的AI技术进行数据质量的打通,结果一塌糊涂。

综上所述,纯技术的手段几乎无法“撼动”数据质量这座大山,再高端的技术也不行。

因此,多年的经验告诉我们,数据质量的识别除了需要各种技术之外,还需要有长期积累的模型、标准以及人的配合才行,具体如下图所示。

图 数据质量识别的技术架构

长期的经验积累在数据治理行业非常重要,至少现阶段海量的标准模型、标准数据以及超前的理念可以最大程度的弥补AI技术的短板,可以让相关AI技术发挥到极致,具体细节不在此详述了。

有了可靠的数据质量识别技术,我们就可以在数据仓库层面游刃有余地解决数据质量问题了,这也就是我们所说的末端数据治理。

具体的末端数据治理技术架构如下图所示。

图 企业末端数据治理技术架构

从上图可以看出,所谓的末端数据治理, 是指数据被集成到原业务系统外的某个区域(一般指数仓的ODS层,即数仓的操作数据存储层)后集中进行质量识别、处理的过程。此模式适用于金融、保险等服务型企业以及战略管控型或者财务管控型的大型企业集团(央企或者大型国企)的顶层数据分析情况,金融、保险公司没有物资类数据,战略管控型或者财务管控型的大型企业集团(央企或者大型国企)大部分数据来源于二、三级单位上报的数据,本部系统比较简单,数据量较少、较单一。

综上,可以看出源端数据治理是直接针对业务系统数据源头质量的影响,末端数据治理属于针对数据汇集后的数据质量的影响。事实证明,两种数据治理模式对数据质量的影响都无法达到最彻底的程度,如源端数据治理很难通过正则表达式等的校验方式发现例如错别字等的问题,末端数据治理也很难通过纯AI等的检测方式发现工业企业特有的物资类数据的深层次质量问题。

因此,中翰软件源端+末端数据治理的方案现阶段得到了很多工业企业的认可并选用,具体如下图。

图 源端+末端数据治理模式

工业企业数据治理经验证明,纯源端数据治理模式可以实现70%左右的数据质量的解决,侧重在数据仓库端解决数据质量的末端数据治理模式只可以实现50%左右数据质量的解决,源端+末端的数据治理模式可以实现95%左右数据质量的解决。