当前位置:首页 > 公司动态
数据治理三步走
  • 发表时间:2022-05-10 点击数:139
  • 来源:未知

 数据治理的背景与挑战

目前数据治理已经成为大数据公司的常规操作手段,但由于公司的数据规模、业务场景、成本计量、技术能力等差异,各公司的数据治理力度有所不同。一般而言,公司数据规模越大,业务场景越复杂,资产成本越高,数据治理的颗粒度也就越细,产生的价值也就越直观。对于拥有海量数据的公司而言,数据治理是必要的。但是,部分企业对数据治理的概念理解还是比较模糊,往往只关注数据治理的部分环节,没有形成系统闭环,造成公司数据治理成本高,效果差。

数据治理的终级目的主要涉及两个方面,即成本问题和数据质量问题。就降低运营成本而言,数据存储规模达到百PB的企业,数据治理每降低计算存储1%,就可以节省上百万的资金投入(包括如服务器硬件、网络、机房、人力成本等)。国内很多大型互联网公司的数据存储已经达到EB级别,数据治理的成果非常乐观,可以节省千万级别成本。因此,数据治理对降低大型互联网公司的运营成本有着非凡的意义。

另一方面,提高数据质量对企业也有着现实意义,它能解决企业中系统林立、数据孤岛、数据无法打通共享、数据冗余等问题。但要实现这一目的,要着手重点解决数据治理缺少统一应用标准、数据不完整、指标设计口径不一致、指标难以共享等现状困境和问题。同时,应建立健全的数据管理机制,避免因缺乏规划造成数据复用率低和数据不安全等问题。

数据治理体系构建方法论数据治理不可一蹴而就完成,是一项繁杂而长期的工作。企业数据治理需要在支撑当前业务的情况下循序渐进,

逐步迭代。具体而言,企业数据治理可以分为前中后三个阶段。数据治理前期,需要先对企业数据资产进行盘点,解决资产负责人对数据不可知的问题,并梳理企业数据资产的现状,如成本不断增大,但不知道哪个业务域耗费成本高、数据流程混乱、数据信息碎片化、资产不全等问题。然后再梳理资产,比如整理业务规则、业务流程、统一数据定义、统一数据规范等。总而言之,数据治理前期阶段,需要让数据资产变得干净。中期阶段开始,需要结合企业实际规划指标体系,统一数据应用标准和数据开发规范等。本阶段需要重新组织数据,完善数仓体系,同时从多个维度进行数据治理,逐步进行数据治理体系的建设与完善。后期阶段,更多的是将前期的工作固化、机制化、持久化。本阶段包括通过组织架构的建设、规章制度的完善等,以保障数据治理常态化,提高团队协作能力,并通过培训等提升团队成员数据治理意识。数据治理动作伴随着整个数据的生命周期,实际数据治理可以从数据的链路入手,实现数据的层层规整化处理,比如从数据采集,数据存储,数据分析,到最后的数据服务,构建全链路全域的数据资产体系,也可以从数据安全,数据规范,数据管理,数据质量四大维度进行每一链路的数据治理与管理。

 

很多人认为数据治理就是信息化部门的事情,如大数据数仓部门,和业务部门无关。其实不然,有效进行数据治理需要从整个组织考虑,并建立专业的数据治理组织体系,再进行数据资产的确权。企业数据资产的生产与使用应该有明确的责任部门,明确相应的治理制度和标准。数据治理并不是一个部门的事情,不能在企业的单一部门得到解决,应该培养整个企业组织的数据治理意识,才能达到效果最大化。在MobTech袤博科技内部,数据治理委员会由各个事业部、大数据集群运维架构部、数仓部门、PAAS平台等核心人员共同组成。各部门明确相应数据治理职责,数据治理考核机制,共同支持协作,从而为数据治理的机制化奠定了根基。
 

数据标准管理模块

数据标准化是数据治理过程中的核心环节。过去各业务系统的数据标准都不相同,导致计量口径不一致、数据标准认知偏差、跨部门沟通成本较大、效率低下等问题。数据治理的标准体系是多层次的,包含国家标准、行业标准、企业标准等。这些标准的建设与实施,需要企业在前期投入大量的人力进行规划、迭代、落地、监督应用管理。而数据治理的成效,很大程度上取决于数据标准的合理性和统一实施的程度。MobTech袤博科技的数据标准管理涵盖了元数据标准、主数据标准、模型标准,数据指标标准,数据安全标准、数据应用标准等。目前公司已加入中国信通院大数据技术标准推进委员会,积极参与数据安全与治理实践等多个重要项目,希望可以为推动数据智能行业的持续发展贡献自己的力量。
 

数据质量管理模块

高质量的数据是企业进行分析决策和业务发展规划的重要基础。只有建立完整的数据质量体系,才能提升企业整体的数据质量。在技术层面上,企业应该完整全面地定义数据质量的评估维度,包括完整性、时效性,一致性等,按照已定义的维度,在系统建设的各个阶段,根据标准进行数据质量检测和规范监测,并对数据进行及时治理,避免事后的数据清洗工作。MobTech袤博科技内部建设的QC管理系统,可以定义数据质量检验规则、执行数据质量检核、生产数据质量报告。同时规划了一整套独立的数据质量处理、管理流程与相关规范制度。通过数据质量处理流程可以实现从发现问题到处理问题的闭环管理,从而促进数据质量的不断提升。
 

主数据管理

主数据就是企业的核心数据,主数据的管理是数据治理的核心。企业可以通过运用相关的流程、技术和解决方案,对企业核心数据进行有效管理。MobTech袤博科技内部通过一系列标准规范、平台工具和管理流程实现主数据管理,如严格规范主数据的新增、变更、审核等流程,实现对各类主数据的全生命周期管理;可通过手工新增、导入、接口传输等多种方式汇集主数据,并提供全方位质量检查,保证主数据质量;同时提供可视化的资产管理界面,全链路、多维度监控主数据整体建设、使用、质量情况等,清晰地展现了主数据的运作轨迹,让主数据管理尽在掌控中。

元数据管理元数据管理包括业务元数据、技术元数据、管理元数据等,主要是通过系列的标准规范,如减少业务术语歧义,提高元数据的高可用性和安全性。公司内部对于元数据的管理,主要从元数据的采集、元数据的存储以及元数据的分析三大模块构建。元数据的采集,按照元数据的分类分为自动采集和手动采集。自动采集主要通过定时任务,为元数据的采集提供自动化的、周期性的,或指定某个时间触发的机制。手动采集主要针对特定业务场景的元数据,以手工方式实时采集保存。元数据采集完成后,依照元数据管理制度及要求,根据规则进行元数据分类,后续再根据每类元数据定义,实现元数据的分类管理存储。如存储在数据库或者数据仓库中,以支撑后续元数据统计、查询、血缘分析、影响性分析、数据资产地图、元数据备份等元数据应用。公司在该模块建设了图形化的元数据基础分析以及高级应用分析web系统。
 

数据生命周期管理

大数据的生命周期针对大数据范围,确定大数据采集、存储、整合、呈现与使用、分析与应用、归档与销毁的流程,并根据数据和应用的状况,对该流程进行持续优化。MobTech袤博科技内部的生命周期管理系统结合血缘分析、调用分析、数据的价值分析等维度,对所有数据进行了生命周期全链路管理,并支持事业部和技术部的小伙伴对所属资产进行资产生命周期配置、变更、删除管理等操作。数据生命周期管理可以大幅降低企业低价值密度数据的成本,包括数据冷热分开存储等,进而提升高价值数据的查询效率等。
 

数据应用与服务管理模块

数据应用与服务管理模块是数据中台的最后一公里。合理的数据服务体系有助于企业提高数据共享程度和数据流转时效,同时保障数据安全。公司内部对于数据交换服务制定了一系列规则,比如对接口的使用规范、文件的内容审批、交换规则,以及统一的数据交换系统,实行分级审批。
 

数据安全管理

数据安全管理包括建立健全企业数据安全管理制度、设定数据安全标准(如存储,传输,应用等维度)、培养企业员工的数据安全意识等。当然安全与效率始终是一个矛盾体,数据安全管控越严格,数据的应用就可能越受限,企业需要在安全、效率之间找到平衡点。数据治理既需要组建架构、规章制度,也需要工具平台、实施流程、考核管理。前者提供了理论基础,后者提供了技术支撑,两者共同促进数据治理体系的建设。
 

因地制宜实现数据治理

随着数字化时代的到来,企业沉淀的数据越来越丰富,为降低运营成本并提升数据质量,众多企业开始尝试数据治理建设。虽然完善的数据治理体系内容全面、功能丰富,但是这种全面的数据治理体系并不一定适合每一家企业。因此,企业不能生搬硬套大厂经验,而是要择其善者而从之,选择适合自己的方法体系,去建设适合自己的数据治理体系,才能真正帮助企业实现降本增效。