精益数据方法强调通过共享、开放、协同的方式,让企业的数据流动起来,共享起来,充分的协作起来,同时将数据治理融入业务场景中,在数据生产的全链路中实施数据治理工作。为了实现这一个目标,企业需要对应的技术平台,也就是我们今天要分享的——企业级数据资产目录。
01 什么是数据资产?
1.1.数据资产的基本涵义
在理论层面,目前并没有对数据资产的权威定义。我们选取业界较为认可的概念,即:数据资产(Data Asset)是指由企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源,如文件资料、电子数据等。在企业中,并非所有的数据都构成数据资产,数据资产是能够为企业产生价值的数据资源。
基于以上概念,可以得出数据资产最重要的三个特质:
可控的,企业除了拥有自己内部的数据外,对一些外部的数据可以通过可靠、合法的途径获取,也可作为企业数据资产的一部分;
有价值的,数据资产能够给企业带来效益和价值,但笔者认为此处的效益不应局限在经济价值,还会有社会价值、信誉和品牌价值等等;
需要甄别的,并非所有的数据都能成为数据资产,所以企业要根据自身业务特点,在海量的数据中识别划分出属于自己的核心数据资产。
1.2.企业自身的数据资产
上面对数据资产的定义进行了解读。那么,最重要的是企业如何确定哪些数据能够作为资产进行管理,并进行应用。企业在业务发展和信息化建设过程中,积累了大量的业务数据,哪些可以作为企业的数据资产则是见仁见智。这里给出一个较为通用的识别原则和策略,供大家参考。首先,数据是业务活动在数字世界的投影,其本质作用是记录业务对象及其活动过程。整体上可划分为两大类:
基础业务数据:是对企业业务活动中诸如“人、事、物”的记录;
洞察分析数据:是基于基础数据计算出来的结果,反映业务活动的规律、趋势、特征等,一般可理解为日常所说的“指标”。
其次,从数据价值衡量的维度来看,可从以下几个方面来分析:
业务权重:数据是否属于企业核心业务运营范畴,越接近核心则越重要,其作为数据资产的必要性越高;
决策权重:对高层决策的重要程度,决定了数据能否作为数据资产的一项重要指标;
使用频度:数据被使用的频次越高,说明其重要性越高;
分布范围:数据如果分布在多个业务域或者系统中,被很多不同的人员使用和共享,说明其支撑的业务越多,也越重要;
技术承载与可控性:通过技术手段,对数据进行获取、维护、管控,其难易程度、成本、可控性等方面都可作为辅助性的衡量标准。
依据上述内容,我们构建一个数据资产识别矩阵,如下表所示:
企业可以依据此矩阵对数据进行量化评估,识别哪些数据属于数据资产范畴。以上划分维度和标准,企业可根据自身实际情况进行扩充或调整,例如在价值衡量方面还可以增加“数据变现”、“数据安全性”等维度,最终目的是制定符合企业实际业务需要的数据资产划分标准,进一步筛选出企业自身的数据资产。
02 数据资产目录的价值
目前,数据资产目录管理已经变成了数据治理工作中不可或缺的一个环节。企业在识别出自身数据资产的基础上,进一步构建数据资产目录,能够帮助用户更好的理解、使用以及分析数据。企业通过发现、描述和组织数据资产,形成一套企业数据资产的清单目录,提供一套上下文背景信息,为数据分析师、数据架构师、数据管理专员和其他数据用户,根据业务价值目标更好的查找和理解相关的数据资产。如果缺少了数据资产目录管理工作的支撑,很多数据管理与应用的工作开展都如同盲人摸象,缺乏整体的数据蓝图,没有有效的指引,由此导致了诸多不便和低效。例如:
数据消费者不知道有哪些数据,也无法联系到相应的负责人;
数据中心中承载了大量的数据,但却是一片沼泽,找到有意义的数据只能依靠人工经验进行指引;
组织内有多个数据源,没有统一的途径来精准识别数据源;
数据消费者没有适当的流程进行请求与获取目标数据;
数据消费者无法理解数据,更不知该如何使用数据;
数据多处存储,多处更新,数据量不断冗余增长,设备需要不断扩容、维护能力需不断提升,成本越来越高。
可以看出,数据资产目录所解决的这些问题,分布在数据管理和应用的方方面面,因此数据资产目录的价值也体现在不同的层面,可归纳总结为三个层次:
基础视图价值:能够让数据管理者高效、便捷的了解数据脉络,构建全景图,随时掌握数据资产的运行状态。
提升数据管控能力:在基础视图能力的基础上,加强数据资产的管控能力,对技术管理、业务运转起到良好的支撑作用,能够让数据在业务流转过程中更规范、更有效率。
促进数据应用与共享:在数据资产的应用和共享层面,起到引擎作用,最大化释放数据的核心价值,助力企业快速发展。对应这三层价值,围绕数据资产目录可以衍生出很多的应用场景,企业可从这些场景入手,进行相应的功能建设,如下表格:
企业应以价值为导向,分析出数据资产目录对业务的作用和支撑点,聚焦有落地价值的应用场景,才能有的放矢的建设数据资产目录,避免“为了盘点而盘点”的情况发生,从而使“数据资产目录”能够与业务发展有机融合,发挥最大作用,释放数据价值。
03 如何构建数据资产目录?
数据资产目录的建设分为四个环节,包含准备阶段、目录盘点与构建、审核发布、应用与运营管理。其中,前三个环节为数据资产目录的构建过程、最后一个环节为数据资产目录的使用和管理过程。如下图:
准备阶段:此阶段主要对建设数据资产目录的背景、环境、价值点进行分析,明确要支撑的业务场景、以及建设目标;在此基础上,确定需要构建数据资产目录的范围,进一步制定相应的数据采集模板、标准,并收集与之有关的材料。
目录盘点与构建:在第一阶段准备工作完成后,利用数据资产工具,按照模板和标准,对数据资产的有关信息进行初步采集和智能解析,形成数据资产目录初始清单;然后结合人工与工具平台,对初始清单进行筛选优化,补充完善相关属性,对其实施标签分类、形成目录,建成待审核发布的数据资产目录。
审核发布:组织相关业务、技术专家对建成的数据资产目录进行审核,审核通过后,向相关使用者进行发布。
应用与运营管理:此环节是在数据资产目录建成发布后,对其进行使用和管理。
数据资产目录应用:构建好数据资源目录后,需要进一步体现数据资产的价值,对于库表、文件等常见数据资产,可以开放数据查询、下载、交换、分析以及API服务。资产的价值在于向数据消费者的提供各类数据,资源管理者可以通过构建数据资产服务门户, 满足不同消费者的服务需要,也便于对资产的持续管理。
数据资产目录运营管理:此环节主要是企业从管理维度,组建数据资产运营团队,建立数据资产的管理制度和流程机制,此处的管理机制主要涉及三个方面,数据资产目录与使用者之间的机制(例如使用者如何查询、使用资产目录等)、数据资产目录与资产源之间的机制(例如数据资产目录与资产源数据的同步更新机制)、以及数据资产目录自身的管理机制。最终使数据资产目录的建设和应用良性有效开展,并能随着业务的变化发展不断迭代更新,持续创造新的价值。
04 数据治理工具如何承载企业数据资产管理?
数据资产目录管理已经变成了数据治理工作中不可或缺的一个环节,建设数据资产目录除了需要相应的组织和机制支撑,当然也离不开技术工具支持。
1、将数据资产盘点方法论融入资产盘点工作流程,支撑企业跨业务域、跨部门、跨专业领域的常态化数据资产盘点;
2、利用智能化标签技术,对数据资产进行多维分类以及异常识别,提高资产盘点质量降低人工投入;
3、融合元数据、血缘关系、数据标准、数据质量、数据安全、认责管理等数据治理信息,构建适用不同业务场景的资产目录服务;
4、结合企业数据治理过程中典型场景,提供数据资产包、众包等功能服务对数据应用场景过程进行管理;
5、结合数据资产、业务知识、应用知识构建企业知识图谱,方便数据应用参与者高效获取技术、业务知识。
05 数据资产目录的典型功能模块
企业数据资产目录是数据治理和利用的核心工具,数据资产目录的 8 个核心功能模块:
1. 数据获取:数据资产目录要提供全面的数据连接、获取的功能,让企业的各类数据能够接入进来。在现在数据复杂度越来越高的情况下,企业数据资产目录要兼容数据仓库、数据湖、云上数据系统等多种数据源。但是,数据的存储并不是数据资产目录的核心功能,数据依然可以按业务需求以多种形式存储在不同的地方。数据资产目录要建立全面的数据注册、接入、管理的能力,从而管理好每一个数据的全生命周期。
2. 数据探索:数据探索是数据资产目录被使用最频繁的功能,能帮助用户缩短查找数据的时间,大幅度提升数据生产的效率。数据资产目录提供的数据探索功能主要有以下几点作用:
帮助用户搜索到需要的数据和数据产品。
帮助用户查看数据,为用户提供全面的数据描述信息,也就是元数据,
帮助用户更好地理解数据。
帮助数据探索数据的全生命周期信息,也就是数据血缘,从而确认数据的正确性。
所以,数据资产目录要提供多样化的数据探索功能,主要包括按关键词搜索、按标签搜索、按访问热度浏览、按相关性浏览等。数据运营人员要对用户的行为数据等进行深度挖掘分析,从而帮助用户快速定位到正确的数据,通过数据资产目录给用户推荐更匹配的数据。
3. 数据管理:数据资产目录是根据数据资产蓝图构建的,界面信息呈树状结构。企业所有的数据资产,包括源数据、数据集、数据产品等,都要归类并挂接到数据资产目录中。并且数据资产目录要通过丰富的业务和技术元数据对这些数据资产进行全面、清晰的描述,方便用户打标签和评论。精益数据方法认为,数据资产目录不仅要管理好源数据,还要将所有二次加工的数据、报表、数据集等纳入管理。
4. 数据质量管理:数据资产目录不仅具备数据资产仓库的作用,还要依据元数据和数据质量标准规范,构建起数据质量管理的能力。数据资产目录要按业务需求对所有的数据资产进行扫描,然后将数据质量反馈记录下来,从而在管理数据的同时全面监控数据质量。数据资产目录要能够跟踪数据质量,生成数据日志,方便用户整理和准备数据。此外,数据资产目录使用人工智能来自动管理数据质量,主要管理工作包括检测最近更新的数据存储的异常情况,将业务术语和标签添加到新数据集,检测可能关联的数据集,改善搜索体验。
5. 异常监测和管理:数据资产目录要构建起自动的数据监测功能,通过将数据治理的规范标准嵌入脚本中,扫描数据资产实时获取数据资产和数据加工过程中的异常情况,起到监测重要数据问题的作用。
6. 数据可视化和分析:用户在找到数据后要进行数据可视化和数据分析,所以数据资产目录也需要将数据可视化和分析的功能集成进来,为用户提供流畅的使用体验。
7. 数据共享和协作:数据的生产、加工和利用是一个集体活动,所以数据资产目录也要提供一定的共享和协作功能,大幅减少用户在查找、生产和利用数据过程中的浪费。具体的共享和协作功能如下。
用户可以共同编辑、维护元数据信息和数据知识库。
用户可以共享自己的数据探索、分析、生产、利用的成果,供其他用户使用。
用户可以给数据资产打标签,做评论,从而发现问题,提出问题,供他人参考。
每一个数据和数据产品都关联到具体的人或团队,方便用户之间进行交流。
用户可以协作开发、协作编辑、协作建模。
8. 元数据管理
元数据管理是数据资产目录最重要的功能,也是最基础的功能。数据资产目录的整体运作就是以元数据为基础的。数据资产目录应该全面地管理所有数据的两类元数据:技术元数据和业务元数据。数据资产目录不仅要实现对元数据的定义和管理,还要通过工具和技术手段对接入的数据源自动进行元数据的采集和生成,从而减少人工的工作量,提升数据治理的效率。
06 总结
数据资产目录的的建设过程不会是一蹴而就的,建设效果也不是立竿见影的,它本质属于“地基”类工作,因此需要且值得投入精力去认真构建,一旦建成并夯实,在其上面的数据管理和应用工作将得到良好的支撑和保障,数据应用价值也会得到极大的释放。
企业在建设和运营数据资产目录时,要具备长线思维,协调业务与技术人员共同参与,随着业务发展持续迭代并创新,保证其落地执行、输出价值。