数据治理是一件很难向别人讲清楚的事情:一方面,传统行业的客户觉得“数据治理”这个概念很抽象,再怎么解释都有一种隔靴搔痒的感觉;另一方面,数据治理也确实涵盖了几种复杂的数据能力领域,包括但不限于“源数据管理”、“数据质量”、“数据编目”、“数据隐私”、“数据科学”、“数据整合”。本文尝试简单地将“数据治理”这个概念解释清楚。
一、概念理解
1. 目的:将数据作为一种资产进行管理和控制,以确保数据的质量、安全、可用。
2. 本质:数据治理是一套流程、角色、政策、标准和指标的集合,这些集合确保信息的有效和高效使用,从而帮助组织实现目标。
可以从房产的角度类比理解数据治理中的各个关键要素:
· Data Asset-数据资产:这个类比的核心在于数据资产,类似于房产管理中的建筑物或财产。数据资产也可以被视为数据产品或数据集。无论是数据管理还是房地产管理,都是围绕着管理这些在妥善治理和培育下能产生价值的资产,而管理不当则可能导致风险和损失。
· Data (Product) Ownership-数据(产品)所有权:数据管理的一个关键点是所有权——虽然责任可能分配给他人,但归根结底,应有一个人或团队担任数据的所有者。这与房产管理中的建筑物所有者或房东的情况相似。
· Data Steward-数据管理员:数据管理员负责将数据资产的管理责任分配给特定个人或团队,例如确保数据质量。这可以与地产管理中负责物业管理维护的物业管理员相比较。
· Data Consumers / Users-数据消费者/用户:多种不同的个体和业务流程可能会使用数据,无论是组织内部还是外部。这可以与为各种目的使用建筑物的租户相比较。
· Data Monetization-数据货币化:数据货币化是指利用数据资产来创造收入,比如将数据出售给其他组织。在房产管理中,这相当于通过出租空间给租户、出售广告位或直接出售房产等方式来赚取收益。
· Data Contract-数据合同:数据合同是数据提供方和数据使用方之间的正式协议,明确了交换的数据内容以及相应的格式和质量要求。这类似于房产中的租赁协议,协议中会描述房东的责任和房产提供的状态,以及房产的使用限制——数据合同也有类似的作用。
· Value Quantification-价值量化:在这两个领域,评估资产的价值都非常重要的。正如房产的价值取决于其位置、大小和状况,数据的价值也取决于其相关性、准确性和可获取性。
· Data Security and Access Controls-数据安全和访问控制:数据安全是指保护数据资产不被未授权的访问、使用或泄露。这在房产管理中类似于使用锁、报警系统和安全设施来防止财产被盗窃或破坏。
· Data Architecture-数据架构:数据架构类似于建筑的设计蓝图,它定义了建筑物的布局、设计和结构。同理,数据架构涉及到数据存储和检索系统的设计和结构。建筑标准为建筑物的建造提供指南和最佳实践,数据架构标准也为数据资产提供相同的服务。
· Data Domains-数据领域:就像城市分为不同的街区,数据也可以基于其主题被划分为不同的领域。每个房产属于一个街区,所有街区加起来涵盖所有房产——数据资产和领域的关系也是如此。每个街区都有自己的特征,例如人口特征和房产价值,每个数据领域也有自己的特点和要求。像业主协会这样的组织(相当于数据领域的所有者或管理员)负责确保这些要求得到实施。
· Data Policies & Standards and Regulatory Compliance-数据政策、标准和监管合规:这可以比作管理房产使用和发展的不同法规,如分区法规、环境规定、建筑和消防规范。类似地,数据政策和标准定义了组织中数据管理的规则,这些规则源于相关的法规,例如与数据隐私和数据保护有关的法规。
· metadata Management-元数据管理:元数据是用来描述数据的数据,包括数据资产包含的属性、所有者、访问权限者、访问时间、位置、记录数量和总体大小。这类似于房产的详细信息,例如总面积、所有者、房间数、位置以及拥有钥匙的人。
· Data Quality-数据质量:数据质量是指数据的适用性,通过准确性、完整性和一致性等方面进行评估。在房产管理中,这可以比作房产的状况和维护,例如检查是否有任何缺陷或安全隐患。
· Data Remediation-数据修复:数据修复是指识别和解决数据质量问题的过程。在房地产管理中,这可以比作识别并修复房产的问题,如修补漏水的屋顶或修复基础设施问题,以保持房产的价值和安全。
· Data Usage-数据使用:数据的使用情况可以比作测量房产的使用情况,这有助于评估其潜在价值。这不仅包括占用率,还包括更详细的记录,如谁何时进入了建筑物以及停留的时间。类似地,数据使用的测量涉及到跟踪和量化数据在组织中如何。
· Interoperability-互操作性:数据互操作性类似于房产与其他房产和系统的兼容性,以及它们共享公共基础设施或资源的能力。例如,一个建筑物连接到电网、给排水系统,每个连接都有特定的标准,如电压、水压、管道尺寸和污水排放标准。同理,数据互操作性是指数据资产能够与各种其他系统和应用程序无缝交换数据并共同工作,遵循共同的标准。
· Data Storage-数据存储:数据存储可以比作房产的物理大小和基础结构。例如,一栋房产可能需要达到一定的最小尺寸来适应工业机器或满足一定家庭大小的需求。同样,数据存储指的是在数据库、数据仓库或数据湖中的物理或虚拟存储能力。
· Data Lifecycle-数据生命周期:数据生命周期类似于房产的生命周期,涉及建设、维护、翻新和拆除等各个阶段。同样,数据生命周期管理涉及到管理数据的各个阶段,如创建、存储、使用、归档和废弃。
· Data Integration-数据整合:就像不同的房产和街区通过道路和交通系统连接起来,特定建筑物可能为公共交通和附近高速公路提供便捷通道,数据整合则涉及连接来自不同领域和来源的数据。这可能包括数据清洗、数据映射和数据转换等任务,以确保不同系统的数据可以共同使用。没有整合,就无法访问或使用数据,正如没有道路就无法进入或利用建筑物一样。
二、为什么要进行数据治理?
随着组织数字化的发展及数据资源的积累,在数据方面或多或少都可能存在以下问题:
数据质量方面:缺乏准确性、完整性和一致性的数据常常导致错误的分析和决策,影响业务成果。
数据安全方面:未经适当管理的数据容易遭受安全漏洞和数据泄露的风险。
数据合规方面:在没有有效数据治理的情况下,组织可能难以遵守日益严格的数据保护法规,从而面临合规风险和潜在的法律后果。
数据使用方面:没有明确的数据所有权和访问控制,可能导致数据滥用或未经授权的访问。
数据存储方面:数据冗余和无效的存储管理可能导致存储成本增加和数据管理效率降低。
数据利用方面:缺乏有效的数据治理可能导致组织未能充分利用其数据资产,错过洞察和业务价值;可靠数据的缺乏,导致决策过程可能变得缓慢和低效,导致错失业务机会。
技术更新方面:缺乏统一数据治理的情况下,组织难以采用新技术和工具,如大数据分析和人工智能,以提取数据的最大价值。
数据治理即以解决以上问题为目标。
三、数据治理的一般流程
对组织进行数据治理通常遵循一些基本流程。为了方便理解,可以将数据治理的流程与图书馆管理流程进行类比:
1. 明确数据治理目标与范围 - 确定图书馆的使命和服务范围: 就像图书馆需要确定其服务目标(如教育、娱乐、研究)和服务对象(如学生、研究人员、公众),数据治理也需要明确其目标(如提高数据质量、保证数据安全)和涉及的数据类型与业务领域。
2. 组建数据治理团队 - 成立图书馆管理团队:如同一个图书馆需要一个由不同专业背景(如馆藏管理、信息科技、行政管理)的团队来运营,数据治理也需要跨部门的专业团队共同参与。
3. 制定数据治理政策与标准 - 制定图书馆规则和服务标准:图书馆制定借阅规则、分类标准、开放时间等,数据治理同样需要制定关于数据质量、安全、隐私和共享的政策和标准。
4. 确定数据治理架构与工具 - 选择合适的图书馆布局和管理系统:选择合适的图书分类系统和管理软件,类似于选择数据治理的架构(如数据仓库、数据湖)和工具。
5. 执行数据清理和整合 - 图书整理和编目:就如图书馆对书籍进行整理、分类和编目,数据治理中也需要进行数据的清理和整合,以提高一致性和质量。
6. 监测和改进数据质量 - 定期检查图书馆藏书:定期检查图书的完整性和条件,对损坏的书籍进行维修或更换,类似于数据治理中的数据质量监测和改进。
7. 员工培训和文化建设 - 图书馆员工培训和文化建设:教育图书馆员工遵守规则和提高服务质量,与数据治理中培训员工理解和遵守数据治理政策相似。
8. 确保合规性和应对法规变化 - 遵守版权法和其他法规:图书馆需要遵守版权法和其他相关法规,类似于数据治理中确保活动符合法律法规要求。
9. 持续监控和评估 - 定期评估图书馆服务:定期评估图书馆的服务效果,如读者满意度和服务使用情况,类似于数据治理中的持续监控和评估。