一、数据治理发展现状
1、数据治理的相关概念
数据治理是组织中对数据使用和管护的管理行为,其本质是指导、评估和监督数据的管理和利用,通过制定数据标准体系,提高数据的质量,并为组织提供不断创新的数据服务,以提高数据的价值密度。数据治理内容主要包括元数据管理、主数据管理、数据标准管理、数据质量管理、数据生命周期管理、数据组织、数据安全和数据服务等模块,不同模块功能明确、相互协同,共同打造统一调度、精准服务、安全可用的信息共享服务体系。
2、数据治理的发展历史
数据治理的发展历史可分为三个阶段。第一阶段为早期探索阶段,1988年麻省理工学院启动的全面数据质量管理计划形成了数据治理的雏形。同年,国际数据管理组织协会(DAMA)成立。2002年,数据治理概念在学术界崭露头角,美国两位学者结合两家公司的实践结果提出数据治理研究方向,由此拉开了数据治理在企业管理中的大幕。第二阶段为理论研究阶段,2003年国际数据治理研究所成立,主要研究数据治理理论框架,与国际标准化组织合作对数据治理进行定义。2009年,DAMA发布数据管理知识体系指南,基本确定数据治理的理论框架。第三阶段为广泛接受与应用阶段,随着数据仓库的建设,国内也逐步开始接受数据治理的理念,并在2015年提出了《数据治理白皮书》国际标准研究报告。
2020以来,数据治理在公共管理、科学研究与工商业等领域得到广泛应用,以数据为核心的“互联网+”体系日益彰显数据治理的价值,为进一步推动数据治理的发展,美国、欧盟纷纷颁布围绕数据使用与保护的公共政策。我国也相继出台了《中国制造2025》《关于深化“互联网+先进制造业”发展工业互联网的指导意见》等相关政策以促进工业互联网发展,进一步体现了工业数据治理的必要性。
3、工业数据治理探索
工业生产制造主要包括设备故障预警、异常实时告警、异常回溯、产品稳定性和生产效率优化等业务场景。随着智能制造、工业互联网等战略政策的深入推进,工业企业积累了大量的数据,为不同业务场景下的数据分析提供高质量的数据接口,使得开展工业数据治理成为核心问题。本文将以工业数据为核心,以数据治理为方法,以业务应用为目的,构建面向工业生产制造的数据治理体系,并通过案例实践验证数据治理的成效。
二、工业数据治理体系
1、工业数据态势
1)工业数据来源
工业数据可划分为操作技术数据(OT)和信息技术数据(IT)。OT数据是工业数据的主要部分,源自工业生产机器设备、自动化采集系统等,包含时序数据和非时序数据。时序数据包括温度、压力、流量等数据。非时序数据包括工业系统的日志数据以及生产调控的经验数据。IT数据主要包括企业资源计划(ERP)、制造执行系统(MES)等业务数据。其中ERP系统主要包括财务、客户关系、供应链管理等数据,MES系统位于上层ERP层与底层控制层之间,主要包括生产调度、质量管理、人员管理等数据。
2)工业数据特点
“隔离性”。工业数据来自多道工序的多台设备,设备独立工作以及工序间数据互不流通,形成一座座“数据孤岛”。
“多模态”。工业数据来源多样,结构复杂。除工业生产中所采集的温度、压力、流量等时序数据之外,还包括检测火焰温度等的红外热成像视频数据。
“强关联”。工业数据中的关联主要包括:生产指标间的关联,如原料燃料流量、温度、压力的关联;生产过程的关联,如生产工序间的工艺参数关联关系;产品设计制造等环节之间的关联,如仿真过程与产品实际工况间的关联。
“高通量”。传感器所采集的时序数据具有设备多、测点多、频率高、吞吐量大、连续不间断的特点。以某工业生产设备为例,数据采样频率为10Hz,单台设备每秒产生16KB的传感器数据,按20台设备全量采集计算,每日将产生约12.87GB的数据,每年将产生4.58TB的数据,呈现出“高通量”的特征。数据带来巨大的存储成本,还存在衔接不连贯、标准不统一、数据不对齐、“脏”数据等质量问题,无法为数据分析提供有效接口,如何提升数据价值密度、提高数据挖掘效率是现阶段亟待解决的问题。
2、工业数据治理体系研究
1)顶层框架设计
数据治理是工业数字化转型之路的关键,数据治理工作的落地有助于提升数据价值密度、提高数据挖掘效率,更好服务灵活多变的业务场景,为数据分析提供有效接口。目前,数据治理体系的研究相当成熟,可适应于不同的应用场景。本文在借鉴通用数据治理体系的基础上,结合工业数据的数据源、数据特点及业务场景等核心要素,搭建面向工业生产的数据治理体系,如图1所示。
图 1 数据治理体系框架
为保证数据资产不流失,对源数据和分析数据进行物理隔离,源数据按照原始格式保留存储在本地服务器中,分析数据则经过数据治理后进行存储,对非必要数据进行归档或销毁。该数据治理体系框架囊括元数据管理、主数据管理、数据标准管理、数据质量管理、数据生命周期管理、数据组织、数据安全及数据服务环节,环节间相互协同和依赖,形成全方位、多层次、多角度的数据治理框架。
2)元数据管理
元数据的定义是“关于数据的数据”,元数据反映了数据的交易、事件、对象和关系等。通过元数据管理可绘制数据地图、统一数据口径、标明数据方位、分析数据关系以及精确到字段级别的影响分析,方便数据的跟踪和回溯。
图 2 工业元数据管理
在工业领域中,元数据主要包括技术元数据和业务元数据,如图2所示。其中技术元数据具体为:物理资源的元数据(服务器、操作系统等)、数据源元数据(网关地址等)、存储元数据(指标说明、数据结构、存储属性、管理属性等)、共享元数据(接口方式、格式等)等方面;业务元数据具体为:模型元数据(特征工程、评估标准等)、分析元数据(业务流程、业务规则等)方面。基于工业元数据管理,可构建元模型进行元数据自动化采集,实现企业信息化资产梳理、数据地图、数据血缘分析等功能。
3)主数据管理
主数据是指满足跨部门、跨业务协同需要的系统共享数据,在各个业务部门中被重复使用,如客户、供应商、资产、产品、物料单、账户等数据。工业主数据管理流程由业务治理、标准治理、质量治理组成,如图3所示。
图3工业主数据管理
在工业制造领域中,主数据结合物联网数据可以实现不同的业务场景需求。例如,若要了解或预测物料的库存情况以提高生产调度效率,可将原料消耗的传感器数据与物料单主数据进行关联分析,从而感知到物料的库存情况。因此,通过将高价值、高共享、相对稳定的主数据与物联网数据相关联,结合机器学习、深度学习等算法,可实时评估企业的生产运营情况以做针对性的调整。
4)数据标准管理
数据标准管理的目标是设计一套标准体系,包括数据质量标准、数据操作标准、数据应用标准,形成一个可流通、可共享的信息平台。数据标准主要由业务定义、技术定义和管理信息三部分构成,业务定义包括业务、名称和接口等方面的定义,技术定义包括数据类型、数据结构等方面的定义,管理信息包括所有者、管理人员等方面的定义,如图4所示。
图4 工业数据标准管理
在工业制造领域中,大数据标准一般以业界的标准为基础,如元数据管理标准(ISO-11179,CWM,DCMI)、数据质量标准(ISO-8000,ISO-25012)以及数据安全标准(ISO-27001),结合工业数据的特点对数据进行规范化,一般会包括数据格式、数据质量、数据语义、编码规则、字典值等内容,减少数据孤岛、流转不畅、应用繁琐等问题的发生。
5)数据质量管理
数据质量管理是工业数据治理的关键,是数据应用的前提,为企业风险把控、分析决策、生产运营提供更精准的高质量数据,提升工业数据分析的效率。工业数据质量管理如图5所示。
图5 工业数据质量管理
传统的质量评估体系过于繁杂,结合工业数据和业务场景,基于完整性、准确性、规范性、唯一性、一致性、关联性、可追溯性等构建合理的数据质量评估体系,并根据工业实际生产情况,对质量评估体系细化:
生产控制数据:生产控制指标若出现不完整、不一致等问题,或导致异常调控不及时等情况发生。因此,对生产控制指标的数据质量管理提高优先级,保障生产流程的正常运转。
传感器数据:传感器数据监测生产过程中的运作情况,可实时感知生产异常,并及时优化调整。因此,要提高传感器数据接入的及时性、一致性。
故障记录数据:为保证生产设备的稳定运转,需要对设备故障记录进行分析诊断,因此需要保证设备故障记录数据的可靠性和可追溯性。
库存物流数据:库存物流管理是生产、计划和控制的基础。通过保证库存物流数据的及时性和完整性,能够优化生产周期,保证生产的良性循环。
6) 数据生命周期管理
采用科学的数据生命周期管理能够提高系统运行效率,大幅减少数据储存成本,更好服务客户需求。数据生命周期包含在线阶段、归档阶段、销毁阶段三大阶段,如图6所示。
图6 工业数据生命周期管理
本文对工业领域的各应用系统数据进行提炼和分类,在数据生命周期的各个阶段制定有效的管理策略。首先,将光工业应用系统按产品线进行划分,确定数据类别,规定数据有效期,从而建立完整的数据有效期管理工作规范体系。然后,针对长有效期数据,在有效期结束后采用低成本存储介质保存,采用在线和离线的方式逐步归档数据。最后,销毁冗余数据,节约数据存储资源。可以看出,数据生命周期管理能够大幅提升高价值数据的查询效率,同时减少高价格的存储介质的采购成本。
7)数据组织
数据组织的目的是根据数据应用需求,采用标准统一、流程规范的方案分类构建数据资源库,进一步强化大数据内部关联。数据组织主要包括原始库、知识库、主题库等。
原始库:原始库保存原始业务场景数据。工业原始数据主要包括设备监测数据、生产流程记录、产品检验数据、生产异常数据及生产运营数据等。
)知识库:知识库指工业领域的业务经验数据和规则方法集合,包括数据接入、处理、服务以及工业通用模型所涉及的知识性数据和规则方法。工业知识库主要包括原料特性、设备参数、产品设计、生产原理、行业动态等。
主题库:主题库对原始数据和资源数据根据分析和服务的目的进行划分,形成不同主题的数据集合。工业数据主题库主要包括人员主题库、设备主题库、原料主题库、生产方法库、生产环境库等。
8)数据安全
工业生产中的重要且敏感数据大部分集中在应用系统中,例如原料配方、控制策略等工艺参数数据,以及客户信息、生产计划、资产信息等生产运营数据,敏感数据泄露对企业的影响是不可逆的,凸显出数据安全在数据治理过程中的重要性。数据安全包括以下三点:
数据存储安全:包括物理安全、系统安全存储数据的安全,主要通过安全硬件的采购来保障数据存储安全。
数据传输安全:包括数据加密和数据网络安全控制,通过专业数据安全厂商提供技术保障。
数据使用安全:基于业务系统层面,建立完善的数据安全管理体系、审查机制。对生产及研发测试过程中使用的各类敏感数据进行严密管理。
9)数据服务
数据治理是为了更好地利用数据,是数据应用的基础。基于工业领域的业务需求,大体划分为三个方向:应用支撑、工具应用及业务应用。应用支撑服务包括知识图谱构建、数据服务总线和服务管理等服务类型;工具应用服务包括生产查询检索服务、模型分析服务和数据管理服务等服务类型;业务应用服务包括产品溯源、异常预警和可视化大屏等服务类型。通过对海量数据的集中、整合、挖掘和共享,结合全方位、多层次的数据服务体系,增强了异常处理的实时性和前瞻性,推动工业向信息化、智能化转型。