首先,谈一谈我们面临的数据治理困难,即数据治理之“困”。
第一,存在信息孤岛,有数不能用。当前,金融业数据治理过程中普遍存在“不愿、不敢、不能”共享的问题,导致海量数据散落在众多机构和信息系统中,形成一个个“数据烟囱”。一是不愿共享,多数机构都将数据作为战略性资源,认为拥有数据就拥有客户资源和市场竞争力,主观上不愿意共享数据;与之类似,机构内部数据权属分割,数据所有权和事权密切相关,部门宁愿将数据“束之高阁”,也不愿轻易拿出来共享。二是不敢共享,部分金融数据具有一定敏感性,涉及用户个人隐私、商业秘密甚至国家安全,数据共享可能存在法律风险,客观上给机构间共享数据带来障碍。三是不能共享,由于各机构数据接口不统一,不同机构的数据难以互联互通,严重阻碍数据开放共享,导致数据资产相互割裂、自成体系。(数据孤岛的产生不能怪数据所有者,因为数据产生的初衷肯定是自己用,而并不是为了让别人用,以后也会如此)
第二,数据质量不高,有数不好用。金融科技背景下,高质量数据成为金融服务与创新的重要基础,也是大数据提升金融精准施策能力的关键前提。然而,当前金融业整体数据质量不高现象依然突出,给数据深入挖掘与高效应用带来困难。在完整准确性方面,由于缺乏统一的数据治理体系,有些金融机构在数据采集、存储、处理等环节可能存在不科学、不规范等问题,导致错误数据、异常数据、缺失数据等脏数据产生,无法确保数据的完整性和准确性。在一致性方面,由于业务条线繁杂、业务种类多样,多个部门往往数据采集标准不一、统计口径各异,同一数据源在不同部门的表述可能完全不同,看似相同的数据实际含义也可能大相径庭,数据一致性难以保障。这给全局数据建模、分析、运用造成障碍,数据挖掘效果大打折扣。
第三,融合应用困难,有数不会用。金融数据来源众多、体量庞大、结构各异、关系复杂。从如此繁杂的海量金融数据中挖掘高价值、关联性强的高质量数据,需要高效的信息技术支撑和可靠的基础设施保障。然而,部分金融机构科技研发投入相对不足、科技人员占比严重失调,利用数据建模分析解决实际问题的能力有待提高。信息资源利用大多停留在表面,数据应用尚不深入、应用领域相对较窄、数据与场景融合不够,导致数据之“沙”难以汇聚成“塔”,海量数据资源无法盘活,数据潜力得不到充分释放。
第四,治理体系缺失,有数不善用。我们常说,技术本身是中性的,技术运用的善恶完全取决于人,我认为这一结论对数据同样适用。科技要向善,数据也同样要向善。然而,由于法律法规尚不健全、数据治理体系还不完善、机构合规意识不足,数据“不善用”的问题较为突出。从业机构违法违规成本低,为谋求商业利益而置现有管理规定于不顾,过度采集数据、违规使用数据、非法交易数据等问题屡见不鲜。例如,某些APP、网站,用户不授权提供手机号、通讯录、地理位置等信息,就无法继续使用和浏览,通过“服务胁迫”来达成“数据绑架”。此外,部分机构数据保护意识、内部管理、技防能力薄弱,数据泄露事件时有发生,用户成为“透明人”,电信欺诈、骚扰电话、暴力催收等屡禁不止,严重侵害用户权益。
面对上述困难和挑战,金融业如何解困破局、实现数据有序治理和高效利用,是需要我们共同探讨的重点议题。下面,我谈一谈数据治理应遵循的基本原则,也就是数据治理之“道”。
一是依法合规,保障安全。数据作为重要的生产要素,确保数据安全应是始终恪守的底线。金融业是对信息安全高度敏感的行业,应建立健全数据安全管理长效机制和防护措施,严防数据泄露、篡改、损毁与不当使用,依法依规保护数据主体隐私权在数据治理过程中不受侵害,不能因开展跨部门数据融合应用而突破现有法律法规与监管规则。
二是物理分散,逻辑集中。由于历史原因,很多机构往往存在“N”个数据中心(数据源),呈现出多个业务条线数据分散存储、分散运行的局面,若采用“推倒重来”的方式显然成本太高、阻力太大。因此,应在保持现有数据中心职能不变的前提下,维持当前数据物理存放位置和运行主体不变,充分利用各数据中心IT设施和人财资源,构建“1个数据交换管理平台+N个数据中心(数据源)”的数据架构格局。在此基础上,制定实施统一的数据管理规则,实现数据的集中管理。
三是最小够用,用而不存。数据治理的一大难点就是如何在保障数据所有权基础上实现数据的融合应用。应消除数据所有方因信息“所有权让渡”造成“事权转移”的顾虑,规范数据使用行为,严控数据获取和应用范围,确保数据专事专用、最小够用、未经许可不得留存,杜绝数据被误用、滥用。在满足各方合理需求前提下,最大限度保障数据所有方权益,确保数据使用合规、范围可控。
四是一数一源,一源多用。当前,无论是金融管理部门还是金融机构,各业务条线数据分散现象或多或少存在,数据多头收集时有发生。这不但增加信息报送、采集、存储成本,也导致数据责任主体不明,数据安全、数据质量难以保障。应明确源数据管理的唯一主体,保障数据完整性、准确性和一致性,减少重复收集造成的资源浪费和数据冗余。同时,建立数据规范共享机制,提升数据利用效率和应用水平,实现数据多向赋能。
刚才,我们分析了数据治理之“困”,也提出了数据治理之“道”,最后我想就如何做好数据治理工作提几点意见,也就是数据治理之“术”。
第一,做好顶层设计,把数据规划好。数据治理是一项长期、复杂的系统工程,要在组织、机制和标准等方面加强统筹谋划。一是优化组织架构。充分认识数据的重要战略意义,将数据治理纳入企业中长期发展规划,及时调整组织架构,明确内部数据管理职责,理清数据权属关系,自上而下推动数据治理工作。二是完善应用机制。在保障各方数据所有权不变前提下,统筹规划全局数据架构,完善跨机构、跨领域数据融合应用机制,实现数据规范共享和高效应用。三是构建标准体系。建立涵盖金融数据采集、处理、使用等全流程的标准体系,打造金融数据的“通用语言”,提升金融数据质量,为数据互通、信息共享和业务协同奠定坚实基础。
第二,健全治理体系,把数据管理好。一是做好数据资产管理。根据统一的数据标准体系,建立全局数据模型和科学合理的数据架构。在此基础上,管理维护全局数据资产目录,实现对数据资产的全面梳理和有效管控,解决数据质量不高、数据利用不足等问题。二是做好数据分级管理。综合国家安全、公众权益、个人隐私和企业合法利益等因素,制定数据分级标准,基于全局数据资产目录将数据进行分级。针对不同等级数据采取差异化的控制措施,实现数据精细化管理。三是做好数据共享管理。规范数据共享流程,确保数据使用方在依法合规、保障安全前提下,根据业务需要申请使用数据。数据所有方按规则审核确定数据使用范围、共享方式等,通过数据交换机制实现数据有序流转和安全应用。
第三,加强安全管控,把数据保护好。要遵循“用户授权、最小够用、全程防护”原则,充分评估潜在风险,把好安全关口,加强数据全生命周期安全管理,严防用户数据的泄露、篡改和滥用。在采集环节,要向被采集用户进行明示,明确告知采集和使用的目的、方式以及范围,在获取用户授权后方可采集。在存储环节,通过特征提取、标记化等技术将原始信息进行脱敏,并与关联性较高的敏感信息进行安全隔离、分散存储,严控访问权限,降低数据泄露风险。在使用环节,借助模型运算、多方安全计算等技术,在不归集、不共享原始数据前提下,仅向外提供脱敏后的计算结果。
第四,强化科技赋能,把数据应用好。数据治理的核心环节是数据应用,要从算力、算法、存储、网络等维度加强技术支撑,切实增强数据应用能力。在算力方面,加快分布式架构转型,充分发挥云计算等技术高性能、低成本、可扩展的优势,满足海量数据分析处理对计算资源的巨大需求。在算法方面,基于深度学习、神经网络等技术设计数据模型和分析算法,提升数据洞察能力和基于场景的数据挖掘能力,为数据插上翅膀,让数据在金融领域展翼翱翔。在存储方面,探索与互联网交易特征相适应、与金融信息安全要求相匹配的数据存储方案,稳步推动分布式数据库金融应用,实现数据高效存储和弹性扩展。在网络方面,运用物联网技术丰富数据采集维度,利用5G技术带宽大、速度快、延时低等优势提升数据流转效率,打造金融数据“高速公路”。