人类利用数据的历史非常悠久,很早就掌握利用数字记录、管理生产生活的能力。19世纪初,一些博物学家在私人资助下环游世界搜集动植物标本、观测天文现象,并通过规模化记录数据从纷繁复杂的事实中归纳科学发现。由此,数据开始真正被社会关注、规范和监管,并逐渐被制度化为社会商品。欧洲的霍乱疫情使得人们开始搜集、统计疾病传播的数据,并发明了可视化技术和数据分析方法。进入20世纪之后,贸易需求促进了测量和计算方法的发展,统计学成为一门独立学科,为应对数据分析的需求,军事投入也推动了计算科学的进步以及数据传输技术的发展。
今天,互联网公司如Facebook、亚马逊、腾讯、阿里巴巴等管理着数十亿人的工作、娱乐、消费等数据,我们现在所谈论的数据,已经是人工智能时代海量的数据资源——大数据。纵观人类利用数据的历史,在制度、技术和经济发展的交织作用下,数据的规模、价值和影响不断扩大,影响日益深远。如今,数据作为一种生产要素,作为信息时代的“石油”,已然取得与农业时代的土地、工业时代的资本同样重要,甚至是更加突出的地位。
数据治理包括利用数据进行治理和对数据进行治理两个含义。前者将数据作为一种技术手段应用到治理实践中,与电子政务、电子商务等密切相关,目前已经有很多的研究;后者则将数据视作治理对象,关注数据特性、数据应用和数据管理。在人工智能和大数据快速发展的背景下,对这方面概念、理论和政策的梳理还比较欠缺,应是未来研究的重要方向。数据治理的两个含义相互联系,但并不冲突。一方面,政务APP、一站式服务等改革举措通过让“让数据多跑路、让群众少跑腿”,极大提高了公共服务的效率和满意度。另一方面,无论是在公共部门还是私营部门,数据的应用和管理问题,已经日益成为现实生活中至为重要的议题。
数据治理的必要性
随着大数据、人工智能、共享经济、平台经济等新技术、新业态的迅速发展,人们在社交网络中展现出的个人行为、性格偏好、兴趣爱好都可以被数据化,通过特定算法生成“数据画像”,每个人都将变成没有隐私的“透明人”。在没有外部规制的条件下,商家可以根据消费者的个人偏好向其推荐特定商品或服务,并根据消费者的收入水平、消费倾向“因人定价”,通过“大数据杀熟”等方式实现利润最大化。同时,互联网平台企业存在用户数据泄露隐患,导致个人隐私保护更加困难。仅在 2018年Facebook就发生三次严重的数据泄露事件。以上问题表明,数据在成为一项重要的社会资源的同时,其使用和监管也面临很多新的挑战,需要我们从数据保护、获取和利用等多维视角,以及法律、制度和政策等不同层面对其进行系统研究,以便更好地开发其价值,同时控制其潜在的风险。
数据治理的目标
无论是当前的理论研究还是实践探索,尚未形成数据治理的准确定义。一般认为数据治理是对数据行使管理权力的过程,具体而言有四个方面的内涵。首先,数据治理是一个跨功能的活动,需要跨越不同的功能边界和学科领域;其次,数据治理将数据视作一种重要的战略资产,为管理数据提供一种结构化和形式化的框架;第三,数据治理回答了数据管理需要什么样的决策,如何形成这种决策,谁有权做出这种决策等问题;最后,数据治理需要建立数据政策、标准和流程,还需要监管合规,确保政策和标准能够执行。
数据治理的目标是充分挖掘数据潜在的价值,同时尽可能降低数据利用的成本和控制可能产生的风险,这三者之间需要保持统筹与平衡,不可偏废任何一方。数据治理在宏观层面包括国际、国内和有关部门的法律、政策和条例;中观层面包括组织的数据治理,以实现数据的价值和防范风险为目标;在微观层面关注日常数据,依靠相关专业人士处理数据信息。按照治理对象种类的不同,可以将数据区分为以下大类:科研数据、公共数据、商业行为数据和个人隐私数据等,而不同类型的数据,在不同应用场景下,需要不同的治理规则。
数据治理的实现路径
本质上看,数据治理是追求公共利益最大化的社会治理过程,因此,首先需要明确数据治理的基本原则。数据的所有权属于谁?数据应该由谁来管理?数据使用中如何保障个人权益?哪些数据需要促进开放和流动?目前这一系列问题都需要进一步讨论。
其次,根据数据保护的实际情况,加强数据治理的制度建设。欧盟于2018年出台了被视为“史上最严”的数据保护法规——《通用数据保护条例》(GDPR),对个人信息的保护达到前所未有的高度,将数据披露与使用的权利赋予个人,同时明确数据控制者与数据处理者有保护个人数据,以及加工处理以防止泄密的义务。然而,不少学者认为欧盟的这种过度保护措施,会使其丧失数字产业未来的竞争力。对此,中国应当辩证地学习和借鉴欧盟的经验,并结合中国发展实际,加快构建隐私权保护的法律,明确数据权属以及隐私保护规则,在产业发展与人民权益保护之间建立平衡。
再次,数据治理是政府、企业和用户等多元主体对数据采取联合行动的过程,如何协调利益诉求不一致甚至相互冲突的多元主体是数据治理的关键。鉴于数据多元主体的现状,需要构建“多方参与,分层监管,合理担责”的治理体系。促进政府部门开放相应的数据,打通不同部门之间“数据孤岛”。与此同时,政府与平台企业可以联合,也可以委托第三方机构建立违法内容共享数据库,比如假冒侵权数据库、低俗图片和视频库、违法信息数据库、判定规则数据库等,勾勒出常见违法内容的主要特征,便于平台企业利用人工智能等技术手段自动识别和判定疑似违法内容,更好履行审查义务。
最后,根据数据种类的不同,需要做到精细化分类管理的要求,将宏观数据治理规则精确体现到具体的应用场景中,充分发挥数据的作用,挖掘其价值。应当注意的是,数据的有效治理离不开数据技术的帮助,新兴技术在发展过程中产生的问题还需要技术本身来解决。例如,在设计数据共享机制时,可以对数据进行分类,明确哪些数据在何种情况下可以进行共享,以及相应的保护和惩罚措施。同时,把数据的有限开放和完全开放相结合。对于涉及个人信息的数据,可以通过开设许可证或开放数据接口进行验证等方式有限地开放。而对于那些不涉及个人隐私的公共服务数据,比如环保、交通、气象等领域数据,则应当在保证安全的基础上全面开放。
总体而言,物联网、人工智能、大数据等新兴技术的发展加速了人类文明数字化的进程,同时给数据治理带来了新问题和新挑战。为了充分挖掘大规模数据应用的经济社会价值,降低数据利用的成本和风险,亟需构建全面、合理、平衡的数据治理体系,在各利益相关者取得共识的基础上明确数据治理的原则,建立数据治理的制度和法律体系,协调政府、企业和用户在数据使用中的关系,分类管理数据应用的具体场景和环境。