1月17日,在中国优秀CIO评选颁奖现场,阿里巴巴数据治理团队获得了“2014年度中国最佳信息化团队”称号。现场有不少人疑惑,为什么数据治理可以拿这个奖?以前的银行业、通信业不是早就在做数据管理了吗?
的确,数据管理data management并不是一个新鲜的词,几十年前就有人在做了。但为什么阿里的数据治理还可以拿这个奖?这是因为,今时已不同往日,现在的数据也已然不是当初的小数据的量值了。以社交网站facebook为例,他们的日均新增数据量就达到了600T。这若放在几十年,根本是不敢想象的。所以,在数据指数级增长的大背景之下,无数以往不可能出现的算法和应用,也随之指数型态发展。数据在创新、算法也在创新,更多创新应用的出现,让我们思考,以往的数据管理思路,能适应新形势下的要求吗?
以前,在某个老牌银行里面,如果你需要看某个数据,需要拿着纸找一堆人签字,最后,会从一个类似医院取药的窗口中,将按照流程签满字的纸递给数据管理员。而这个管理员,则会告诉你,你要等几个小时才可以拿到数据。因为在这个小时当中,他要从一大堆备份中,找出你要的数据,先加载完后再给你。这是传统的数据管理方式,严格按照自上而下的流程进行,只要做到滴水不漏就是完美。后来,这个银行发生了一个对他们来说具有时代意义的改进——那个帮你找数据的管理员,变成了机器人,效率也有了很大提高。但管理的本质,却没有变化。
在大数据时代,数据将会促成新的技术发展,以及更多新数据的产生。开放的网络环境、个人隐私及数据更新频率加快,数据品类丰富,数据保护的需求激增,数据生态圈的物种增多以及流动性加快……这些复杂、多变又未知的环境,对于数据治理来说,都是极大挑战。想象一下,如果还是按照以往那样管理数据,会出现什么样的情形?也许,审批的审批人会比数据的使用者还要多;也许,数据的创新会停滞;也许,数据的应用价值会比现在晚几年才被发现……
我们需要意识到,数据治理不等同于数据管理,绝非依靠自上而下的贯彻执行就可以解决。相反,而是需要每个人的参与和协同,每个人都有意识去治理好数据,并且这个数据治理是可以变成原材料,成为更多应用创新的“水电煤”。
我以前提到过,在面试的时候,我通常会问面试者“如果你是某企业分析师,你要给CEO看上周的数据,你会选哪三个指标?”这三个指标并不重要,重要的是它是否能回答当前的问题,产生它应有的价值。而在数据产生价值之前,不管是用数据来看还是直接应用,首先都要注意到:数据有没有,数据准不准,粒度细不细,是不是稳定的?如果你给CEO的数据都是错误的,或者不是稳定产出的,今天有明天就没有了,这对于一个企业要做决策的话,是极大的短板。光靠以往的管住,是无法解决问题的。
今年,阿里的数据团队开始在数据治理上发力创新,也正是因为比别人早一步看到,企业如果不做数据治理,或者按照以往的思维来管数据,那么,以后对数据用得越深对数据越依赖,就有可能死得越快。这种创新,不仅仅是指组织结构上,从原来的topdown形式变成了全体协同;而且要在技术上也有创新,提供更人工智能的治理工具,帮助大家提高数据质量,保护数据安全,有效控制数据成本。
大数据时代的数据治理,一定是将有形的管理策略化成无形的智能产品,从一纸命令变成每个人根植在脑中的信念和下意识的习惯,要用大数据的思维方式,用数据来治理数据。