过去,治国必治水;现在,治企必治数。
都江堰治理的三字经、八字真言,在数据治理过程中是否同样有效?我们一起来解读分析!
1、深淘滩
都江堰的深淘滩是指的对应飞沙堰的凤栖窝那一段河道每年岁修需要淘到卧铁的高度,准确的说就是2.15米,这个深是标准的深,不宜过浅,也不宜过深。
这对治数有什么启示?深淘滩,意味着打好基础功,尤其是数据盘点和数据调研的基础功夫。岁修淘滩的功夫决定次年灌溉、防洪的效果,数据盘点和数据调研也直接决定数据治理的成败。
在数据治理的实践中,甚至数据盘点和数据调研花的功夫比数据开发本身的功夫都要多,成本要高。尤其是首次启动数据治理项目的公司,很容易发现无论是历史的业务数据库还是陈年的数仓都是一团乱麻,这个时候就需要下决心去梳理业务流,然后基于业务流,配合对历史数据库的解析,分析出数据流。而这些下面的功夫,直接决定数仓搭建的质量,甚至决定指标开发的成败。
2、低做堰
低做堰是指飞沙堰修筑的高度也刚刚好2.15米,既能排洪,又能排沙。
低做堰对数据治理的启示,是要通过各种方式降低数据治理的难度,尤其是低代码的方式来降低数据开发的难度,以及通过数据平台产品的持续优化来大幅提升数据治理的优势,比如实时数仓减少无谓的调度。
3、遇弯截角
遇弯截角是指在凸出的地方要把锐角去掉,避免冲刷河岸。
这个对治数最大的启示,是通过制度、标准、流程来对数据治理形成保护,减少掣肘。我们知道数据治理的有三个域:软件域、制度域和实施域,其中软件域和实施域往往乙方可以代为效劳,但制度域是甲方一定要自己深入打好基础的,否则就会冲击实施。所以有数据治理的专家说,如果甲方的业务不配合,数据治理就很容易有风险,就如凸出的锐角,极容易冲刷河岸一样。
4、逢正抽芯
是指要把主河道中心深挖,静水流深仍然是要减少到河岸的冲击,减少洪灾,减轻修筑堤坝的损耗。
这个对数据治理的启示就是,在条件运行的情况下,一定要做好数仓层级的搭建,不好的数据仓库都是很“浅”的,可能ODS直接就到指标层了,所以河水很容易漫出堤坝,成了洪水。我们很多项目因为不愿意深挖,发现最后的ads层很不牢靠,极容易出错,是因为项目之初就根本不像建设DW层,这是数仓的深度,犹如河道的深度,所以后期改造成本就如行洪成本。
5、鱼嘴
利用地形和弯道水流动力学的规律,巧妙的实现冬季60%的水流入成都平原,保证1000万亩良田的灌溉,才使得大家有吃饱了没事干的幸福;而夏季又确保60%超出用途的水通过外江流入长江归入大海。同时也确保80%的砂石排入外江。
数据治理的鱼嘴就是ODS层,就能保证有用的数据全部进入数据内江——ODS层,又要保证多余的泥沙都排出外江,也就是不要进入ODS层,而这个也是需要调研的,我们知道李冰选择鱼嘴这个位置是很精心挑选的,那么什么进ODS,什么不进ODS一样异常关键。
6、飞沙堰
飞沙堰是二次行洪排沙之所在,将剩余20%排入内江的砂石通过弯道动力学再次甩出15%。发生超出规模的洪水的时候二次排洪。
飞沙堰是DW层,是ODS流入的内江部分,需要进一步加工清洗,把泥沙(脏数据)进一步排除。
7、宝瓶口
配合飞沙堰,严格控制进入内江的水量,从而实现第三次排洪的功能。
宝瓶口是APS层,这一层的都是可用的了,通过宝瓶口的水又通过不同的闸道形成星罗密布的灌溉体系,在数据治理体系里面就是APS的数据通过个性化的API,恰到好处的提供数据服务给下游应用或者BI。
8、科技与狠活
形容都江堰最多的是巧妙,利用地形环境和动力学,基本没有现代工程学的痕迹,然而能抗住5.12大地震,基本做到了永续利用(可持续利用),要知道那些新修的科技狠活人工大坝是没有扛过汶川大地震的。
这个对数据治理的启示是,未来可能会有层出不断的科技,比如最近流行的大模型和chatGPT,让大家误以为数据治理不重要了,只需要灌入足够多的数据就够了,管他有没有质量。但这意味着灌入足够多的假数据,照样结果会被污染。而扎实做过治理的高治理的数据完全不影响更高的科技,而是一定能赋能更高的科技,比如现在都江堰已经有很多现代工程的痕迹了,但主体仍然是2000年前的非科技狠活,才能这么多年一直能扛过来。