为什么要做数据架构治理?数字转型,治理先行。
数字化的应用是整个行业高速发展的源动力之一,快递行业日新月异,规模庞大,数字化能够使管理升级,提高整个内部的运营效率,降低相关的运营成本。在打破数据孤岛,链接用户跟快递员、网点、商家等角色的过程中,数字化都发挥着很大的作用。简单来说,数字化就是一道门,你被关在门外面,那未来很可能就会被淘汰。而数据架构治理,就是为中通数字化转型打下了基础。
二、现状
中通目前有500+的产品,这些持久化在存储上就是有100W+的数据库表。并且业务量以每年20%-30%的速度高速增长。各业务部门、开发团队的数据标准不一致,在数据打通和整合过程中会出现很多问题。所以就必须建立数据标准和推动数据模型的落地来对数据未来状态的规范,包括对数据的名称、含义、结构、取值及数据间关系的规范,以此对数据库表结构、字段定义进行指导约束。
公司目前没有平台来做数据分类、敏感数据的标记,数据以什么形式对外提供出去不明确 ,什么数据可以对外暴露不明确 。一旦隐私数据泄露,对业务的影响非常大,甚至能影响整个业务的生死。同时对数据文件、图片、文件、音视频等类型数据的定期的备份恢复策略也没有制定,一旦误删除可能会导致数据的永久丢失。
由于前期的快速发展,难免会遗留一下历史的原因,比如数据的上下游依赖公司就很难去识别到,随着业务的变动很容易出现上游发生变更,但下游却不知道的问题。开发的数据对象,都是通过口口相传。模型梳理难以完成,导致在数据开发和数据管理过程中都会遇到一些效率低的问题,开发不清楚数据的上下游是如何使用的。
缺乏跨团队的数据工程流程,经常会导致“挂羊头卖狗肉”的情况,比如字段明明是网点名称,数据库里却是网点名称和网点编号都有存储在这一列,导致各个团队的成熟度不同,团队间没有一致的数据质量定义或指标。
三、怎么做数据架构治理
顶层规划设计的方法在五到十年前比较盛行,多源于国外咨询公司基于国际理论(如DAMA-DMBOK)结合自身实践积累形成的方法论,用这些理论框架为企业进行全面的现状调研,基于此再进行数据治理组织、数据治理工作内容/流程/制度、数据治理平台及未来建设路径的规划。其交付物通常是厚厚的调研报告、设计报告和PPT,项目周期在半年甚至更长。顶层规划设计的方法好处在于有理论依据,体系完整,能够帮助客户达成对数据治理全貌的理解和共识,有利于推动后续工作开展。但其也有许多不足,如过于理论化与企业实际情况结合不紧,导致管理组织和流程都无法落地;漫长的项目周期中,只部分解决了数据治理管理能力建设的问题,但并未解决实际数据问题、没有提升数据质量甚至业务质量、数据价值也没有显著发挥出来。因此,成果也看起来很厚重,但实效并不大。
从一开始我们也想过自上而下的这样推动数据治理,但是就如上面所述,项目周期太长,同时实际效果也不一定很好。因此我们结合我们公司的实际情况,先治理关键流程:数据标准管理、数据模型管理、数据上下游链路管理、敏感数据管理以及数据的全生命周期管理。同时连同业务部门,按照产品线进行划分,小范围内快速验证和迭代数据治理相关的方法、流程、规范,然后再复制推广。总体的思路就是:定规范,建平台,建体系。
四、规范
结合公司的现状,我们对数据的全生命流程进行梳理,针对关键节点我们梳理出了:数据存储选型规范、数据建模管理规范、数据分发管理规范、数据生命周期管理规范。
1、数据存储选型规范
架构师在工作中经常会遇到数据库存储选型的问题,而市面上数据库产品众多,往往会无从下手,甚至有时候从业务开发到上线运维过程中会多次更换底层数据库,给整个研发中心带来不必要的额外工作,数据存储选型对于一个给定的应用环境,针对公司现有业务背景和整个DBA团队技术储备,选取最优的数据库类型,建立数据库及其应用系统,使之能够有效地存储数据,满足各种用户的应用需求。
2、数据建模管理规范
针对数据的开发设计阶段,我们将数据对象抽象成逻辑模型和物理模型,同时针对表、字段、数据库的命名和设计制定了一系列的规范并前置到逻辑模型设计阶段,同时针对持久化到数据库上进行流程管控。
数据建模总体流程:
3、数据分发管理规范
对于现在公司的数据实际情况,数据分发应该严格按照分发数据量进行分发类型选择,并且除了SQL查询方式之外,都应使用中通数据分发平台ZDTP进行数据分发,并且通过订阅方式对数据下发至各个合规终端,同时通过可配置的软件或工具对源数据进行收集、处理以达到符合中通内部或合规的外部第三方生产需求的操作,以上所有的操作均有流程进行管控。
4、数据生命周期管理规范
结合公司实际,针对科技中心所管辖的所有数据,文件,图片,视频,录音等存储。将数据进行分级分类,按照对应的级别的不同制定不同的生命周期管理策略。
数据敏感级别属于数据安全领域,敏感等级不同的数据对内使用时受到的保护策略不同,对外共享开放的程度也不同。数据管理者负责制定其领域内数据敏感等级的划分规则,并制定和发布本部门的数据敏感等级目录。
数据分类治理是实现不同部门之间数据共享互认的目的。我们通过分类标识,将分散的、存储在不同系统的数据内容,打破数据的孤岛,进行有效匹配,指定不同的数据敏感级别,理清各方的数据权限,达到数据安全治理的目的。
根据数据级别的不一样,我们将制定不一样的数据保留策略:
五、平台
为了保障上述规范的落地,我们连同技术平台团队,建设了数据建模平台,将建模平台放入统一的运管平台,为用户提供一站式的开发服务。
中通数据建模平台是由中通科技完全自主开发的拥有知识产权的跨平台数据库建模工具,相较于传统的PowerDesigner之类的C/S架构的建模工具,我们采用更加轻便的B/S的架构设计,更符合公司的产品规划。数据建模平台不仅能够按照公司产品粒度进行mysql等传统关系型数据库的对接,还可以提供国产数据库如TIDB的对接,并且我们将将应用对应的物理库抽象成一个逻辑库,用户可以制定环境生成物理模型。并且按照产品线进行划分,我们提供私有词典和标准词典供用户进行标准字段的引用。私有词典是在本产品线引用的标准字段,标准词典是中心藏经阁维护的一系列标准的基础数据供给所有产品线进行引用。在模型设计阶段我们提供可视化的模型设计能力,可以可视化的新增、编辑、删除模型,并针对字段顺序可进行拖拽排序,为方便模型的管理,我们还提供了模型的自定义分组。并且在设计阶段我们就将数据的分类和敏感数据的标记要求在模型中体现。
针对于分库分表的模型,我们将按照分片的规则将物理存储上的多个分表在建模平台上抽象成一个模型。并且内置了mod和hash算法,可以按照用户配置的分表设置,快速的生成分库分表/分表的模型。
同时针对模型的变更,我们提供了版本管控的功能,平台会记录模型的各个版本的元数据信息,并提供不同环境的模型快速部署和回滚的服务。并且模型的所有的变更我们都和IDB进行了打通,每次应用都会生成IDB的工单进行快速部署。
相较于传统的C/S建模工具,我们也提供了web端的数据模型关系操作工作台,用户进行全局的数据模型的浏览,并支持放大缩小以及导出。可以任意拖拽模型的位置进行保存,并且可以任意的进行模型之间的关系的维护。针对于初始化模型较多的产品我们还有搜索聚焦以及自适应布局功能。
同时针对大家呼声较高的数据库资源使用情况展示,我们本次将物理库的一些资源使用情况进行了展示,目前将数据库的配置、状态、QPS、TPS、连接数、最大连接数。物理表的表大小、表大小的变化趋势、写入、更新、删除的操作统计。
六、未来的计划
数据治理不是一蹴而就的,它是一个漫长而持续的过程,我们将在平台完善、治理服务、体系化运营这三块持续努力,对数据安全、资源利用、数据质量等各方面进行治理。
如果字段的最大可能长度超过255字节,那么长度值可能…
只能说作者太用心了,优秀
感谢详解
一般干个7-8年(即30岁左右),能做到年入40w-50w;有…
230721