作者介绍
战学超,数据架构师,曾任职于青岛航空股份有限公司、海尔B2B平台巨商汇、NEC软件。曾负责企业数据平台构建、B2B电商平台数据管理与搭建、证券公司BI(SAP BO/BW)等。擅长数据库、DW、自动化运维、数据平台搭建等。
数据量日益增长的今天,尤其是由IT信息时代向DT数据时代的转型期中,数据越来越凸显重要,数据的价值越来越高,也愈加被重视。很多公司都将数据作为企业的核心竞争力,企业的DNA。那么什么是数据呢?
IT时代的IT主要是信息技术,即企业的一切信息例如:企业员工信息,客户信息,产品信息等。信息主要用于描述企业员工、描述客户、产品等,通过信息可以大致了解员工,客户,产品等的基本情况。
DT时代的DT主要是指数据技术。数据是用来准确衡量信息的,例如公司有多少员工,本科以上占比,客户总量,区域客户量等。某种程度上可以这样理解:信息是一种概括的描述,通过信息可以描绘出企业的大概情况,而数据可以精准的描述信息,将信息量化以展示。
当然了,信息和数据的区别上述只是我个人的理解,在我看来,单纯区分二者的区别可能没太大的意义,将二者结合起来,迎合时代浪潮,做好向DT数据时代的过渡才是关键。
数据平台作为企业数据化的一个重要组成因素,必不可少。现在有很多互联网包括传统企业等都在搭建自己的企业数据平台,通过数据平台量化企业各项经营指标,深度剖析企业经营状况,为企业的科学经营提供帮助,进而实现持续盈利的目的。可以说,企业不管是做信息化还是做数据化,都是为了帮助企业科学管理,科学经营决策,都是以实现持续盈利,最大化盈利的目的。
什么是数据平台
我个人的理解是:数据平台是指将公司的所有数据以及关联数据(例如行业数据,竞争对手数据等)进行收集,按照规则处理,并根据特定的主题进行分析,展示,以便准确地剖析企业经营情况,达到指导公司科学经营和决策,并以实现企业持续盈利,最大盈利为目的。一句话,数据平台就是将企业的数据转化为盈利。数据就是金钱,已经越来越成为各个行业各企业的共识。
在信息时代,其实也有一些数据平台的影子,并且一直持续到现在,例如报表;BI;数据仓库;ETL等这些技术很多企业或多或少的都接触过一些,现在一些比较流行的词汇如数据挖掘,Hadoop,Spark,大数据等,也都是围绕数据相关的。所有这些技术有效组合,共同为数据平台建设提供技术支持。
如何建立数据平台
首先这里要与大家分享的是中小企业的数据平台搭建之路,定位于中小企业,数据远达不到海量,甚至企业都还未有历史数据的积淀。在互联网企业可能更多描述的大数据平台,数据挖掘等;而在银行,电信等大型传统企业更多的是数据仓库,BI等,这些都是与中小企业有区别的。大数据、数据挖掘等对于技术人员的技术要求比较高,大型数据仓库,专业BI软件等往往需要大量的IT资金投入。
而中小型企业的IT技术人员和IT投入都是短板,加之数据量本身不大,故如何搭建针对中小企业的数据平台,还需平衡好企业自身技术实力,企业数据量,企业IT投入三个主要方面。平衡好三者的关系是搭建起适合自身的数据平台的关键之一。
个人认为数据平台搭建的一个前提是要有原始数据的积累。正所谓巧妇难为无米炊,没有数据,数据平台何来?所以企业一定要重视数据,并积累数据。数据的来源可能是已有企业的IT系统数据库中数据,例如ERP系统中的数据、通过各种渠道收集的竞争对手数据、手动录入的数据等等,这些作为数据源,需要做到统一的整理存放。
数据源有了,做饭的米有了,接下来我们要明确自己是要烧米饭还是米汤了。即我们要定义自己的分析主题,中小企业按照内部部门划分分析主题就好,一般为人力主题,财务主题,销售或市场主题,客户主题等,另外需要规划一个特别的主题,即企业驾驶舱,作为各个主题的入口,企业驾驶舱负责展示各个主题中总括的数据以及各个主题中最核心,企业领导最关心的数据等。
有了数据源,有了数据主题,接下来就是要将数据源中的数据,在数据主题中进行有效的处理,这包括:抽取->转换清洗->装载(ETL的过程)。通过ETL工具抽取源数据,清洗掉无效数据,转化数据主题需要的数据,然后在装载到数据主题中,这样就可以实现有效数据从数据源到数据主题的转变。
经过上述三步的处理后,数据已经存储在数据主题中,接下来就需要通过report报表工具,将主题中的数据进行展示。当然有一些报表是直接查询数据源中的数据(需求方迫切需要的),而未经过数据集市,这也是允许的,尤其是平台建设前期。
经过以上四步,可以基本搭建起数据平台的雏形,此时的数据平台更多的只是报表平台,未包含数据预测,数据监控预警,数据挖掘等深层次功能。其实在作者看来,数据平台的第一步一定是报表平台,汇总公司已有或是各部门需求的报表,进行统一整理,分类展示,然后在此基础上进行一些深层次分析的数据挖掘、预测分析等。
当然,上述四步并不是串行进行的,可以在定义数据源的时候一并确定好数据分析主题,在理解抽取数逻辑的时候,并行进行ETL的开发工作等。搭建数据平台,尤其是在数据平台初期,一定要有一个原则,即:快速迭代。
接下来我要说的数据平台搭建方法论相关,主要三点:
快速迭代
自下而上与自上而下结合
技术储备与业务规划要前瞻
首先快速迭代。数据平台搭建初期需要快速迭代,不断实现各个业务部门的报表需求,分析需求,通过IT技术解放各个业务部门手动出报表的重复作业,将各个业务部门吸引到数据平台上来。
这个阶段甚至可以牺牲报表的性能,数据的规划等(极端情况)。只有各个业务部门参与进来才能共同推动数据平台搭建,要采用自下而上与自上而下相结合的方法:“下”指数据平台建设人员,各个部门的业务同事等。“上”指IT领导,各个部门的总监领导,公司的中高层领导等。
数据平台的搭建一定是公司全体人员共同努力的成果,只有上下一心,共同参与,才能搭建起最符合企业自身业务实际、最有效、准确的数据平台。总的来说,数据平台的搭建需要遵循一个前提:历史数据积累;一个原则:快速迭代;贯彻一个方法:自下而上与自上而下相结合,全员参与。
数据平台的技术架构
接下来要介绍的是根据中小企业的特点,平衡了技术、投入、数据量三要素后总结出来的搭建数据平台的IT技术架构。
纵观该技术架构,可以看出以下特点:
层次性:从数据源到最后的展示分了多层,数据经过了多次转化,看似复杂,其实是将数据进行了“瘦身”,最终展示的数据可能只有几条,几十条,而这几条数据来源于多数据源,可以有效地提高最终的展示效率,全量DB的引入汇集了公司不同的数据源中数据,也统一了数据源类型;数据仓库的建立是一个循序渐进的过程,建立数据平台不能没有数据仓库,但在数据平台初期不能太过关注,否则会违反快速迭代的原则。
开源:数据库采用MySQL数据库,etl采用kettle,都是开源免费而且有广大用户群的技术,方便快速入手,且无经济负担。
时效:数据展示平台中的报表大多是非实时的展示,即从数据集市而来的,也有一部分需要实时展示的报表,这个时候采用的是直接查询数据源的方法,即图中白虚线。但当数据量增多的情况,直接查询比较缓慢,或是跨多数据源比较复杂的情况下,可以考虑一些新的实时计算的技术,例如Spark等,这在数据平台搭建的前期一般不会出现。
数据平台的搭建不能一蹴而就,不能作为一个短期项目,而应该作为一个长远规划、战略规划,不断迭代,不断优化等。同时也要注意时间的控制和里程碑的建立,不能三年下来还是没有数据仓库的雏形,还是没有完善的数据分析主题等。
随着时间的推移和数据的积累,会逐渐考虑大数据Hadoop,Spark实时计算的技术,这需要在数据平台建立的过程中循序渐进,并做好技术储备。
数据平台团队组建
明白了数据平台,懂得数据平台的建立方法,又清楚数据平台的技术架构,那么最后的执行者即数据团队如何组建呢?
首先数据团队的组建方式两种:一种是真实团队式,即为数据平台项目而组建的团队,从各个IT,业务部门抽取,专人专职,这种成本比较高;另一种是虚拟团队,即各个业务部门加IT团队出人,时间自由支配,给定工作量与时间节点。
虚拟团队成本比较低,不影响各自的正常工作,但是对员工的积极性要求比较高,所以前面讲过数据平台要全员参与,上下一心,上面跟进督促,下面环环相扣,充分把握时间与进度,完成数据平台的初期建设。数据平台经过了初期建设后,一定要有专门的团队的专业维护,这样便于以后数据分析,挖据,预测等的工作开展,也利于快速支持业务部门的需求。数据团队的演变大致如下:
刚开始的时候,只有开发跟业务人员采用,开发帮助业务人员出报表,解放业务人员的手动出报表,随着发展,后续会逐渐进入ETL工程师,数据分析师,架构师,产品经理等角色,而是数据平台的功能也由一开始的出报表逐渐转换为指导业务人员管理规划业务,慢慢成为公司或是行业的专业数据产品,进而包装成商业产品为公司实通过数据产品盈利。这是一个循序渐进的过程,不能一下子就企图招全各方面人才,否则会造成极大的人力浪费,大幅增加数据平台的成本。
平台搭建误区
数据平台的搭建其实是有一些误区的,作者结合自身经历真是企业案例,分享一下数据平台搭建的一些误区,希望能够起到警示提醒作用。
很多企业跟风搭建数据平台往往会选择从BAT等一线互联网公司高薪聘请技术人员来帮助建立数据平台,而高薪请来的人员有可能会根据以往大数据平台的经验和技术架构,建立起不符合企业现状的技术架构。
直接交给专业公司,或是将整个外包出去,这也是一个常见的误区,外包公司等往往都是分期收费,按需收费,前期规划不明确,变动频繁,成本也会直线上升,更重要的是外包团队不了解企业自身的实际情况,往往做出来的数据平台不符合企业自身特点。不过专业公司,外包团队的行业经验,建设经验是很值得学习采取的。
合作单位或是其他公司做的很好,往往采用直接COPY的做法,这也是不可取的。
购买专业的数据产品会提高工作效率,但是绝不会买到适合自己的数据平台,直接使用就可以。
综上4个误区,全是为说明一点,数据平台的搭建一定要切合企业自身的实际情况,量体裁衣,牛人的技术,专业公司的行业经验,合作单位的建设经验等都是可取,但是不能完全复制,要考量自身特点,有取有舍,循序渐进,条件允许的话利用专业的报表软件、数据产品等提高工作效率,实现数据平台的快速搭建。
总结
中小企业数据平台搭建之路漫漫,但易起步开始,初期搭建(报表平台)一般3月足够,在此基础上不断完善,将企业的数据提炼成金,为公司带来持久的最大化盈利,希望本篇文章能够为正在数据平台搭建之路上的同仁们提供帮助。
如果字段的最大可能长度超过255字节,那么长度值可能…
只能说作者太用心了,优秀
感谢详解
一般干个7-8年(即30岁左右),能做到年入40w-50w;有…
230721