360首席架构师刘鹏:数据变现与交易的历史与未来

dpaplus 2015-11-29 10:04:00

WOT2015"互联网+"时代大数据技术峰会于2015年11月28日于深圳前海华侨城JW万豪酒店盛大揭幕,42位业内重量级嘉宾汇聚,重磅解析大数据技术的点睛应用。秉承专注技术、服务技术人员的理念。

本次峰会涵盖九大技术主题,分别是:互联网金融、O2O电商架构、医疗应用、商业创新、移动大数据、技术创业、社交网络、数据安全、广告数据技术。DBA+社群作为本次大会合作方,将通过图文直播为大家全程跟踪报道这场技术盛宴。



下面是360商业产品首席架构师刘鹏带来主题为《数据变现与交易的历史与未来》的精彩演讲。


各位深圳的朋友,大家上午好!我叫刘鹏,来自360。今天给大家带来的题目叫做“数据变现的历史与未来的展望”,为什么让我来讲,曾经有一本书《计算广告》,各位可能不陌生,最早提出这个研究方向的是我们的老板,中国工程院的院士,他在斯坦福讲过几次。


比较遗憾的是中国一直没有人整理,大家都在闷头挣钱,怎么样把它变成钱?就是我们研究最本质的问题,还有公众号,为什么要有公众号?书里的很多内容是不太好写或是编辑不让发的内容,负能量的东西很多,所以我叫负媒体。接下来我说一下我的看法,互联网思维“三个不要”。



1,不要钱,是我们讲的互联网商业模式,互联网希望变现的方式是免费产品加上后向变现的商业模式。在数据的支持下能够自动把合适的信息放到合适的人面前,这样所有的产品我们叫做互联网思维,网站和APP都是互联网产品,我们看到我们用的互联网产品大部分是免费的。


今天的内容进一步深化,比如说乐视卖的电视会低于成本,电视也是规模化传播的产品,它的边际价格就是生产价格,他的定价是从信息通道,这个地方就谈到广告,互联网谈到的广告和线下看到的广告、电视里看到的广告是完全不一样的。大家不要简单临界为平台,往往是原生的信息夹杂着,你未必能看得到。其实和传统广告并不是一样的展现形式。


2,不要脸,不要脸是我在中国市场看到的情况,今天我不知道是好还是坏,客观的情况是,如果你不能做到汇总用户,基本上是很难在市场上有胜出的机会,我们是全心全意为用户服务,用户的思维是不是要引导?


3,不要命,不要命我觉得诸位可能有同学,有的是在互联网企业工作,创业公司也好,大的公司也好,互联网企业做了一件事情,做了所谓的全员持股,996我觉得在创业公司,你没有看到太多的怨言。在大的公司,我们公司也有,有的是在一些项目上线的时候会出现007的方案,也不太罕见。



重点说的是不要钱,不要钱是把互联网中积累的用户数据和用户流量变成钱,就谈到我对大数据的观点,大数据说白了是咨询公司提出来的,工业界怎么看大数据?我上个月提了几点,其中最关键的一点是这样,如果一个问题通过采样进行技术分析,比如他要有一个货物的销量,他不可能采样一部分进行分析,这样的结果没有意义。广告是特别典型的裁量,中国有十亿人,要分给十亿人,不可能分给一百万人,这是无法采样的配置是大数据关注最关键的。


我们是工业界来看最主要的区别和传统的区分,首先是交易数据和行为数据的区别,交易数据指的是传统的企业重要性在业务运转过程中不得不记的数据,像进销存的数据和银行的存取款利息,这是必须有电视话费清单的清单,这个对你的影响不大,它的一致性要求很高,一点都不能错。另外从行为数据的角度来看,我们指的是在业务的运行过程中,比如说对互联网企业来说,他的日志为什么记下来,服务器自然把日志记下来,逐渐把数据用上,对电信有没有行为数据?其实他也有,比如说通话的内容,这些不是业务需要记录的,这个蕴含巨大的价值。这个行为数据很关键。


另外像医疗,他的交易数据就是各位看病的时候,行为数据是你日常的健康指标。数据规模是巨大的,以广告为例,创业公司做广告的时候,每天的展示量可以到一百亿,这个大于日常的交易,他对一致性的要求很低,所以他的处理机制完全不一样,我们用ICE五是做不了的,同时我也不是互联网企业的架构,放在银行的多,这是两个完全不同的。


传统的数据应用本身,像刚才说的广告,个人征信,每个都需要具体的分析,还有刚才大家讲的智能的订单和进货的问题,每一件单都要通过历史的数据分析,我们的数据量非常大,并且一条都不能扔,那怎么办?一定要用新的架构和新的计算方法。


关于大数据应用的场景,我们会看到两种,一种是洞察,数据产生的结果,最典型的是财务报表,我们把企业的财务数据连成三张表,我们希望原来数据的比选,把我的日志数据连成几张表,放在运营决策的链上,让他们更有效的调整运营结构,这件事我个人觉得,在实际当中很困难,为什么很困难?财务报表能看到三张财务报表非常有限,里面提炼出往什么方向走,不是每一个人拿到表都可以用,我看到的实际情况,如果我们把大数据使用的场景场所在洞察数据这块,我每次用都是为了给领导一张表,给运营的人提供一张表,我基本上没有看到太成功的例子。我们希望的应用是个性化的应用,比如说广告,我是用数据驱动用户划向的标签,这样的过程是自动化的。


大多数的情况下,自动化都是个性化,每个人进行相应的决策分析,有些情况下不一定针对人,比如说对货物的关系,对SKU的管理,我个人觉得这三个点,大数据应用的观点,主要是看你有没有利用大数据解决问题,你能不能找到裁量分析的方法,各位可以结合自己的产品和业务,在这些不讨论这个问题。



数据变现我用一个图解释,各行各业可能有不同的解释,数据变现模式非常简单,左边是一个广告位,投放的是吉列剃须刀的广告,因为只有一半男性用户会看,如果我有数据,我知道每个人的性别,我就把这个男性用户的部分单独分出来留给吉列,比如说6000,对吉列投入产出高,他的投入变成6000,剩下的一半流量打包卖给化妆品的广告。这样的结果是什么?这是真实的产品、真实的案例,最后的结果我挣到的钱是1.2万,道理很简单,希望大家能理解的是,多出来2000块钱的本质,多出来的2000块钱是数据变现的价值,如果我知道得更清晰我就可以挣更多的钱,流量10000,数据价值2000,所以广告市场是非常重要的数据变现的起点。


也可以说大数据迄今为止形式规模化,互联网的意义来说就更大了,互联网从国际性的巨头Google和facebook、360和小米,其实都是后向的概念,这个行业到目前为止70%到80%的收入来自于广告,对用户来说都是这样。


数据变现市场不断的存在,大数据到底能不能挣钱?其实这是可笑的,因为这个市场已经很巨大了,去年在线广告市场是1600亿,前年是1100亿,今年这个数据超过2000亿,并超过所有除互联网以外所有的广告。数据变现在互联网世界是规模化的发展。


计算广告核心的挑战,有一个网站,有一个网页,我知道用户的身份,我要找到合适的广告投放,目的是优化我的收入和成本差,也就是优化我的利润,这个收入的数据叫做千次展示,就是这样的公式,我们所有的任务都是在收入和成本的差,产品和技术,实际上在计算广告和数据发展,有四次数据使用的变革:我需要更精细的服务,我可能要知道他有孩子,孩子多大了,我知道这样的数据我怎么变现?原理上可以卖得更高价,没法采用合约制的方法,签订合同和广告主约定孩子的母亲在未来一周内有多少的量,我们的广告向竞价,竞价本质是需求方定价,供给方媒体是采用撮合定价的方式,价高者得的方式,这种定价主要是在搜索引擎里得到了巨大的发展,结果大家也可以看得见,自从互联网广告产生了以后,数以百万级的广告主,原来没有任何广告渠道和机会的中小企业得到了推广的可能性。


第三个是实时竞价和程序化交易,他自己筛选,实时向需求方广告主是不是需要,以及服务价格。这样的方式根本上解决了整个数据市场的交易问题,我可以用任何我希望的方式,并且按我的方式定价,他使得数据交易和交换规模化的发展起来。


我们在移动上发现,他不是简单的模式,没办法获得用户的满意,从推特开始,现在广告的增长可以看到,大家都是在采用一种原生化的方式。用这个东西去规范广告展示和广告投放,这样在移动上会获得非常好的增长空间,也是有比搜索广告更加受欢迎的未来潜力,这是我们讲的四次主要变化,可以看到广告市场整体的推动力都是被动的,越来越精细。


这个是广告技术市场格局,上面是需求方,下面是从事数据加工和交易,上面是广告交易,数据加工和交易在广告市场上是无比重要的支持,这些公司既不买广告也不卖广告,这点我个人要说一下,中国有挺多的数据交易,我个人的看法,我希望的数据交易没有什么关系,我看了他们的交易,还是以报告和统计数据为主,传统的咨询可以调动,希望用户的数据和用户标签的层面规模化、自动化的对接业务,这个在北美市场,数据交易并不是交数据报告,这个属于洞察应用,我的看法不是大数据。第一方是广告主,第二方是广告平台数据,第三方是其他来源数据。


关于数据交易我总结了三个规律,这是我们在实践中碰到的问题,希望和大家多第出我的观点:


1,我认为数据是不能关联交换的,只能交易不能交换和共享。为什么这么说?因为数据本身就等于钱,前端数据变成钱很容易,如果现在有人说,我是一个创业公司,为什么腾讯不跟我做交换和共享?这个很荒谬,你还不如让马化腾把他帐户上的钱打给你,你看到大量的数据是共享是发生在公司之间有更高层的资本合作,否则是违反规律的。


2,数据交易该怎么做?显然如果我有十个数据提供方,有十个数据需求方,如果大家点对点的方式做数据交易,这是很低效的,我们要和用户行为进行交易,我们要做数据的传递,这复杂的程度,广告里的数据交易怎么发展起来?所有的数据提供方都把自己的数据放在广告交易上,广告交易是分发广告流量的核心节点,当需求方DSP向广告层整合,他不产生额外的消费,需求方和交易所这是特别清凉和合理的方式,数据的交易还出现了一个功能,数据交易实现了部分交易,我是一个广告主,我只需要对一个地方的数据进行布局,如果有数据提供方,他提供的数据是的难点,我没法买,再便宜对我来说都是成本,只有在这个条件范围内,收钱的时候是根据是否赢得了展示机会,所以实现部分交易,让很多规模不大的参与到这个过程中,首先是定价,第二个是数据交易。


3,到底怎么给数据定价?现在的方式还是不够的智能,数据产品和其他所有的实体产品或是跟我们讲的广告产品也不一样,比如说有一瓶水,你卖给甲以后不能再卖给乙,这次机会给了第一个广告主,第二个广告主就不可能再获得,我知道一个人是男的,这份信息可以卖给两个人,也可以卖给五个人,也可以卖给十个人,目前工业实践中发现,如果你卖给十个人以后,和卖两个人相比,一个是卖奶粉一个是卖纸尿裤,竞价使得流量的价格抬起来,数据获得的增益反而少。


我个人看的现象是,数据交易蛮发达的,但是价格偏低,价格偏低是我们没有找到这种产品的核心定价资格,也没有找到真正市场化、竞价的资格,找到这些点,他的规模更真的。


还有爆发能力,现在的状态,广告里的数据用行为交易,在中国是没有的,看到所有的交易所和深圳都没有关系。


再说一点关于数据的隐私问题,我每次都会讲到这个问题,这个问题大家的认识很多,数据隐私就是我现在根据用户行为数据指导广告投放和内容投放,如果因此对用户造成伤害这是我们不希望看到的,什么时候会造成伤害?关于隐私之前没有标准,而且可以听到专家讨论的观点,政府要立法、出台规章制度,这句话是对的,但是告诉大家的是,这样的规章制度只能解决20%的问题,80%是产品和技术。欧盟有一个负责隐私保护条例制定的委员会,PII别人能找到你的信息,eBay可以给你骚扰文件。BII文件是脱敏。国外的网站有一个三角一个I,这是非常聪明的办法,既解决了用户的顾虑,同时对业主也没有影响,虽然声音很大,但是比例很低,对业务没有实质性的影响。第三点是要求不能长期属性数据使用用户的行为数据,用户行为记录两年以上是不允许的,不论借用什么样的介质,管理上的漏洞风险会很大,严格禁止保护,不能进行备份。这三点是最基础的,对互联网不太解决问题。


著名的比赛Netflix推荐大赛,每个用户会打分,在几轮的讨论中,一个参赛者看到这个记录,发现这条记录和他的同事应该是同一个人, 同事之间会经常交流,这种数据是级别的,我们谈到某位朋友,我知道背景就可以准确的过滤,我怎么知道可以,这侧是告诉我们,原来我们注意到的认识误区,真正顾虑的东西是熟人,而不是陌生人把你的电话号码卖了。如果你被别人窥探了隐私他对你的伤害比用户多很多。


这个例子告诉大家,所有的业务把用户行为按照互联网的业务体系,我们只能往前做着走,千万提醒大家,电信把他的数据公布出来进行买卖,我们在里面找一个我们的熟人,比如说一个领导、一个局长。


我个人的观点,隐私是大数据头上的达摩克理斯之剑。

小编精心为大家挑选了近日最受欢迎的几篇热文,回复001,看丁俊的《【重磅干货】看了此文,Oracle SQL优化文章不必再看!》;

回复002,看《灾备故障上了红头文件,容灾技术到底哪家强?》;

回复003,看吕海波的《去不去O,谁说了算?》;

回复004,看胡怡文《PG,一道横跨oltp到olap的梦想之桥》;

回复005,看付新《达梦专家解读:国产数据库也疯狂》;

回复006,看郭耀龙《假事务之名,深入研究UNDO与REDO》;

回复007,看宋日杰《Oracle后台专家解决library cache锁争用的终极武器》;

回复008,看周俊《被埋没的SQL优化利器——Oracle SQL monitor》。

 

最新评论
访客 2024年04月08日

如果字段的最大可能长度超过255字节,那么长度值可能…

访客 2024年03月04日

只能说作者太用心了,优秀

访客 2024年02月23日

感谢详解

访客 2024年02月20日

一般干个7-8年(即30岁左右),能做到年入40w-50w;有…

访客 2023年08月20日

230721

活动预告