大数据:价值实现之旅
发布日期:2016-3-5 21:3:21
大数据开启了人类数据管理史的一段崭新旅程。人类想要测量、记录和分析世界的渴望是驱动大数据技术不断向前的动力。但是如同此前的电子商务、云(如阿里云)计算等创新构想一样,大数据也不得不怀抱变革理想在现实中披荆斩棘。我们该怎样定义我们所身处的信息技术时代?是云计算、社交、移动,还是大数据?相信每位从业者和客户都会有自己的认知与解读。“一千个人眼中就有一千个哈姆雷特”,很多时候是一个放之四海皆准的道理,更何况我们正在经历一段创新趋势叠加、创新领域融合的独特时期。而对于那些想要体会技术创新真正内涵的人士,有一个话题永远不可回避,这就是技术创新到底会给其受众带来怎样的真实价值?这种价值是不是能够在其被发掘后长期、持续地给予? 本文重点关注大数据技术这一重大技术创新趋势在企业环境中价值实现的过程。在全民热议的氛围中,或许我们可暂时远离那些对大数据的定义、技术特征、未来走向的种种争论,潜心聆听喧嚣中实地探索的脚步。我们希望与您共同探讨大数据所能够开辟的数据价值转换与兑现路径,从而为企业高效、合理利用快速增长的业务数据带来启发。也希望这些来自中国企业的真实应用案例能够证明,大数据并不仅仅是一个催生布道师的舞台,它正在真切地影响着我们的工作与生活。 脚踏实地的大数据 人类的想象力有多丰富,大数据的未来世界就会有多广博。要让海量数据资源变成宝贵的商业资产,企业的大数据技术实践者们需要从现实中起步。如今,“大数据”总会与“变革”作为联动的词汇出现。牛津大学网络学院互联网研究所治理与监管专业教授维克托·迈尔-舍恩伯格在其著作《大数据时代》一书中,将大数据定义为一次重大时代转型的开启者,称其将会引发一场生活、工作与思维的大变革。 他认为,在大数据时代,人类处理数据的方法和思维模式将被彻底改变,它会呈现出一些前所未有的现象。比方说,人们将会分析更多的数据,而不再依赖于随机采样;人们将不再沉迷于对数据分析精确度的追求,转而关注对趋势的把握;人们不会再习惯性地追问事情的因果,而是寻找事物之间的相关关系。无论这些数据处理的未来趋势最终是否能够成真,我们都可以从日常的工作和生活中窥探到一些变化的端倪。首先,企业的数据管理范畴正在不断扩大,在线交易、Web日志、点击流、传感器信息、社交媒体数据等都被纳入企业的业务数据集。另一方面,我们在生活中会遇到越来越多与数据分析相关的商业创意。例如,各个电子商务、视频网站中花样繁多的推荐系统,还有超市中零食与手电筒这样不明所以、却能带来实际销售增长的摆放组合。 大数据对企业究竟意味着什么?舍恩伯格在《大数据时代》一书中做出了这样的描述:“在大数据时代,数据的价值从它最基本的用途转变为未来的潜在用途。这一转变意义重大,它影响了企业评估其拥有的数据及访问者的方式,促使甚至是迫使公司改变他们的商业模式,同时也改变了组织看待和使用数据的方式。”转变并不会在一夜之间发生。从多来源的数据采集,到通过深度分析获取洞察力,之间会是一段并不平坦的征程。毫无疑问,Hadoop等技术的日趋成熟,让企业用户可以更方便地、在更大的范围内收集业务的相关数据,但同时真正的挑战也会接踵而至。这就是如何高效地处理多来源的海量数据,并且为其找到适合的商业用途。 在过去的一个月里,我们实地探访了三家正在实际部署大数据应用的企业。它们分别是京东(JD.com)、人人游戏和PPTV聚力。这三家互联网企业正在用业界前沿的数据管理思维,展开大数据技术的早期实践。同时,在它们身上也折射出全球互联网企业利用大数据的实际趋势。全球范围内与之业务相类似的在线零售巨头亚马逊(Amazon.com)、社交游戏先锋Zynga、全球最大的在线影片租赁服务商Netflix,同样处在大数据商业应用的最前沿。另外,我们还特别加入了一个寓技术于体育竞技的轻松案例。网球赛场上细致入微的数据统计和分析背后,正是大数据技术的鼎力支持。 远观不如近临。大数据的价值实现之旅已经启程,改变就在我们的身边发生! 大数据价值就在身边 京东对大数据的利用不仅体现在内部管理和服务商家方面,如果你是一位顾客,只要访问JD.com就能感受到大数据技术为您营造出的购物体验。在这里,商品的搜索、推荐都是基于京东大数据平台的实时汇总和结果推送。比方说搜索的排序就可以基于用户的点击习惯、用户好评度等指标进行个性化定制。站内广告和联盟广告的推送也可以根据相关的指标进行定向发布。李曦表示,经过近三年的探索,大数据技术的价值正在京东业务运营的不同领域得到逐步的体现。基于大数据的汇总与分析,京东正在不断完善包含电子邮件、短信、广告等在内的精准营销体系。站在业务运营优化角度,大数据技术能够切实提升工作效率,为京东带来直接的成本节约,并营造出更优的客户体验。 京东副总裁 李曦 全流程大数据管理 在数据获取方面,京东对各个购物频道的交易数据、出入货数据、逆向物流、用户浏览日志等数据进行了全面的收集,同时也会从互联网上抓取一些商品价格等业务相关信息。这些数据会被汇总和存储在京东自主研发的大数据平台之上。这个平台支持不同的数据集市,例如分布式的数据集市,或者是甲骨文、MySQL、微软SQL Server等关系型数据集市。平台底层的数据存储和离线批量数据运算由Hadoop实现,流式计算方面则采用的是开源实时数据处理框架Storm。 在承载汇总、存储和查询任务的大数据平台之上是大数据分析层,这一层级主要涉及到一些建模的工作。例如针对用户、商品、商家、促销、反作弊、风险控制、精准营销、运营优化的数据建模等。而这些数据模型最终的分析结果会在应用层得以展现。目前,京东已经能够向内部和外部用户提供BI(商业智能)服务。其中,内部BI系统向从业务员到高级管理者的不同层级数据消费者提供各种门类的业务报表和历史报表。而对于在京东售卖货品的商家,京东数据罗盘则可以向他们展现店铺流量、订单数量、实时客流等关键业务指标,以及节日促销指数、价格弹性、用户喜好等分析功能。 谈到传统BI技术在大数据时代所扮演的角色,李曦表示,传统BI手段在大数据应用环境中仍然有其价值,尤其是在呈现能力方面。他说:“京东早期的数据分析建立在传统BI之上,它所采用的中央集中式模式会在主机应用层面造成瓶颈,但传统BI数据集中的理念并没有过时,特别是其功能强大的呈现工具同样适用于互联网行业。”目前,京东在大数据处理的展现层仍在使用甲骨文BIEE等传统BI工具。“作为一家电商企业,京东的零售业务数据基本上是结构化的,而用户访问行为数据又是非结构化的,因此京东全流程数据汇总实际上是把结构化、半结构化和非结构化数据融合起来的过程。”李曦说。他表示,这样的数据组成结构实际影响了京东的大数据技术选择。在数据仓库层面,京东选择了可扩展性强的分布式架构,而在应用层将相对发达的BI工具加以有效利用,实现了传统与创新的融合。 京东:PB级数据价值发现 拥有一亿用户、营业规模达数百亿元的大型网络零售企业京东(JD.com),在大数据应用领域实现了分布式架构与传统BI工具的有机融合。成立于2004年的京东商城(以下简称为京东)在2012年的交易金额突破600亿元,相当于每秒就会产生2000元的交易额。在网络零售市场深耕近十年之后,京东也正式迈入了PB级数据管理的新时代。对企业而言,PB级(1PB=1024TB)的数据管理算得上是衡量其数据规模和管理能力的一个重要标尺。目前,全球PB级数据管理俱乐部已经拥有Facebook、淘宝等重要成员,能够跻身其中对京东而言是荣誉,也意味着挑战。 “针对业务数据快速增长的情况,我们在2012年正式启动了大数据平台的搭建。这个自主开发的平台基于分布式的技术,支持异构数据集市,同时也很好地利用了传统BI的展现层技术。”京东副总裁李曦说。目前,李曦正带领着300人的技术团队不断地改进和完善京东从数据的获取、平台搭建、分析到应用的电商全流程业务数据管理工作。在2012年加入京东之前,李曦在美国硅谷工作多年,相继服务于Siebel、甲骨文、谷歌等公司。 PPTV聚力:看得见的大数据 在全球拥有超3亿活跃用户群体的网络电视技术平台提供商PPTV聚力,正在使用Hadoop、HBase、Hive、Storm等大数据技术打造个性化视频推荐体验,优化视频播放体验,实现在线广告的精准投放。2012年,根据有关统计显示,在线视频已经超越社区交友和搜索服务跃升为互联网第一大应用。PPTV聚力目前全平台月度活跃用户达3.4亿,每天的活跃用户超5000万。这一在线视频平台目前每天会产生数10TB包含用户行为数据、访问体验数据等在内的业务数据,针对在线视频业务运营的实际需要,这些大数据每天会被采集、汇总到一个分布式的技术平台上,再被应用到不同的业务领域之中。 目前,PPTV聚力已经建成的数百台服务器规模的Hadoop集群是其大数据技术平台的核心。在其上运行着Hive开源数据仓库,基于Storm的分布式实时数据处理框架也已经开始部署。“我们每天会从PPTV聚力数亿个客户端和分散在各地几百个机房的服务器端采集日志数据,汇总到大数据平台开展数据分析。”PPTV聚力技术部总经理金昀说。金昀所领导的技术部中目前有一个20余人的团队,专门负责开放式大数据平台的开发和运维,而PPTV聚力全公司的数百名技术人员、产品人员、运营人员、数据分析师都可以从不同的业务角度利用这个开放平台,做业务数据分析,以及各种数据密集性的计算任务。毕业于清华大学的金昀曾经参与永新视博(数字电视领域创业企业)的创立,留美后在美国微软公司服务7年,回国后曾服务于阿里云,2011年加入PPTV聚力。 从0°到360° 2009年,人人游戏对于业务数据的利用还停留在汇总游戏日志数据,仅用于简单分析的阶段。而在2013年,人人游戏已经基本上完成了基于IBM Cognos的BI系统整体建设。同时,其基于Greenplum社区版的分布式数据仓库也已初具规模。对人人游戏而言,这些都是获得360°用户视图的必要工作。而360°用户视图为其业务运营和决策所带来的价值则是实实在在的。“BI系统主要是管理结构化的大数据,我们搭建了报表、行动和洞察三位一体的闭环系统,而不仅仅是一个报表系统。”王坤说。新的BI系统将人人游戏的业务模型更加清晰地呈现出来,对游戏业务覆盖用户获取、客户存留、客户付费的核心流程进行了优化,能够更准确地为业务决策提供参考。在报表设计方面,王坤所带领的技术团队坚持遵循MECE(mutually-exclusive and collectively exhaustive,即相互排斥而又集体穷尽)的分析原则,确保每张报表都有清楚的存在意义。同时,BI系统上线后,企业在开发和运维方面的投入也有所降低。 “从结构化大数据到非结构化大数据,数据分析范围和深度的扩展,让我们能够更准确地把握玩家的行为和需求。”王坤说。以“词云”应用为例,“炸金矿”是人人游戏旗下“乱世天下”这款游戏中玩家参与度很高的一个玩法,玩家需要邀请一定数量的友人帮忙炸矿来赢取金币。但在节假日期间,这款游戏的参与度通常都会下降。“通过‘词云’分析后发现,节假日期间‘求炸’成为玩家的聊天热词。我们也因此得知,并不是玩家不爱玩这个游戏,而是玩家在节假日邀请不到足够数量的友人帮忙炸矿。基于这样的分析,我们可以在节假日期间对游戏规则进行调整。”王坤说。 人人游戏:360°客户视图很重要 作为国内最大的网页游戏和智能手机游戏的研发、运营和发行商之一,人人游戏的大数据价值发现从结构化数据集起步,逐步向非结构化数据集延伸。在骄阳似火的七月,人人游戏的“词云”应用火热上线了。所谓“词云”,就是先对人人游戏玩家的在线聊天记录进行分词,汇总之后对玩家行为进行分析和展现。目前,“词云”已经在人人游戏的四款重点游戏中安家落户,随后有关玩家情绪的分析功能(通过关键词对应玩家的情绪指数)也将上线。人人游戏运营平台总监、数据中心负责人王坤表示,“词云”应用的上线是人人游戏对大数据的利用从结构化数据集向非结构化数据集延展的重要一步。 成立于2006年的人人游戏正在努力转型为一家跨PC、平板电脑和手机终端的多平台游戏研发、运营和发行商。从2007年推出第一款网页游戏《猫游记》至今,人人游戏一步步向着这一目标靠近。在此过程中,人人游戏坚持在“跨屏”技术创新领域的研发投入,同时也积极利用大数据技术优化整体业务运营。目前,王坤所领导的30余人的技术团队正致力于从包括游戏日志、玩家行为数据、日常经营数据等在内的大数据集中寻找更好的数据利用和展现途经,同时他们还是大数据应用在企业内部营销推广的主力军。“我们要做每个员工的大数据分析,而不仅仅是数据中心的大数据分析。要做好游戏行业的大数据分析,构建360°的用户视图非常重要。”她说。 大数据的行业价值 “每个行业都会有自己的大数据故事。在游戏行业,大数据分析可能不会直接带来电商网站那样真金白银的收入,但其价值同样会体现在精准营销、客户体验优化等多个层面。”王坤说。她指出,全面的大数据分析能够有效提升玩家的留存率和转化指标,并且为游戏产品的研发提供指引。而个性化的精准营销同样与大数据分析紧密相关,像是针对不同性别、不同年龄、不同地域人群的广告精准投放,背后都要依靠基于360°用户视图的玩家特征分析。王坤坦言,对人人游戏乃至整个游戏行业来说,大数据的管理与分析仍然是一件“体力活”。“大数据团队所面临的最大挑战是数据的整合,把多来源的结构化、半结构化和非结构化数据整合在一起,很多企业还没有做到。另外,在企业内部和外部找到大数据的消费者,向他们营销大数据技术,同样是一件艰苦的工作。”她说。 人人游戏运营平台总监、数据中心负责人 王坤 业务与IT合力价值发现 过去数年间,私人投资者和风险投资机构都将巨资投入到PB级别结构化与非结构化数据的采集、存储、治理和分析等新兴技术领域。新涌现出的工具让企业从Web日志、点击流、社交媒体、视频和音频文档、机器传感器和微博中提取数据变得前所未有的容易。在技术日臻完善的情况下,现阶段企业利用大数据的最大难点在于,让业务部门与IT部门相互合作,定义到底哪些非结构化和半结构化数据是对企业真正有价值的数据,以及如何对其有效地加以利用。 因此,真正的挑战并不在于技术,而在于大数据商业价值的发现。这一艰巨的任务需要IT和业务部门合力完成。现阶段,很多企业尚未开始对非结构化数据进行采集和整合,主要原因就是企业的业务管理者不能确认大数据是否能够为企业带来实际的商业价值,而并非是出于对创新技术的不信任。互联网行业具备天生的大数据应用需求,并且拥有强壮的技术基因,这使得大数据技术的早期实践者多诞生于此。而在金融、电信、制造、医疗等传统行业,大数据技术也正在被重点关注,相关的需求梳理已经展开,并且有部分企业进入了初级实践阶段。 以金融行业为例,金融行业解决方案供应商北京先进数通信息技术有限公司研发部总经理完献忠就表示,国内银行目前的大数据应用尚处在初级阶段,主要集中在历史数据管理、查询和使用方面,面向业务的分析应用项目则处于探索和验证阶段。他指出,随着网上银行和手机银行的普及,并且向互联网银行的过渡,银行业传统上缺乏客户行为数据的情况正在发生根本的转变,银行业具备了通过互联网数据和机器数据开展有效客户营销的条件。 大数据优化观看体验 对PPTV聚力来说,大数据的来源主要包括用户行为数据、工程技术数据,以及后端的业务运营数据。用户行为数据主要来自从客户端和服务器端采集的日志数据。例如哪个访问者看了哪个视频、拖动次数等;工程技术数据指的是不同地域用户观看视频的启动时间、卡顿次数、卡顿等待时长等;后端业务运营数据则包含广告投放的相关数据信息等。“这些数据组成了PPTV聚力丰富的大数据来源,而大数据的分析结果能直接应用于商业运营的调优。比如,我们购买了一部影视剧后,可以精确、实时地了解它在不同地区和时间段被观看的次数,以此优化后端的运营策略。另外,通过从不同的客户端所获取的访问连接数据,我们可以根据不同地区、不同时段的网络连接状况,用最低的成本向用户交付流畅的观看体验。”金昀说。 像美国同行Netflix一样,PPTV聚力也在深入研究个性化的视频推荐算法。PPTV聚力视频页面中的“猜你喜欢”栏目就是后台大数据分析的成果。“视频网站的用户通常不会提供详细准确的注册信息,而且用户登录率低,我们无法由此直接获取用户特征。因此,我们完全要从用户的历史访问行为进行分析和判断,对其习惯、喜好进行分类和标记,最终实现个性化的视频推荐。”金昀说。除了页面内的相关视频推荐,PPTV聚力还计划基于大数据技术开发全界面的用户访问个性化定制系统。金昀强调,视频与电商、社交等网络服务不同,其客户行为的分析与预测具有独特的复杂性。“用户观看行为的头部效应明显,长尾效应不足,视频总数对比用户数较低,品类多样性也低,而消费成本却很高,这些都对视频自动推荐的效果产生了很大的挑战。"金昀说。同时他认为,移动端视频和OTT的高速发展,将会是个性化视频推荐的一个重大发展机遇,只有吃透大数据的企业才能真正跟上移动视频发展的浪潮。 满足广告主的“奇怪”需求 “一段广告,要求让某一地域的动作片用户至少观看三次,但又不能超过5次,否则就不付钱。还有的广告有三个版本,用户在观看的时候不能重复,要递进推送。这样严苛的要求在传统的电视广告平台上是不可能实现的。”金昀说。不过,对于广告主而言,这些无疑是一种精准营销的合理设计,大数据分析为PPTV聚力所带来的另一面商业价值也体现于此。由于无法直接获取准确用户的特征信息,PPTV聚力的技术团队通过对用户历史访问行为的分析,自动为其添加特征标签,并对具体广告的承接能力进行预测,以满足不同广告主的个性化需求。金昀表示,基于大数据技术平台,PPTV聚力已在广告的定向投放、频次控制等方面建立了相对成熟的策略和流程,并且注重在广告精准投放的同时,确保用户的观看体验。 PPTV聚力技术部总经理 金昀 大数据助威网球赛事 从举世瞩目的四大满贯,到已经跻身超级赛事行列的中国网球公开赛,大数据分析技术为球迷、球员和教练营造出“随身而行”、“洞察入微”的高科技赛事体验。金秋送爽的九月,北京的网球迷们将会在家门口迎来一项年度盛大网球赛事——中国网球公开赛。这项已跻身超级赛事行列的赛事一直站在科技与体育结合的前沿。2006年,中网公开赛成为在美国以外首次使用鹰眼系统的巡回赛。而在2013年,关注此项赛事的网球迷们将可以通过网站和移动终端,享受到先进的赛事数据分析服务。 竞赛数据实时分析 一谈到网球这项运动,体育迷们总是会被其细致入微的各项技术统计所折服。运动员在场上的每一次挥拍、每一次击打都可以转化为数字,用于统计和分析。伴随着数据种类和来源的扩充,网球赛事数据分析的颗粒度也在不断细化。事实上,基于大数据技术的赛事数据实时获取和分析服务已经在四大满贯赛事中被广泛采用。 2008年,温布尔顿网球公开赛(以下简称为温网)引入了IBM SlamTracker平台。这是一个可以进行实时比分统计和分析的可视化平台。它可以对每一场比赛的相关统计信息(包括比分、回合数、制胜分、发球速度、发球成功率、击球类型、击球数量)等多元数据内容进行采集、分析和分发。球迷、球员和教练均可以通过赛事官方网站,或者手机客户端了解比赛数据(如附图所示)。2012年,SlamTracker还推出了一项名为“Keys to the Match”的预测功能。通过对近八年来大满贯赛事近万场比赛、近4100万个数据点进行了采集和分析,SlamTracker可以确定球员的制胜模式和风格。在每场比赛开始前,“Keys to the Match”都会分析双方球员的历史交锋数据,为球员制定出比赛致胜的关键指标。比赛开始后,双方球员的指标会被实时量化,并且与之前制定的关键指标进行对照,即时更新球员进展。 如今,SlamTracker早已成为四大满贯赛事的一项常规数据服务。借助SlamTracker,您不再是一个普通的网球迷,而是一个拥有全面数据洞察视角的超级粉丝。即便未能亲临赛场观战,您依然可以收获独特而专业的观赛体验。而对球员和教练而言,SlamTracker数据分析服务能够为其赛前针对性部署提供数据参考,也便于赛后分析胜负的原因。 大数据时代企业怎么赢? 如果你的企业希望投身大数据时代,现阶段最大的挑战是为海量业务数据找到商业用途。在Gartner著名的技术成熟度曲线中,备受追捧的大数据技术或许还未攀上期望膨胀的顶峰。而在可以想见的未来,泡沫的幻灭或许会引发一连串的质疑。但对于企业而言,最重要的是不在潮起潮落中迷失自己最初的需求和渴望。无论对技术的追捧与质疑如何激烈,企业的领导者都需要明确业务对数据的真正需求,并且清晰地向IT部门进行表达,从而为多来源的海量业务数据找到真正的商业用途。 大数据打开大视野 从数据世界迈向大数据世界,技术的继承与创新将会并存。当Hadoop、MapReduce成为技术创新的明星,有人或许会问:“大数据会终结BI吗?”的确,新一代的分布式数据处理技术为用户带来了新的洞察力,但它们目前仍不能完全解决传统BI(商业智能)所能够解决的问题。我们看到,传统的BI工具仍被京东这样的大型互联网企业所使用,其成熟的展现层技术仍然能在满足企业大数据分析需求时发挥作用。PPTV聚力技术部总经理金昀认为,大数据分析可以理解为BI在数据量大规模爆发后的演进成果。传统的技术手段的确很难应付数据量的爆炸式增长,但无论是“小数据”时代还是“大数据”时代,企业所面临的数据管理问题都是相同的,即发掘数据之间的内在联系,催生新的商业价值。 “未来或许会有大数据时代的BI。BI的技术思维仍会存在,虽然数据的采集、存储和分析方法全都改变了。与传统BI相比,大数据时代的BI数据集成的范围会更广,像用户行为数据、销售数据、地理位置信息、团购信息、天气信息等,都可以被集成到一起,通过新的分析与展现方法产生新的价值。它会带来更广、更深邃的洞察力。”金昀说。企业用户数据视野的拓展同样有赖于IT与业务之间紧密协作。从想象力的激荡,到构想在现实环境的落地,注定是一段IT与业务携手而行的旅程。 社交舆情感知热度 在移动互联的时代,四大满贯赛事已经不再仅仅是运动的盛宴,同时也演变为全球性的社交节日。2012年的温网在社交媒体上火爆异常。比赛期间,从温网官方网站到Twitter网站的流量较上年增加了2.05倍,而在男子决赛期间,每秒有超过100条与温网有关的微博。而在2013年澳网比赛期间,仅包含#ausope标签的微博就超过了100万条。这些社交舆情数据均由IBM Content Analytics系统监测所得。在2013年的温网中,赛事组委会利用IBM Content Analytics等工具建立了一个全面的社交舆情视图,来了解人们在Twitter和Facebook上都在谈论哪些和温网有关的话题。借助分析和自然语言处理技术,系统每秒可分析超过40条微博,并形成社交对话统一视图。这样一来,主办方就可以实时了解全球温网话题讨论热点,也可以对特定球员的社交影响力做出评估。 某种程度上说,数据分析正在改变网球赛事的组织和互动方式,并催生出新的商业价值。借助社交舆情的监测与分析手段,赛事的主办者可以从球迷的情感表达中洞悉其情绪走向,并将其用于赛事组织的改进。同时,通过社交媒体数据对公众舆论的评估,可以帮助赛事赞助商更加全面、准确地了解消费者的喜好、市场趋势和品牌认知,从而展开精准营销,使客户获得个性化的消费体验。 附图 温布尔顿网球公开赛IBM SlamTracker数据分析界面 上一条: IBM透露其软件定义环境计划
|