• 1
  • 2
  • 3
  • 4
  • 5
阿里云应用开发 首 页  »  帮助中心  »  云服务器  »  阿里云应用开发
Cloudera收购Myrrix共创“Big Learning”
发布日期:2016-8-1 15:8:21

  机器学习目前已成为大数据的典型使用案例,Cloudera通过收购机器学习创业公司Myrrix,又朝着其大数据一站式服务点的目标迈进了一步。 7月16日上午,Myrrix创始人Sean Owen,在博客中正式宣布了这一收购,目前Sean Owen已担任Cloudera位于伦敦的数据科学部总监。


  图1

  在Hadoop生态系统中,Cloudera算得上是规模最大、知名度最高的公司之一。创建于2008年,致力于为数据驱动型企业提供基于Apache Hadoop的软件、支持、服务与培训。纽约时报曾这样报道Cloudera的成立:Cloudera的成立是一个典型的硅谷故事——来自Google(Christophe Bisciglia)、Facebook(Jeff Hammerbacher)和Yahoo!(Amr Awadallah)的顶级工程师联合Oracle前高管(Mike Olson)共同解决快速分析大规模数据的相关问题。

  2012年,Owen创办了Myrrix,Myrrix是一个实时的、可扩展的集群与推荐系统,从Apache Mahout项目演变而来。

  应客户的需求,Cloudera需要在应用层面取得更大发展,目前还很难判断这项收购对Cloudera的意义。正如Owen在文章中提到的:

  机器学习已是一个有几十年历史的领域了,大家现在这么热衷于这项技术的原因是什么?Hadoop与便宜的硬件使得大数据分析更加容易了。随着硬盘与CPU越来越便宜,以及开源数据库与计算框架的成熟,创业公司甚至个人都可进行TB级以上的复杂计算。对机器学习来说这是千载难逢的好机会。由于更多的数据可使机器学习算法表现得更好。若收集和分析数据的成本变低,而学习的价值提高的话,机器学习的应用场景也会呈爆炸式的增长。

  多年来Cloudera的高管们一直坚称,该公司会一直提供平台服务,不会进入应用领域。但该公司最近的一些动作,比如Impala引擎与Cloudera搜索,表明他至少已意识到自己不应只做MapReduce作业的平台。

  Owen在忙于将Myrrix技术与Cloudera的CDH(Cloudera’s Distribution Including Apache Hadoop)做有效的结合,机器学习新技术还有多久才能落实到Cloudera的应用层面还有待观察。但Owen相信与Cloudera的合作肯定能实现其称为“Big Learning”的目标:

  没有可用的上层应用程序,便宜的基础设施也于事无补。且机器学习大多数研究假设所有数据都在一台机器上进行计算,因此机器学习算法运用到数据并行计算的Hadoop中需要一些巧妙的改造。这在Mahout项目中体现得最为明显,很多算法都在Hadoop中实现了并行化。

  将机器学习与Hadoop相结合还有很多工作要做,Hadooop早期也只是一个爱冒险的专家才会积极尝试的源代码包。但Cloudera通过扩展、打包与提供支持,将Hadoop推向了一个更大的平台。同样的事情也会发生在Myrrix这种“Big Learning”的应用程序上,这一直也都是Myrrix的愿景,我们现在在与Cloudera合作朝着这个愿景努力。

  无独有偶,在7月16日,另一家机器学习的创业公司Ayasdi,也宣布获得了3060万美元的B轮融资。Gunnar Carlsson与Gurjeet Singh共同创立了Ayasdi公司,该公司使用一项称为拓扑数据分析的技术,创建有视觉震撼力的视图,帮助客户为产品进行分类。

  许多人对机器学习的印象可能都是实验室中大量晦涩难懂的理论与数据分析,然而已有很多创业公司将其商业化,阿里云也在这方面有所探索。下面是五家试图将机器学习简单化的创业公司:

  Alpine data Labs:Greenplum的子公司(EMC是其投资者之一),主要研究方向是预测分析,其软件可嵌入到公司内部的数据存储中(不管是Hadoop还是其它任意流行的数据库)。通过绘制流程图,用户可对数据进行分析。


  图2:Alpine Data的用户界面

  Context Relevant:Context Relevant通过一个预先包装好的算法库,可在数秒内为用户数据建立预测模型,主要用于欺诈检测、客户流失以及其它的经典预测分析用例。其创始人兼CEO Stephen Purpura说:“只要会用Excel,就能很好的使用我们的产品”。

  Datameer:几年前,Datameer为Hadoop分析开发了一个电子表格界面,这个电子表格中目前已添加了数百个功能。在3.0版本中,通过预置的机器学习算法,用户只需点击几次鼠标就可以建立集群与列依赖。


  图3:Datameer生产的列依赖图表

  Skytree:Skytree的主要产品是一些大型的企业级机器学习软件,但它们也推出了一个针对小型用户的产品Adviser,目前还是测试版。它是一个桌面应用程序,可方便地连接到网络、本地或者数据源,用户可选择算法库以及输出样式。界面的设计还不太完善,但你可免费的在客户端分析10万行的数据,并且得到交互式的报告结果还有什么可抱怨的!


  图4:关于UFO目击者的Skytree Adviser生成报告

  Wise.io:Wise.io的计划是将其创始人作为天文学研究人员的经验应用到商业领域。Wise.io的产品是一个直观、易于使用的机器学习平台,几个简单的点击就可建立与部署模型,而且很快。联合创始人Joshua Bloom曾说某客户在使用其产品后,分析TB级大小的传感数据所用时间从300个小时减少到了20分钟。