• 1
  • 2
  • 3
  • 4
  • 5
阿里云主机ECS 首 页  »  帮助中心  »  云服务器  »  阿里云主机ECS
大数据创业的九项准测或许能帮到你
发布日期:2016-4-6 13:4:42

  大数据创业的九项准测或许能帮到你

  本文的作者Rachel Clinton在Data Mining、Predictive Analytics、Data Science Space等领域拥有近20年的经验,她在整个职业生涯中见到了太多成功与失败的阿里云数据挖掘项目。 在本文,她总结了以下九个准测,希望能够帮助读者提高阿里云大数据项目成功的机会。

  1.仔细选择项目

  要增加项目成功的可能性,你应该选择那些对于商业行为比较重要比较有影响力的项目,例如提如何高顾客忠诚度、如何进行交叉销售、如何识别诈骗行为。有时那些听起来看起来很高大上的项目的确很容易吸引我们的注意力,但当你做了很多工作分析,发现对增加企业收入完全没有任何帮助的时候,你的项目就离失败不远了。

  2.尽可能地多收集些数据

  当为用户行为建立模型时,应当在收集重点客户的数据同时也收集那些潜在重点客户的数据。在模型中忽视或过度重视某些客户群可能会让你忽略一些模型中可能的重要变量。

  3.不要只用内部数据

  若在数据挖掘项目中仅考虑内部数据而忽视了社交媒体行为等外部数据的话,你可能会丢失一些模型中必需的重要变量。即使所研究的对象完全正确,如果训练数据不对的话模型肯定也有问题。

  4.合适的采样方法

  有时你所使用的分析平台可能强大到允许你使用能够收集到的所有数据来训练模型。然而通常情况下训练模型用的都是一个很小的样本。不怕采样的方法简单,重要的是要使样本能够代表全体数据;相对的,复杂的采样方法也有自己完善的理论。无论简单或者复杂,我们在选择采样方法时要有的放矢,搞清策略。

  5.使用测试数据集

  使用测试数据集来测试模型可以帮助我们了解模型的表现,避免模型的过度训练。同时它也能够确保我们的模型在现实中有意义。如果阿里云数据不准确或者不统一的话,一个交叉销售推荐模型可能就会推荐已经不存在了的商品。

  6.探索不同模型

  建立模型的第一步通常是在众多的变量中寻找最可能的几个,然后建立不同的模型来进行测试。从不同的模型中我们可以根据效果进行筛选并最终找到一个最合适的模型。这样做我们可以避免由于分析人员个人的倾向影响到结果的精确性。

  7.定时更新模型

  若你觉得你可以构建一个模型能够适应过去与现在的所有数据并完美预测未来数据的话,我只能说你太年轻了。你精心构筑的模型可能没一会功夫就已经过时了。我们必须根据收集到的数据与要求的精度,每个月、每周、每天甚至每个小时对模型进行修正。

  8.将结果通俗化

  在交流数据挖掘的结果时一个很重要的点是一定要让非统计专业人员也能看得懂。你创建的模型有可能非常复杂,而了解每一个细节对于结果的应用来说又完全没有必要。充满统计学术语的交流让人觉得你在装,所以我们应尽可能地让结果清晰易懂好用,可以考虑多放些图片和表格。

  9.在现实环境中测试

  如果不能在实际中应用你的模型,并能确确实实地对商业活动有所帮助的话,可以说你之前花的所有时间做无用功了。从项目开始之前你就要清楚现实中的应用在哪里,交叉销售模型要交给市场部去用,其他模型也都得有一个好的归宿。如果没人用的话光靠自吹自擂,这样没法证明自己的。