1、Hadoop不是万能的。现在,这应该是一条常识了,但他还是值得反复的强调。ChoozOn公司的CTO乌萨马•法耶德在强调这一点时表示,甚至连雅虎——法耶德的前雇主(他曾担任雅虎的首席数据官)也经历了惨痛的教训。他说,雅虎曾试图利用Hadoop对客户进行一些先进的细分,但却发现利用一种比较传统的数据库架构来处理这一特别的工作量的成本要少50倍。在他们意识到这一问题后,该项目最终被停止了。然后他们重新启动了nPario分析项目。目前,雅虎是一位付费的nPario客户。
nPario的无Hadoop架构
2、大数据使得数据科学更容易。我发现这一个更富有启发性的见解,这在很大程度上要归功于丹尼尔•维森塔尔,sparked.com网站的首席科学家,该网站如此清楚地界定了大数据和数据科学概念之间有时重叠的状况。他解释说,基本上,诸如支持向量机和神经网络技术是经过了时间的考验的,证明方法便是“从你的数据集中摘取每一盎司的信息,即使这些数据集很小,但技术是非常复杂的,他们难以解释,往往超出规模。”
然而,大数据让数据科学家可以使用简单的建模技术,如决策树和回归分析,得以确保了大量的数据的准确性(统计意义上的准确性)而不是采用一个超复数算法。而且,维森塔尔指出,使用Hadoop等通用的大数据技术手段,数据科学家可以更快的开发和测试模型,因为他们的基础设施不用调整到一个特定的算法或问题类型,其设计可以很好的执行大数据集。
3、“有时候了解哪些需要被干掉更为重要。”软件即服务的先驱Salesforce.com使用大数据平台以监测吸收,使用各种特性的产品。其产品主管纳拉扬•巴拉德瓦说,我们的目标不仅仅是只能预测下一代产品的新的功能。相反,他解释说,使用数据,他们可以确定什么功能没有价值,无法帮助 Salesforce.com这样的公司把资源转化为更有价值的功能。“有时候,了解哪些需要被干掉更为重要。”他说。
巴拉德瓦没有针对这一点进一步解释,但下一个步骤是分析特点、功能、执行效果似乎是合乎逻辑的,而不是从设计的角度来看。
4、相关内容增加价值。换句话说,如果用户知道了他们为什么被推荐了一个特定的内容、要约或建议,他们会更容易觉察出来。作为StumbleUpon 的一名高级数据科学家,他解释说,他所在的公司投入了巨资在大数据技术方面,就是为了将大多数的相关网页内容展示在每个用户面前,但他们知道期望这些用户只信任服务的判断是不够的。Sparked.com的维森塔尔在谈话中提出了类似的观点,并指出诸如Pandora和Netflix的服务之所以流行,部分原因就在于他们实际上在建议类似的内容的同时,也告诉了用户关于自己的东西。
5、交易数据胜过搜索数据。PayPal的首席科学家MokOh,讨论了从开始购买的产品搜索到结束的一连串的事件,以及它是如何变得越来越困难。当你确定信号链从一端开始,并要在其他端口工作。PayPal正试图抹掉这一差距,但是,通过从交易过程和使用其出售的其他数据(包括内部和从外部来源,如 Facebook和GNIP),试图找出其真正的客户和客户真正想要的。他认为这要比谷歌试图通过搜索来跟踪用户购买行为要容易。当然,除非他们使用诸如谷歌钱包来实际购买的东西。