在过去的一年中,围绕着NoSQL和Hadoop,基本的存储与数据处理引擎方面的改进工作得到了加强并且日趋工程化。毫无疑问,这种态势将会持续下去,因为我们看到了Hadoop世界中有越来越多形态各异的产品融入到了各种发布包、设备和按需的云服务当中。我衷心希望在不远的将来Hadoop能够 成为必要的基础设施。
现在,已经出现了一些面向程序员与数据科学家的工具(例如Karmasphere和Datameer),此外,还有面向已经建立起来的分析工具的Hadoop连接器(例如Tableau和R)。但还有一种方式可以让大数据变得更为强大,那就是降低实验的成本。
下面两种方式可以使大数据变得更为强大。
更好的编程语言支持。因为我们将数据而非业务逻辑作为程序中的主要实体,所以必须要创建或再去探索一些方言,使我们能够将精力放在数据而非底层 Hadoop设施所透露出来的抽象上面。换句话说,编写更简短的程序,能够更清晰地表达出我们对数据所做的处理。这些抽象将有助于为非程序员创建更好的工 具。
需要提供更好的交互支持。如果说Hadoop有缺点,那么其缺点也在于它所孕育的批量化处理的计算本质。数据科学的敏捷本质决定了它钟爱于能够提供更好交互性的工具。
流线化的数据处理
Hadoop批量化的处理对于很多场合都足够用了,特别是数据报告的频率不需要达到分钟级别的场合。然而,批量化处理并非总能满足我们的要求,特别是对于移动和Web客户端等在线需求,或是财务和广告等需要实时变化的市场。
在未来几年中,用于处理流线化或接近实时的分析与处理的可伸缩框架和平台将会得到采用。Hadoop将会支持大规模的Web应用,这些平台将会由大规模位置感知的移动、社交和传感器应用所推动。
对于某些应用来说,已经没有足够的空间来存储业务接收到的所有数据:在某一时刻,你需要扔掉一些东西。凭借流线化的计算能力,你可以对数据进行分析 并决定扔掉哪些数据而不必查看map/reduce的“存储—计算”循环。在实时框架领域中,新涌现的竞争者有来自Twitter的Storm和 Yahoo!的S4。
数据市场的兴起
当与其他数据集混合到一起时,你自己的数据会变得更有说服力。比如说,将天气状况添加到客户的数据中,检查是否有与客户购买模式相关的天气模式。获 取这些数据集是个让人头疼的问题,特别是在IT部门之外做这件事,并且要求一定的精度时更是如此。数据市场的价值在于为这种数据提供了一个目录,以及流线 化、标准化的交付方法。微软将其Azure市场集成到分析工具中的做法预示了我们今后能更加方便地访问数据了。
数据科学工作流与工具的开发
随着数据科学团队不断为各个公司所认可和接受,其角色和流程将会变得更加正规化。成功的数据科学团队的驱动力之一就是其与公司经营活动的集成程度,这与成为边缘的分析团队截然相反。
软件开发者已经拥有了大量富于逻辑与社交性质的基础设施,这包括wiki与源代码控制,以及用于将其流程和需求公开给企业主的各种工具。集成的数据 科学团队需要自己的一套工具才能高效协作。其中之一就是EMC Greenplum的Chorus,它提供了针对数据科学的一个社交软件平台。使用这些工具有助于组织中数据科学处理的不断涌现。
数据科学团队将会逐渐开始一些重复的流程,我们希望这是敏捷的。相比诸如The Guardian和NewYork Times之类的新闻组织的新闻数据团队所做的开创性工作:只要给定一个不长的时间表,这些团队就可以将原生格式的数据转换为成品,这需要与记者携手来完 成。
对可视化的理解和需求的提升
可视化在数据工作流中能够实现两个目的:解释与探索。虽然业务人员可能将可视化看作是最终结果,但数据科学家还会将可视化作为寻求问题以及探索数据集新特性的一种方式。
如果说成为数据驱动的组织需要培养所有员工拥有更好的数据感觉的话,那么可视化在将数据操纵能力传递给那些不会编程或缺乏统计分析技巧的员工的过程中就扮演着重要角色。
过去的整整一年,业务对数据科学家的需求一直都是如此。我不断地听到数据科学家说,他们最想要的是:懂得创建可视化的人才。