ZDNet 发表于:14年06月09日 17:25 [转载] DOIT.com.cn
一年一度的Hadoop峰会迎来了第三轮聚首,此次举行地点选在圣何塞,成千上万参与者以及创纪录的赞助商以及参展商数量不仅给本届活动带来了良好的开局、也反映出当前业界对于Hadoop的重视程度。与会企业既有希望努力守住现有市场份额的技术巨擘,也有雄心勃勃打算大展宏图的新兴厂商。作为急需表现自己的后者,一众企业开始寻找一切机会在首日活动中推广自己的产品。而其中的典型代表、同时也是整个分析周期的起步环节,正是准备所要处理的数据。
大小厂商齐上阵,信息质量最关键
如今数据科学家们需要把80%以上的工作时间用在过滤错误、解决一致性冲突以及处理兼容性问题方面,Pentaho公司指出。这家专攻Hadoop商务智能业务的厂商给出坚定承诺,表示能够帮助客户利用新型工具包上述老大难问题、从而大大简化待分析数据的预先处理流程。
在这套名为Data Science Pack的产品中共包含三套实用工具集,它们的设计目的在于简化用户使用PentahoWeka开源数据挖掘项目以及R统计语言时需要处理的任务——这两者也是目前业界使用范围最广的分析技术。其中一款工具属于脚本执行引擎,能够将所有数据转换过程中产生的混乱细节剔除出去。该公司的另一款软件则属于评分引擎,能够利根据精确度对数据集进行打分。此外,另有一套自动化预测解决方案用于对即将输入的信息作出预测。
Pentaho公司表示,这套软件包不仅能够帮助用户更轻松地将信息塑造为易于分析的形式,同时也能消除由多数据源所引发的混乱与麻烦。值得一提的是,另一位挑战厂商Talent也将业务着眼点放在了这里,他们打造的同名平台刚刚迎来最新版本。新版本Talent能够将数GB大小的文档导入到Hadoop当中,并提供一套用于集成不同流的可视化环境——其响应时间在速度上比上代版本高出45%,该公司如是说。
消除中间人
尽管一部分供应商致力于帮助数据科学家进一步提高生产力,但也有不少企业希望消除技术方案对于特定类型人才的高度依赖。Actian公司明显属于后一种。他们将数十家厂商的产品进行了排名并据此开发出结构化查询功能,继而将其与专为自家旗舰分析平台打造的全新SQL功能指令一道纳入Hadoop当中——此举帮助该公司顺利成为今日峰会上的焦点角色。其价值主张相信大家也不会陌生:该公司声称,企业用户可以利用其软件直接访问保存在HDFS当中的数据,而不必再借助数据科学家之力。
Altoscale公司也已经开始为其Hadoop云用户提供类似的功能,其中包括对刚刚于今早发布的Apache Hive最新稳定版本的支持能力。这套开源数据仓库方案最初由Facebook公司开发完成,旨在帮助那些对MapReduce与复杂程度稍低但仍然难以应对的Pig平台不太熟悉的开发者找到可行性应对办法——直接利用常见的SQL语法取而代之。
希望能够访问并操作Hadoop当中的数据,同时又不必跟这套批处理框架先天具备的复杂性硬碰硬?没错,这一点对于希望能让自身应用程序实现快速运作的企业用户来说至关重要,然而使用结构化查询工具根本无法实现这个目标。由Sears集团所有的分析企业MetaScale公司表示,他们最近刚刚启动的“Ready-to-Go Reports”服务能够实现相同的执行效果,但却无需数据科学家的介入并帮助用户省下购置昂贵内部基础设施的费用。