微软SQL Server引入Hadoop大数据处理能力

运行SQL Server的微软客户将通过Hadoop的引入获得真正的大数据处理能力。

微软已经发布了早期代码,让客户可以将这个Java架构接入到SQL Server 2008 R2、SQL Server Parallel Data Warehouse以及下一代微软数据库。

Doug Cutting受到Google MapReduce的启发而发明了开源Hadoop,现在它已经在某种程度上成为了在集群服务器上处理大量数据的行业标准,包括Amazon、Facebook和Twitter等网络巨头也都采用了Hadoop.

业内人士认为,Hadoop可以用来了解数以百万计用户的喜好和更新状态等细枝末节以改变服务响应。Hadoop的目标是,更有力地渗透到主流IT中。

微软研究部门从2006年起就一直致力于某种非常类似于Hadoop的项目,被称为“Dryad”.今年年初,该计划通过与SQL Server和Windows Azure云的集成实现了Dryad的产品化。虽然现在微软还没有更新,但看上去Dryad似乎将成为在SQL Server平台上影响大数据爱好者的有力竞争者。

微软目前已经开始提供Hadoop Connector for SQL Server Parallel Data Warehouse和Hadoop Connector for SQL Server社区技术预览版本的连接器。

该连接器是双向的,你可以在Hadoop和微软数据库服务器之间向前或者向后迁移数据。

微软表示,这个连接器可以让客户在Hadoop中分析非结构化数据,然后接回到SQL Server环境中进行分析。

这两个连接器采用SQL to Hadoop (SQOOP)在Hadoop File System (HDFS)和微软关系数据库之间有效地传输数据。Parallel Data Warehouse采用PDW Bulk Load/Extract工具以进行数据的快速导入或者导出。

SQL Server PDW客户可以从微软那里获得这个Hadoop连接器,普通的SQL Server 2008 R2客户则可以获得Hadoop Connector for SQL Server代码。