微软SQL中引入开源组件 实现大数据处理

服务器在线 9月2日国际报道:使用SQL Server的微软用户现在可以尝试通过注入Hadoop来实现真正的大规模数据处理了。

微软公司发布了可以让微软用户通过Doug Cutting将开源Java体系架构插入到用于大型数据仓库的SQL Server 2008 R2, SQL Server Parallel Data Warehouse以及代号为Denali的新一代微软数据库的早期代码。

Hadoop是由受到谷歌MapReduce启发的Cutting所创建的。由于Hadoop的代码是开放的,所以它正在成为处理集群服务器上大规模数据的行业标准。Hadoop如今已经被包括亚马逊,脸谱和推特等一线网络服务提供商所认可。

行业中普遍认为Hadoop可以用来了解数百万用户出于更改服务所做的喜好和状态升级的各种细节。Hadoop的目标是在更加主流的IT领域找到一席之地。

微软的研究部门自从2006年以来一直在致力于听起来与Hadoop非常类似的Dryad研发工作。今年初微软的计划是通过将Dryad和SQL Server和其Windows Azure云结合起来投入实际应用。目前还没有来自微软的最新信息,不过看起来Dryad目前必须博取使用SQL Server来处理大型数据的用户的青睐。

微软连接器被称作Hadoop Connector for SQL Server Parallel Data Warehouse 和Hadoop Connector for SQL Server,计划以Community Technology Previews(CTPs)版本上市。

连接器是双向的,可以让用户将数据在Hadoop和微软的数据库服务器之间向前和向后迁移。

微软公司表示连接器可以帮助用户分析Hadoop中非结构化的数据,然后将他们迁回SQL Server环境进行分析。

两款连接器都可以使用SQL to Hadoop (SQOOP)在Hadoop File System (HDFS)和微软的关联数据库之间有效的传输数据。Parallel Data Warehouse可以使用PDW Bulk Load/Extract工具来快速的输入和输出数据。

SQL Server PDW用户可以从微软处购买Hadoop连接器,常规SQL Server 2008 R2的用户可以得到Hadoop Connector for SQL Server的代码。