MySQL添加Hadoop数据实时复制功能

TT中国发表于：13年05月09日 13:48 [转载] 网界网

Hadoop
MySQL

分享：

[导读]MySQL复制操作可以将数据从一个MySQL服务器(主)复制到其他的一个或多个MySQL服务器(从)。试想一下，如果从服务器不再局限为一个MySQL服务器，而是其他任何数据库服务器或平台，并且复制事件要求实时进行，是否可以实现呢?

MySQL复制操作可以将数据从一个MySQL服务器(主)复制到其他的一个或多个MySQL服务器(从)。试想一下，如果从服务器不再局限为一个MySQL服务器，而是其他任何数据库服务器或平台，并且复制事件要求实时进行，是否可以实现呢?

MySQL团队最新推出的 MySQL Applier for Hadoop(以下简称Hadoop Applier)旨在解决这一问题。

用途

例如，复制事件中的从服务器可能是一个数据仓库系统，如Apache Hive，它使用Hadoop分布式文件系统(HDFS)作为数据存储区。如果你有一个与HDFS相关的Hive元存储，Hadoop Applier就可以实时填充Hive数据表。数据是从MySQL中以文本文件形式导出到HDFS，然后再填充到Hive。

操作很简单，只需在Hive运行HiveQL语句'CREATE TABLE'，定义表的结构与MySQL相似，然后运行Hadoop Applier即可开始实时复制数据。

优势

在Hadoop Applier之前，还没有任何工具可以执行实时传输。之前的解决方案是通过Apache Sqoop导出数据到HDFS，尽管可以批量传输，但是需要经常将结果重复导入以保持数据更新。在进行大量数据传输时，其他查询会变得很慢。且在数据库较大的情况下，如果只进行了一点更改，Sqoop可能也需要较长时间来加载。

而Hadoop Applier则会读取二进制日志，只应用MySQL服务器上发生的事件，并插入数据，不需要批量传输，操作更快，因此并不影响其他查询的执行速度。

实现

Applier使用一个由libhdfs(用于操作HDFS中文件的C库)提供的API。实时导入的过程如下图所示：

数据库被映射作为一个单独的目录，它们的表被映射作为子目录和一个Hive数据仓库目录。插入到每个表中的数据被写入文本文件(命名如datafile1.txt)，数据以逗号或其他符号分割(可通过命令行进行配置)。

[责任编辑：尤佳]

4月8日移动商用资讯：平板三年后出货将比PC多72%

据国外媒体报道，市场调研公司Gartner日前发布报告称，从现在开始的三年时间后，平板电脑出货将会超越传统Windows PC，且出货量将超过72%。在这段时间里，PC出货将以更快的速度下滑。

官方微信

相关阅读

精彩专题更多

2014企业级IT风云榜

存储风云榜”是由DOIT传媒主办的年度大型活动。回顾2014年，存储作为IT系统架构中最基础的元素，已经成为了推动信息产业发展的核心动力，存储产业的发展迈向成熟，数据经济的概念顺势而为的提出。

华为OceanStor V3开启全融合数据架构时代

华为OceanStor V3系列存储系统是面向企业级应用的新一代统一存储产品。在功能、性能、效率、可靠性和易用性上都达到业界领先水平，很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求。

联想亮相高交会

联想携ThinkServer+System+七大行业解决方案惊艳第十六届高交会