大数据，Hadoop，存储应用的第三极-DOIT-数据产业媒体与服务平台

数字化转型是当今IT应用的标杆和旗帜，也是讨论最热门的话题。在我看来，数字化转型有两个方面的含义：一是与生产、业务相关的过程尽可能实现数字化，能保留数据全部进行保留；二是基于数据展开分析，动用大数据、人工智能等技术手段，透视数据背后的秘密，产生价值，知道企业生产和业务决策。

对于数字化转型的第一阶段，绝对是一个“烧钱”的阶段，但对于企业来说，这是一个必要条件，具备了数字化的能力不一定确保企业成功，但没有第一阶段数字化、数据积累，企业在未来的竞争中，一定打不过哪些数字化成功转型的企业。与第一阶段的“烧钱”相比，第二个阶段对数据进行洞察，将更加重要，也更为关键，这就离不来大数据技术。

经过多年的信息化应用，企业积累了大量的数据，但以往这些数据无法有效关联在一起，Hadoop分布式系统基础架构的出现，为大数据技术应用奠定基础，创造了条件。不同于传统磁盘阵列，也不同于ServerSAN或者超融合的数据存储和组织方式，Hadoop会成存储市场上的第3类存储吗？

Hadoop会成存储第3级吗？

Hadoop，数据存储和导入

无论是单独构建集群系统，规模视情况而定？还是选用市场现有的大数据一体机，用户都需要一个单独平台进行大数据分析处理，系统构建完成之后，首先要把数据导入。

企业数据如何导入Hadoop系统？系统又如何组织数据的呢？为此，我请教百分点大数据的专家获知，可以借助不同的工具，对于数据进行导入。

不同数据类型，需要采用的不用工具。以数据库数据为例，要采用的工具是Sqoop，可以将一个关系型数据库（例如： MySQL、Oracle、PostgreSQL等）中的数据导进到Hadoop（Hive）的HDFS中，也可以反过来将HDFS数据导进到关系型数据库中。针对非结构化数据，例如文本数据、IoT（物联网）机器数据等，需要使用Flume，它是Cloudera提供的一个海量日志采集、聚合和传输的系统，同时Flume也提供对数据进行简单处理，并写到各种数据接受方（可定制）。需要稍加说明的是，图片大小不同，接入介质（这里指MongoDB、Hbase或HDFS）不同，其中，有些介质适合小文件数据处理，有些适合处理大文件，因此，要根据非结构化数据的特点，分别加以存储。

“标签”体系是基础

当数据就绪之后，接下来就要由具有行业经验、业务经验的专家，结合业务系统和业务形态构建数据的标签体系。根据介绍，系统为一个用户打的各种标签高达近万种，其颗粒度之细致超乎想象。可以毫不夸张的说，机器甚至比你更加了解你自己。对于人来说，做过事情经过一段时间会被遗忘，但机器不会，主要数据不删除，机器永远不会忘记。

标签体系是用户业务画像的基础，通过各种灵活业务查询，就可以演变出千变万化的业务创新应用，可以是解决现有业务系统的问题，如性能问题、系统预警问题；也可以针对业务提供创新的业务服务，例如零售行业的个性化推荐、金融防欺诈和反洗钱等，这些业务应用有些属于离线业务分析，有些则涉及在线的数据处理能力。不同系统，需要采用不同的技术手段，可以列式数据库，也可以是Spark等。

以某省交管部门为例，随着数据量的不断增加，他们所采用的关系数据库就出现了性能不足的问题。对此，他们引入了大数据的技术，通过分布式数据处理，成功解决系统存在的问题。

从本质上说，大数据技术和关系型数据库所提供服务，从方向上是一致的。关系型数据库也提供了数据存储、数据查询，数据仓库ETL等一系列技术，提供在线数据分析等服务。与之相比，大数据应用所提供数据颗粒度更细，分布式系统能够处理的数据量更大，数据分析技术和手段更加多样性。

如今，随着人工智能，机器学习等技术的成熟，经过大量数据的训练和矫正，数据建模分析的效果愈发显现了出来。以零售行业个性化推荐应用为例，已经成为了行业应用的标配，效果显著。

小结

大数据应用为人类工作生活展示了美丽画卷，所谓理想丰满，现实骨干，如今大数据应用现状并不令人满意，问题并不在Hadoop等技术方向上，方向没有错，但与此同时，Hadoop技术复杂性成为了应用的限制门槛。

必须简化技术的复杂度，为此百分点等厂商推出了像BD-OS这样的大数据平台，帮助用户简化和使用各种分析手段和工具。目前，行业的龙头企业正在积极引入这些技术，因此，大数据技术和行业应用还在结合之中，行业应用的爆发还需要一段时间的积累，所谓不鸣则已，一鸣惊人！

大数据普遍爆发也许真的用不了太长的时间！

“大数据，Hadoop，存储应用第三极”将作为沙龙主题，在今年12月“中国存储峰会”推出，敬请关注！

大数据，Hadoop，存储应用的第三极

songjy

相关推荐

近期文章

热门标签