什么时候该把大数据放到云端?

IBM大数据专家James Kobielus 发表于:13年04月25日 12:23 [转载] 网界网

  • 分享:
[导读]云服务正在大数据应用中发挥重要作用,尤其是对于那些短期任务,或是已将大量数据存储在云上的应用而言。

云服务正在大数据应用中发挥重要作用,尤其是对于那些短期任务,或是已将大量数据存储在云上的应用而言。

云服务对于每个人都具有吸引力。当有人对你说,他们的大数据策略是“把所有的数据都存储在云端” 时,你根本无法判断这些人是有远见的人,还是在简单地重复着专家在行业会议上对他们的建议。

毫无疑问,目前大数据和云范例之间存在着巨大的重合之处。这些交集是如此的广泛,以致于你能够名正言顺地宣称自己正在利用现有的本地Hadoop、NoSQL或企业数据仓库环境,处理基于云的大数据。请记住,云服务被普遍解读为除了公有云、SaaS(软件即服务)和多租户托管环境外,还包括“私有化的”部署。

如果你将“云”的定义局限为公有定购服务,那么你将会触及问题的核心:这就是要识别出哪些大数据应用比本地部署(例如涉及到预优化硬件工具,或是虚拟化服务器集群的本地部署)更适合公有云或SaaS部署模式。

从另一个角度来说,在外部服务商为你提供管理服务的情况下,你何时能够提升大数据的扩展性、灵活性、性能、费效比、可靠性和可管理性?以下是几个大数据存储在公有云服务上的典型应用案例。

已经被托管在云上的企业应用:如果你像许多机构一样,尤其是像中小企业那样,使用外部服务商提供的基于云的应用,那么你的许多源交易数据都已经位于公有云之上。如果你将大量的历史数据存储在上述云平台上,那么它们可能已经积累至大数据级别。对于服务商或是其合作伙伴推出的增值分析服务(例如客户流失分析、营销优化或是异地备份和客户数据归档等服务)而言,将数据存储在云上可能比将数据存储在本地更具意义。

需要大量预处理的海量外部数据源:如果你正在利用社交媒体数据反馈进行客户情感监控,那么本地的服务器、存储或是带宽将无法满足相关分析工作的需求。这是一个典型的应用案例。在这个案例中,你应该利用基于公有云的大数据服务所提供的社交媒体过滤服务。

除了本地大数据功能之外的战术性应用:如果你已经专门为某一应用部署了一个本地大数据平台,例如专门用于非结构化数据源中的海量ETL(抽取/转换/加载)操作的Hadoop集群,那么使用公有云可以更好地处理新的应用(例如多渠道营销、社交媒体分析、地理空间分析、具有查询功能的存档、弹性数据科研沙箱),因为现有平台并不适合处理这些应用,而公有云的按需服务性能更加强大,也更具费效比。实际上,如果你需要尽可能快地拥有可处理拍字节级、流式、多结构化大数据的能力,那么公有云解决方案可能是唯一可行的选项。

庞大短期分析沙箱的弹性配置:如果你有一个需要探索型数据集市(即沙箱)的短期数据科研项目,并且这个沙箱的规模远远超过了正常的规模,那么云可能将是你唯一可行、或是能够负担得起的选项。在项目启动期间,你可以迅速获得基于云的存储空间和处理能力。而在项目结束之后,可以迅速释放这些存储空间和处理能力。我将这种模式称为“气泡集市”部署模式,这种模式特别适合云服务。

如果你已经做了其中的任何一项,那么基于云的大数据所面临的策略性问题就并不是从哪里开始了。随着基于云的大数据服务的成熟,以及性价比、扩展性、灵活性和可管理性的不断提升,问题将成为你将在哪里停止下来。到2020年,伴随越来越多的应用和数据迁移至公有云,关于创建和运营专属自己的大数据部署的想法可能会和现阶段设计属于自己的服务器那样不切实际。

[责任编辑:尤佳]
据国外媒体报道,市场调研公司Gartner日前发布报告称,从现在开始的三年时间后,平板电脑出货将会超越传统Windows PC,且出货量将超过72%。在这段时间里,PC出货将以更快的速度下滑。
官方微信
weixin
精彩专题更多
存储风云榜”是由DOIT传媒主办的年度大型活动。回顾2014年,存储作为IT系统架构中最基础的元素,已经成为了推动信息产业发展的核心动力,存储产业的发展迈向成熟,数据经济的概念顺势而为的提出。
华为OceanStor V3系列存储系统是面向企业级应用的新一代统一存储产品。在功能、性能、效率、可靠性和易用性上都达到业界领先水平,很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求。
联想携ThinkServer+System+七大行业解决方案惊艳第十六届高交会
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技术有限公司 版权所有.