大数据驱动时代 云计算规模化高性能计算

ZDnet 发表于:14年01月22日 16:00 [综述] DOIT.com.cn

  • 分享:
[导读]不久前的一次互联网大会上,与会人员已经明确将重点放在扩大网络带宽和通过网络的增强提高合作方面,这将带来更好的视频会议和其他大数据应用。

不久前的一次互联网大会上,与会人员已经明确将重点放在扩大网络带宽和通过网络的增强提高合作方面,这将带来更好的视频会议和其他大数据应用。

这些活动使企业都意识到他们将为大数据创造更大的网络管道,而不需要将每种功能都完全商业化。

同时,企业应该采取几个与网络相关的实际步骤,以确保成功传输大数据。

这些步骤包括:

使网络规划成为所有大数据项目的一部分

你会惊奇地发现相当一部分的企业都已然将服务器、数据库、应用程序、甚至数据中心业务纳入到大数据项目讨论的议程,但却独独忘记了网络有关的部分。网络功能和规模应始终是任何大数据规划工作的一个组成部分。

考虑安全和数据所有权

对于选择使用云计算的进行大数据处理和存储的企业来说,应该坦率的与供应商讨论谁“拥有”数据,谁有权使用(或重用)大数据挖掘公式和算法。

IDC观察到,亚太地区市场具有其独特的特征,例如以人口众多的特大城市为中心的分布式的制造中心,数据共享和流体法规创造了显著的新机遇。然而,在亚洲,许多大企业中心只是在数据倡议下建设了大型数据存储库。虽然这是确实是非常重要的第一步,但这并不等于企业就真正实现了对于大数据利益概念的理解。购买所有所需的服务器来处理和分析数据,即使该处理过程可能只需要几个小时、一个星期或一个月,如此昂贵的成本,会导致资源在其他时间没有被充分利用。

为了更具经济和战略意义,亚洲企业的CIO们必须将IT的三大趋势的力量结合起来:大数据、虚拟化和云服务。虚拟化和云计算是促使大数据使用的推动力量,使得创造高度自动化的大型池的计算成为可能,以便处理大数据量。三大趋势的组合将创建一个灵活的、可扩展的、智能化的大数据应用程序的基础。

因此,经济上讲,企业可以以基础设施即服务的一种形式从云供应商那里“租赁”几乎无限的存储容量,而只需要支付他们使用的容量的费用。自此,存储和处理能力的问题就解决了。

然而,从云数据中心迁移大型数据集将显示出“大数据系统”中的薄弱环节,一个不是用来处理大量数据的网络。随着令人眼花缭乱的新服务和数据势不可挡的崛起,网络容量问题突显,这个问题不能通过简单的不断安装或租赁较大的数据存储空间就能解决。

相反,使用一个虚拟数据中心的架构是有效地处理大数据的更好的服务方法,在单个数据中心的物理墙作为一个逻辑实体有效地打破了连接多个数据中心。换句话说,这就创造了一个“没有围墙的数据中心”,使用一个高性能的“云骨干网络的无缝连接到一个更大的企业和运营商数据中心之间的共享资源池。”

通过虚拟化和集中所有的数据中心和网络资产,企业可以根据不断变化的需要,允许灵活的配置和迁移工作负载。这是唯一的设置,可以非常经济地满足大数据带来的基础设施的挑战。

Forrester称,绝大多数亚太大数据中心主要是大型数据存储库,其次是为用户提供更先进的数据挖掘和可视化工具。但他们并不是“没有围墙的数据中心”,无法以最有效的方式允许大数据处理,以满足企业的业务目标。

为越来越大量的数据时代的到来做好迎接准备,以便满足新的监管要求,绝不仅仅是一款工具或自动化就能够简单解决的事情。相反,IT部门与其他相关的业务方面的关键人员必须共同决定哪些大数据应该被存储和收集,以及应该如何定义个人数据。

尽管IT部门可以借助工具潜在的评估这些数据是否是高质量的。然而,即使IT部门这样做了,最终签收的仍然则是最终业务用户。

一旦确定了哪些大数据应该被收集和存储、并进行相关的数据清理和准备工作,就必须以相关“活文件”的政策、标准和程序,管理所有的大数据资产。

相关的业务方面的关键人员包括整个企业中从CXO级别的管理人员到业务部经理以及IT工作人员,都必须遵守这些政策协议。当然,行业监管机构可以采访所有的这些相关的工作人员,检查明文规定的政策和程序,以确保企业的相关政策符合行业监管机构的规定。

最后,对于IT部门来说最为重要的是,确定收集和存储大的数据必须高度符合的终端业务信息的要求。为了做到这一点,CIO和其他IT工作人员必须积极的与整个企业的各个业务单位的同行配合,以确保每个人都遵循相同的大数据政策和程序,以便让企业所需要的大数据类型被存储、收集,并符合其最终的经营宗旨。

所有上述这一切都是艰难的,劳动力密集的工作,可能并不总是出现在项目的时间表里,但却是必不可少的。

IT部门如何确保其管治满足大数据发展的步伐?

协调监管和审计,提前确保你的企业所管治的大数据是最新的。同时也必须意识到,未来相关管理法规的变化,可能会影响数据治理。

大数据项目是跨学科的,因为大数据的有效管理是每个人的责任。

由于这些工具的灵活性,这些工具现在也正在为企业提供一个直接与大数据整合的平台,如Hadoop和Cassandra(一个混合型的非关系的数据库)。然而,现在我们看到,老的供应商也开始在以新产品打入市场的堆栈来解决这一差距,并希望在未来一两年内再次洗牌,重新巩固市场。

在大数据领域,高性能是一项特别的挑战。大数据量的特质和查询速度使得数据将通过仓库工具Hive进行整合,这意味着直接针对数据的查询将抑制工具的动态性能。

这些工具的关键用例是快速的发现而非创造标准的报告。这意味着所需的数据在本质上是暂时性的——需要支持一种假设,然后丢弃。这导致了实现高性能的领先方案是创建特定的数据集,例如,通过引导图减少工作量,以及捕捉可视化工具中的内存。

可视化工具的一个关键性的好处是,他们改变了项目交付的方法。因为他们允许通过原型快速实现价值可视化,他们能够在被纳入一个工业化的平台之前,在低成本点证明价值。作为这一进程的一部分,可视化工具提供了一个共同的语言,通过它,企业的IT部门和业务部门可以进行沟通。这就创造了一个对于需求的清晰的认识,有助于设置什么能够被交付的期望。

虽然能够实现数据的快速可视化有很多好处,我们也看到创建Excel电子表格或者Access数据库进行数据库访问所存在的一些老的内在危险问题。鉴于此,支持大数据可视化必须采用一个强大的数据管理方法已经是一个不争的事实。

这将创建一个混合环境的需要。在实践中,这意味着数据首先是在大数据环境下进行探索;然后,如果这些探索揭示了某些数据报道所需要的价值,此时数据才被推广到传统的关系型数据库,无论是MPP或内存中的。

不容忽视的最后一个方面是,这些工具对于业务部门和IT部门之间的关系所产生的影响。可视化工具将授权业务,从而帮助企业业务部门实现快速的见解,并驱动更高价值的数据资产。因此,IT部门将需要以一套更加灵活的方式来提供数据。

这将创建一个二分法。一方面,必须迅速提供信息,在更传统的过程以外驱动价值。另一方面,一旦解决方案需要工业化,还需要通过更传统的项目进行刚性的治理。未能达到适当的平衡,会导致挫折和价值的明显减少。

两个部门都有其自己的责任:业务部门需要建立适当的洞察见解,并确保以企业正常的运作方式驱动变革,而IT部门需要提供一套适当治理水平的数据服务。

[责任编辑:李洪亮]
李洪亮
继IBM投资10亿成立了IBM Watson新的业务部门,致力于“云交付的认知计算”和大数据创新领域的开发和商业化。作为该计划的一部分,Watson将运行在2013年收购SoftLayer上。
官方微信
weixin
精彩专题更多
存储风云榜”是由DOIT传媒主办的年度大型活动。回顾2014年,存储作为IT系统架构中最基础的元素,已经成为了推动信息产业发展的核心动力,存储产业的发展迈向成熟,数据经济的概念顺势而为的提出。
华为OceanStor V3系列存储系统是面向企业级应用的新一代统一存储产品。在功能、性能、效率、可靠性和易用性上都达到业界领先水平,很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求。
联想携ThinkServer+System+七大行业解决方案惊艳第十六届高交会
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技术有限公司 版权所有.