解析IBM SoNAS,应对极限文件存储挑战

大家可能都有这样的经历,当你有朋友造访或假期聚会时,一般会选择去餐馆就餐,而平时只有你一家人吃饭时,通常会在家里自己动手做饭。尽管分布式文件系统给一些存储爱好者提供了自己搭建存储系统的可能性,但应对企业级海量的文件数据管理与存储,用户仍然需要一个专业的存储方案供应商提供成熟的、久经验证的存储解决方案。

在一定规模的数据中心,各个组件的管理和交互非常复杂,数据传输和处理一刻都不会停止,在众多的组件中,最容易引起瓶颈的莫过于NAS,一旦NAS慢下来,会引发连锁反应,特别是有多个文件系统,多个文件树需要检索时,性能下降尤为明显,这个时候就需要派上元数据和/或索引来解决问题了,但这些方法又会增加额外的管理开销。

NAS的挑战除了大批量文件交换外,还包括文件的增长速度,环境和内容的急剧变化。如果不解决这些问题,NAS将面临被淘汰的危险,正是这个时候,IBM考虑实施NAS变革,于是出现了全新一代的SONAS架构,让NAS技术出现了一次重大转折。

大规模文件数据带来NAS转折点

虽然目前大部分交易都是通过对结构化数据进行处理完成的,但越来越多的业务开始使用非结构化的数据,业务通常是通过数据收集,电子邮件,信件和其它形式的通信完成的,最终结果保存为文件,这就好比餐馆要提供品种丰富的菜品一样具有挑战性,使用非结构化数据面临以下4个方面的挑战:

1、透明度

在商业信息环境中,不是所有的信息都会暴露给参与各方,也没有哪个会蠢到全部暴露,但要消除障碍,找到你需要的,或需要一个什么过程也是一个重大策略,保持一定的透明度符合各方的利益诉求。

2、变更管理敏捷度

大多数企业面临的变化越来越多,IT也会跟着发生许多变化,这给原本已经困难重重的IT增加了更大的压力,不仅是数据版本问题,还包括处理数据链接和业务数据间接关联的数据源,信息变化管理工作必须跟上信息变化的脚步,否则错误的信息会导致巨大的麻烦。

3、安全和访问控制

因为组织和人员的角色会不断发生变化,访问控制必须精细化,要能应付各种变化,有时需要数据本身配合做好安全防护,而不是单凭应用程序来实施控制。

4、成本控制

如果你不能改变非结构化数据增长的趋势,那就必须适应使用这些非结构化数据,最好是开发标准化,自动化的方法,否则靠人工方式处理必然引起成本的增加,但目前的确面临成本急剧升高的难题。

这些挑战排除了适合于小规模,简单的,或只读信息的策略,IBM新的横向扩展NAS – SONAS – 能够解决所有挑战,SONAS也改变了NAS原有的价值主张,现在SONAS已经成为IBM公共云产品的基础,下面就谈一下SONAS技术创新如何应对海量文件数据的存储挑战。

SoNAS创新看点:网格节点

在SONAS中,IBM为我们带来了许多创新的看点:

管理节点,接口节点和存储节点被整合到同一个基础硬件中,图1展示了SONAS的架构,这种设计有助于更方便地创建高可用集群,以及今后向其中添加 更多节点,这些节点通过1和10GB以太网接口与用户,应用程序和IT管理系统连接,节点之间使用Infiniband连接,配合常见的SONAS软件使 用,几乎可以创建媲美大型机的处理能力。

图 1 IBM横向扩展网络附加存储(SONAS)架构

每个节点都运行SONAS操作系统,可通过DVD或滚动下载升级包升级操作系统,升级不需要额外付费。

每个存储箱中包含两个存储节点,数据是经过条带化后均匀分布到所有存储箱的,它们前面是高密度存储控制器,相互交叉连接,在一个4U高的机箱中可容纳64块磁盘驱动器,支持SAS(RAID 5)和SATA(RAID 6)驱动器。

这种节点设计方式允许安全方便地扩展,网格实现支持高可用和更丰富的共享,可跨所有存储箱共享工作负载和文件,所有节点都可以看到并访问全部存储, 节点之间有内部通信,可相互感知。SONAS的集群数据库监管分配和履行请求,它使用字节范围锁定支持相同数据上多进程并发访问,对于相同字节范围则采用 令牌进行仲裁,这种控制粒度比Check In/Check Out更加精细。

SoNAS创新看点:多维扩展

容量和性能:SONAS架构支持容量和性能独立扩展,这是满足各类需求,并能有效控制成本的最佳方法,因为有的用户只想加大容量,但同时又希望不影响性能,有的用户只想提升性能,但又不想增加容量。

多维扩展需要对架构重新设计,层次太多会使架构变得很复杂,层次太少又会很脆弱。SONAS是基于Linux的,大部分功能都是由IBM的通用并行文件系统 (GPFS)提供的,GPFS是10年前IBM为满足高性能网格计算开发的,它继承了ILM和HSM的优点,完整支持POSIX语义,它使用一套无单点故障的方法处理和分析数十亿量的文件。

变化和高可用:今天的实时应用需求要求同时提供高速变化和高可用能力,根据传统的观念,这两个要求是不能同时满足的,GPFS支持急速扫描,然后以 并行无破坏的方式备份发生变化的数据(很快就完成,对高优先级活动进程无性能损失),此外SONAS还支持异步操作,这种多元性是由SONAS支持的复杂 策略支撑的。

多维策略:对于非常大型的环境,事情总是复杂得多,SONAS有一套完整的部署,迁移,删除,备份/归档和恢复策略集,注意前三个策略更多的是面向 业务的,后两个策略更多的是面向IT技术的,将来可以增加更多的节点以满足更多的业务,或增加更多的应用程序控制特定域的文件。

SONAS支持多域联合:例如,某个文件可能同时位于一个严格复制的域和一个更普通的迁移域中,对于复杂的文件处理,SONAS软件支持类SQL的 命令,在相同目录下的文件可以被有意放在由不同存储箱组成的不同物理存储池中,另外还需注意的是,备份是可以高度并行进行的,因此即便是大型环境也无需大 型备份窗口,管理员可以使用所有需要的数据放置策略,SONAS会自动贯彻实施。

必须注意的是这是第一个版本,图3显示了支持的特殊协议和产品,IBM表示今后还会进行大量扩充。

图 3 SONAS软件架构[NextPage]

复制是一个很好的例子,SONAS一开始就支持快照和同步复制,异步复制作为SoFS的一部分也已经可用,目前正在进一步进行复制测试,预计将在2010年第3季度发布,很快就能满足所有SONAS激进用户的需要了。

SONAS在大型环境中一样表现得很好,在每个节点上都配有Tivoli存储管理器客户端,也支持赛门特克和其它第三方管理软件。

应对极限文件型应用

SONAS的所有组件都是预测试和预配置的,它的软件也是出厂就安装好的,可以看作是一个独立的SKU,软件费用是按节点收取的,额外的功能是无需支付费用的,如快照功能就是免费赠送的。

SONAS拥有大规模存储容量,最低配置是27TB,这样的配置价格大概要6位数,最大可扩展到30个存储箱,容纳7200块驱动器,二季度总容量已经翻了一倍(引入了2TB级驱动器),达到了14.4PB。

正如前面所提到的,IBM的公共云就采用了SONAS架构,目前IBM直接在销售,IBM合作伙伴也间接地在销售,可想而知,有行业专长的IBM合作伙伴通过SONAS将会为用户带来更多价值。

因此无论你是想独立采购SONAS产品还是购买IBM的公共云存储服务,都很方便和快捷。

SONAS和传统的存储产品有很大的不同,一个合理的文件共享环境应该具有精细的访问控制和安全审核的,同时要有良好的数据存放和迁移策略,最好能自动判别和处理多种格式的存储内容,允许的话,最好有多套控制策略。

SONAS可以给销售人员,决策者等提供丰富的支持,如降低文件冗余,除了减少磁盘空间浪费外,还减少了查找所需文件的时间。GPFS对ILM和HSM的支持,加上细粒度的访问控制,将会让一个虚拟仓库支持多种用户和多种应用程序。

实时信息通常是即时提交给特定目的的进程的,可通过抽样进入分析和报告进程,加上搜索等工具后,文件的使命就发生变化了,除了它本身具有意义外,还可为复用提供具有前瞻性的资源,为进一步产生更有意义的信息打下坚实的基础。

一般地,数据源越多,可进行更丰富的分析,SONAS支持业务需要的分析,在面对多种因素的情况下,可以帮助决策这更精明地做出决策。

SONAS 是针对极限文件使用环境的,虽然目前还是第一代产品,但凡是体验过一代产品的客户都愿意使用第二代产品,未来如果你遇到了文件存储方面的问题,不妨考虑一 下SONAS,它是一个集成的解决方案,SONAS可以满足大部分企业想要的低成本横向扩展需要,如果这这一切让你感到兴奋,你应该仔细研究一下它。