为了让你用上海量存储,希捷开源了一套对象存储——CORTX

2020年9月25日凌晨,希捷开源了一个叫做CORTX的对象存储软件项目,CORTX项目100%开源,兼容标准的S3接口,目前已经可以在github上获取到源码,同时,还提供了预配置的虚拟机镜像直接安装快速体验,如果有什么问题,也可以在新建立的CORTX开源开发者社区里进行交流。

CORTX是希捷完全从头开始设计和实现的对象存储方案,它直接将数据存到块设备中,而不经过本地文件系统层,它还有许多高级特性,比如使用流式b-trees来访问系统和用户元数据等小块数据,以此提升性能。

CORTX作为面向非结构化数据存储的大容量分布式对象存储方案,其扩展性是重点,单一namespace下可以从几PB起步扩展到EB级别。

与此同时,为了方便在生产环境用起来,CORTX还发布了参考架构Lyve Drive Rack(LDR)方案,LDR是一个融合系统,它采用AA高可用架构设计,数据保护方面还支持ADATA技术,单节点支持放置84或者106块磁盘,支持16、18TB CMR磁盘,容量大约1.3PB起步。

LDR目前在磁盘柜级别提供了数据持久性,如上图所示,这种等级制(Hierarchical)的擦除编码技术能加快磁盘的故障恢复速度,特别是在用大容量磁盘时候更有效。

想要自行搭建CORTX系统的用户最好使用有高可靠设计的存储硬件,因为,CORTX软件中的擦除编码技术目前还是预览状态,想要使用该技术的话还得等等。

对希捷来说,CORTX可以更好地利用大容量磁盘,CORTX开源方案中加入了希捷对于大容量硬盘做的许多独有优化,官方的优化能发挥硬盘本身的特性和优势。

从战略上来讲,对于希捷的主营业务有直接利好,希捷也宣布将于12月发布20TB HAMR磁盘,预计在2026年,能把HAMR盘做到50TB。从目前资料来看,希捷表示目前主要支持CMR,以及新的HAMR盘,没有提及SMR,不过,后续可能会基于CORTX对SMR做一些优化。

基于大容量磁盘的CORTX可以提供超高的存储密度,减少地板资源占用,节省宝贵的机房空间,所以,对最终用户来说,CORTX可以实实在在帮助用户降低成本,至少软件是免费的。还有希捷硬盘原厂技术服务撑腰,可能会比别的开源方案用的更放心一些。

市场需要这样一个新的对象存储方案吗?

由于CORTX是100%开源的,所以,天生就比较容易被接受。CORTX由希捷来开源的好处是,可以快速构建生态,在CORTX社区里,汇集了大量最终用户、OEM以及许多开发者。

英特尔表示可以基于傲腾持久内存、QAT技术、以及DAOS文件系统与之合作。著名HPC并行文件系统厂商WekaIO肯定了CORTX对于在存储的高性能和存储的经济方面的价值。

而且,CORTX是一款不依赖特定硬件架构的开源对象存储软件,只要是支持标准块存储接口的设备都可以用,言外之意是别的品牌的磁盘也能用。对用户来说,没有厂商锁定的风险,对于合作伙伴来说,参考解决方案的打造可以丰富其产品类型。

CORTX是一个非结构化数据存储方案,其应用场景包括人工智能、机器学习、混合云、边缘计算、高性能计算等。目前,已有多家科研机构测试或者实际使用了CORTX,包括法国替代能源和原子能机构、英国原子能管理局、洛斯阿拉莫斯国家实验室。

还有硬件合作伙伴正在测试软硬一体的打包解决方案。首批参考架构将于2020年Q4正式对外可用,商用版本的一体机方案可以从合作伙伴处获取,从而为LDR提供企业级支持。

希捷为什么要开源这样一个项目呢?

如今互联网技术发展越来越多地影响着企业IT,希捷的CORTX主要面向的是企业级用户,CORTX开源的、没有厂商绑定的思路与超大规模数据中心的做法如出一辙,让企业也享受到互联网公司技术的优势,比如互联网公司能比企业更快用上大容量磁盘。

希捷分析后给出了一个有趣的数字,现在的企业级存储比较贵,用户在企业级存储上投入的资金中只有25%是花在磁盘本身的,换言之,就是用户付出的额外成本太高了,降低成本的方式有很多,比如开源一个CORTX。

其实,在几年前,西数也有过类似的解决方案,它的意义在于提升产品方案的附加值,不只是售卖磁盘而已。相比之下,希捷的此次做法就高明很多,开源方案更容易让人接受,开源的CORTX避免了与合作伙伴的直接竞争。

希捷与对象存储其实颇有渊源。

1999年,希捷提交了“基于对象的存储设备命令集建议”的初步版本,包括卡内基梅隆大学、IBM、Quantum和StorageTek对该建议都有贡献,这份建议中将对象定义为一种抽象数据,它具有唯一的标识符和元数据,定义了对象如何与文件系统的关系,以及许多其他创新概念。

希捷也从来不满足于只做硬盘。值得一提的是,LYVE Drive是希捷一大类存储产品的品牌,LYVE Drive Mobile从SD卡、到读卡器、到硬盘盒、存储阵列都有,侧重于移动性,能让数据从边缘传到数据中心,LYVE Drive Shuttle则算一个独立的系统,有计算存储和网络能力,而LYVE Drive Rack作为新的存储系统参考架构,进一步丰富了该产品线。