从一张小鼠脑图谱,看数据存储如何撑起科研新基建

一直以来,从脑疾病的研究到大脑功能的解密,科学家从未停止过对大脑探索的步伐。在华中科技大学苏州脑空间信息研究院,科学家们正在做一件对于脑科学研究具有里程碑意义的事情:绘制一张可能是世界上最复杂的“地图”——灵长类全脑的三维图谱。由于一个小鼠全脑有超7000万个神经元,绘制小鼠脑图谱需要15380张图片,未压缩的数据量高达8TB。人脑的体积大约是小鼠脑的1500倍,人脑的三维图谱数据量将会再提升几个量级。现如今,单纯的脑成像已经不成问题,但成像之后巨大的数据量如何存储和分析成为当下脑科学等多个科研领域最为棘手的挑战。

是什么阻碍了“脑洞大开”

华中科大苏州脑空间信息研究院所遇到的情况是科研机构在新数据时代下的一个缩影。

一方面,得益于国家经济实力的不断提升,科学研究投入持续加大。根据《2019年全国科技经费投入统计公报》显示,2019年全国研究与试验发展经费首次突破2万亿元,达到22143.6亿元,同比增长12.5%。

另一方面,数字化正在改变科研模式,过去相对薄弱的数字基础设施开始面临升级,亟需符合未来研发需求的新型基础设施。正如发改委今年首次明确了新基建的范围,将支撑科学研究等具有公益性质的重大科技、科教基础设施划分为创新基础设施,属于新基建未来重点投入方向。

“当前科研领域在存储等基础设施方面主要有容量、性能和稳定性三个典型挑战。”华中科技大学计算机学院院长冯丹教授在浪潮云数智中国行武汉峰会上如是说。

与其他行业相比,数据在科研领域的生产要素属性更加快速显现。科研数据往往具有数据密集型范式的特点,具有数据量巨大的特征。以目前世界上灵敏度最高的射电望远镜中国天眼项目为例,每天产生约500TB的零级未压缩数据,预计未来十年数据量将超过100PB,对长期运行产生的海量数据进行存储与计算分析正在深刻改变其科研模式,如何存储与保护这些海量数据就成为巨大挑战。

此外,随着海量数据的产生,科研机构通常希望能够让数据采集、处理和存储的速度提升,以更好、更快支撑起科学研究。冯丹教授表示:“科研项目对于性能一直很关注。早年前,像新材料研发这些研究可能数据量不会很大,但对于后端存储性能要求极高。现在,科研的数据量普遍很大,对于存储性能的要求就更高了。”

例如,华中科大苏州脑空间信息研究院存储人脑三维图谱数据,如果采用之前的成像系统,一台系统至少需要花费20年时间才能完成数据的采集,这无疑是当前科研机构们所不能接受的,因此需要存储具有分布式横向扩展能力,提升其并发性能,让数据的采集与分析更加快速,确保其研究项目的高效。

第三就是稳定和可靠,科研数据除了数据量之外,高质量与完整性也至关重要,因此对于存储系统的稳定性和可靠性要求越来越高。存储越稳定和可靠,意味着对高质量科研数据的存储与完整就越有保障。

以清华大学RUSH脑成像研究项目为例,其对拥有1亿神经元的小鼠大脑进行研究,28台1200万像素相机以每秒30帧、连续72小时的方式对小鼠进行拍摄,每天将产生2.7PB左右的数据,最后将这些图片拼接成三维图像序列,存储系统需要满足最长72小时拍摄过程中PB数据不丢帧。

事实上,在新数据时代加速到来的今天,包括科研领域的各行各业都在加快数字化的步伐,也直接驱动着存储等基础设施走向新的变革。

为数字化提速,存储有哪些重要趋势

当下,数据正在成为最重要的生产要素,是数字化转型和智能化升级的基础。年初的《关于构建更加完善的要素市场化配置体制机制的意见》报告中首次新增“数据”要素,并指出要发挥“数据”这一新型要素对其他要素效率的倍增作用,使数据成为推动经济高质量发展的新动能。

这恰恰是新数据时代到来的体现。就像科研领域越来越重视数据一样,各行各业都渴望充分利用数据的价值、为数字化提速,使得与数据密切打交道的存储呈现出重要的新趋势。“在数据呈现爆炸性增长的趋势下,随着算力的提升和数据的积累,大数据智能成为发展趋势,也给存储系统带来一系列新变化。”冯丹教授直言。

冯丹教授介绍,存储在PCM、3D NAND、3DXPoint等芯片器件上创新,将进一步带动存储设备、系统、架构和软件的创新,“面向大数据的存储首先是以数据为中心,围绕数据做相应处理,其次是近数据处理,在离数据最近的地方做处理,减少数据传输带来的性能损耗;第三则是实现存算一体化或存算融合,直接在存储中进行处理。另外,智能相关技术也会加速融入到存储系统之中,提升存储系统性能、可管理性等。”

浪潮存储作为近年来存储市场上快速崛起的代表厂商,则认为未来存储的发展理念是“云存智用运筹新数据”,体现到存储趋势,可以提炼为三个字:云、闪、智。

首先是“云存”,即存储需要与云进行全面对接。云计算已经走向普及,企业上云的趋势不可阻挡,混合或者多云环境将会成为常态。无论是公有云还是私有云,存储层实现对它们的对接,将极大有利于数据的流动。叶毓睿介绍:“存储与私有云管理平台的对接,有利于私有云管理平台按需驱动存储资源的创建、调整、优化甚至回收;而存储与公有云对接,则有利于更好地使用公有云弹性的资源,让数据流动起来。”

另外,存储加速实现全闪化也是大势所趋。借助于闪存介质成本的不断下降、NVMe、RDMA等与闪存相关的技术逐渐走向成熟,闪存在存储系统中的门槛愈发下降。随着基于闪存介质的技术堆栈走向完善,全闪存存储在性能、功能和容量三者之间有望实现“鱼与熊掌可兼得”,有望在更多用户中得到落地。

第三则是存储快速迈向智能化。一方面,存储自身会融入更多人工智能技术,根据业务负载、运维管理等数据特征,进行不断的学习与优化,从而提供更加精准的预警信息和执行动作。冯丹教授也表示:“融入智能化是存储的大势所趋。例如,华中大在研究的主动对象存储技术中,最主要体现的就是智能性,让存储系统并不是简单的哑设备被动响应请求,而是会根据历史负载预测未来趋势,让存储系统可以感知应用需求,然后采用不同的策略更好地服务不同的应用。”

另一方面,AI技术正在加速落地,但AI准备、训练、推理和归档等各阶段的IO特征不同,对于存储需求也不同,将会进一步推动AI存储产品加速到来。“例如,AI在模型训练阶段的IO特征为高带宽、低延时和随机小IO;而推理阶段的IO特征是读写混合,要求存储延时低,能够快速响应。”叶毓睿补充道。

为“新数据时代”做好准备

IDC《2019年数据及存储发展研究报告》中指出,新数据时代表现出的新数据特征:数据增长、企业对实时数据需求增加、多云部署模式成趋势、多元和非结构化数据成为常态。从本质上来看,存储需要为用户在新数据时代下更好地存好、用好和调度好数据,为其数字化转型和智能化升级提供支撑。

在众多厂商中,浪潮存储近年来已经成为市场中一股不可或缺的力量。根据IDC最新数据显示,浪潮存储在今年第二季度出货量跃居中国第二,增长速度位列中国第一,并且增速远超其他厂商。这背后是浪潮存储致力于帮助用户为“新数据时代”做好准备的战略布局。

浪潮存储在战略上提出了“云存智用,运筹新数据”的理念,打造存储平台战略,重点发展分布式存储和闪存存储等新存储,并致力于打造存储七大极致能力,更好地帮助用户在多元化、应用复杂化的数据全局中将数据存好、用好和调度好,更好地发挥出数据价值。

为更好地支撑起“云存智用,运筹新数据”理念,浪潮存储在过去几年投入了20亿元巨资攻关存储核心技术的突破,比如浪潮存储几年前开始布局闪存盘,其NVMe SSD已经在浪潮服务器中进行搭载售卖,接下来还会在集中式存储和分布式存储中搭载;另外,浪潮存储在存储架构上将致力于打造出融合分布式和集中式架构优势的新存储架构,以实现“一个数据中心,一套存储”的愿景目标。

浪潮存储短短几年的飞速成长,同样离不开强大人才体系的打造。浪潮存储从过去几十人的规模如今成长为上千人的团队,其研发、市场、销售人才体系不断充实与壮大。此外,浪潮存储还注重与华科大等高校、科研机构紧密合作,共同公关存储多项核心技术的突破。

未来,随着新基建的建设逐渐深入,千行百业必然会在数字基础设施层迎来更大的变化,存储作为新基建中的基石,其作用与价值将会得到进一步提升。浪潮存储将持续以“云存智用运筹新数据”赋能智算中心,在分布式存储和全闪存储两大新存储领域加速创新,释放数据要素价值驱动行业数字化转型。

#华中科技大学#