浪潮存储助力复旦大学类脑研究院基因测序研究,加速多尺度脑库建设

大脑包含上百亿神经元,是人体身上最重要和最复杂的器官,复杂性远远超出了我们当前的认识能力。脑科学研究不仅是全球科技的前沿领域,也是理解人类本身的终极目标。为了加快了脑科学研究的步伐,“脑科学与类脑研究” 于2016年正式启动,吸引了众多顶尖科学家投身其中。以探索大脑秘密、攻克大脑疾病为导向的脑科学研究,以及以建立和发展人工智能技术为导向的类脑研究开启了新的征程。作为国内高校最早成立的脑科学与类脑前沿交叉研究机构之一,复旦大学类脑人工智能科学与技术研究院(简称类脑研究院),面向脑与类脑重大科技前沿,依托学科优势,借助领先的计算、数据平台,致力于在类脑人工智能算法、重大脑疾病智能诊疗等领域创新,引领脑科学、人工智能与产业应用的融合,实现未来智能产业技术创新。

浪潮存储助力复旦大学类脑研究院基因测序研究,加速多尺度脑库建设

为了建成世界一流的脑与类脑前沿研究和科技创新机构,加速脑科学与类脑研究进程,复旦大学类脑研究院需要采用多维度、高精度的设备进行科研数据的采集、传输、使用。类脑研究设备涉及脑成像平台、磁共振成像设备系统、多台近红外光、脑电、脑磁图等实时脑功能监测系统,以及直流电刺激、经颅磁刺激、超声脑刺激等脑调控系统。认知神经科学平台拥有光学脑成像设备及认知行为解析设备,这些设备进行科学研究时产生了大量影像数据。在组建人脑大数据库的科研项目中,复旦大学类脑研究院利用各种无创手段,以基因测序为主,对抑郁症、精神分裂症、健康人等不同类型的人群,并发采集其环境、行为、遗传、脑影像、神经等千万级小文件数据信息,推动重大脑疾病如抑郁症、精神分裂症、自闭症和物质滥用的病根构建并预测人脑的创造性、幸福感和毅力等各种宏观指标,这对整个大平台的数据基础设施有着比较大的挑战和要求。

首先是对数据容量的要求:研究院部署较早的传统存储扩展能力受限制,且配置6TB及以上大容量硬盘采用RAID 6、RAID 10,空间利用率小于50%,在容量利用方面存在巨大提升空间。

其次是要有稳定的性能支撑:基因测序的生产过程是一个超高并发的文件转换过程,整个生产过程有非常密集的文件读取和写入。一个完整的基因测序样本会产生千万量级的文件,通过测序仪、分析仪等仪器获得包含原始基因序列碱基对的文件,大小大约几十GB。整个生物样本的导入过程对文件存储的性能有着极高的要求,满足不同科研任务对不同文件高带宽的存储需求,既要文件系统必须提供超大文件数量的支持,同时必须在有限的时间内完成海量小文件的导入。

最后需要对设备和用户的进行高效和精准管理:一是用户层次多,类脑研究院拥有从本科生至博士生,以及各类研究员的使用者;在研究的过程中类脑研究院的教授、研究员及学生需要设置不同的级别,以防止重要数据的误操作;二是多台设备的使用,使得故障点隐患增加,管理及配置难以统一化,运维压力较大。

浪潮存储,助力类脑研究基础平台建设

针对全脑网络可视化研究场景及相关需求,复旦大学类脑研究院采用了浪潮提供的专业化的存储解决方案。

浪潮存储助力复旦大学类脑研究院基因测序研究,加速多尺度脑库建设
浪潮存储

复旦大学类脑研究院采用浪潮分布式存储AS13000,可按需提供文件、对象、块、大数据等多种服务,采用8+2纠删码策略提供了3PB容量空间,空间利用率达到80%;方案统一化管理,降低多套设备部署和维护的复杂度,允许集群内同时故障2个节点,业务不中断,数据不丢失,保障了业务连续性。

浪潮存储通过对象聚合技术,提升单次落盘的对象大小,降低落盘操作次数,单节点恒定聚合带宽达2GB/s以上,确保基因测序的连续性。

针对高校多个学科与多个课题组共享、使用、管理数据会产生多份数据,浪潮存储为复旦大学定制了软拷贝功能,在元数据索引上做变更,用户视角是多份不同的文件,但底层则是共同的存储空间,实现多份数据极速拷贝和使用,还大幅降低了存储容量开销和管理成本,让数据共享、使用变得更加高效。浪潮存储平台还通过部署增强ACL,支持读、写、执行、可视、删除,满足对不同用户的精细权限控制:保证研究员、学生和管理者等不同用户对数据的访问和存储有不同的权限,有效防止误操作。

复旦大学类脑研究院下设的生物医学大数据中心—张江国际脑库(ZIB),不断加强高性能计算与存储能力建设,目前拥有6个队列、15000例被试、30 PB存储、1005 份问卷,形成了国内领先的生物大数据、云计算平台。预计到2023年,张江国际脑库将围绕精神分裂症、抑郁症、自闭症、脑卒中、神经退行性疾病以及正常人群的六个队列建设,完成环境、行为、遗传、脑影像、神经5-O尺度等全维度数据采集,建成全球最大规模的全维度脑数据库和算法中心,服务脑科学基础研究、脑疾病临床诊疗与类脑智能新兴产业的发展。

同时该机构还将与全球主流生物数据库建立合作共享机制,推动构建全球顶级规模的全维度脑数据库和算法中心。无论是脑科学还是类脑研究,对提升未来中国科技整体智慧水平、提高经济发展质量、促进人类的生产生活方式的转变均意义重大。