老司机为科研带路,曙光发布“科学大数据引擎”

10月28日,正在中国西安举行的2016年全国高性能计算学术年会(HPC China 2016)上,中科曙光或许是最大的赢家,除了最新的中国高性能计算TOP100榜单的8连冠,还发布了发布了国内首个“科学大数据引擎”。据了解,中科曙光“科学大数据引擎”是集纳曙光全系列数据计算技术及服务产品的“黑匣子”,针对科学大数据领域实现的科学数据存储、分析和管理的一体化解决方案。这个有个近20年高性能服务的老司机,要把科学大数据带向哪里?

为此,曙光高性能产品事业部副总经理吉青、曙光公司总裁助理何铁宁、曙光公司高性能产品事业部总工程师戴荣、中国科学院软件研究中心姚继峰、航天星图科技(北京)有限公司总裁助理唐德可亲临现场,为大家做了更多解读。

%e5%b1%8f%e5%b9%95%e5%bf%ab%e7%85%a7-2016-10-28-%e4%b8%8b%e5%8d%883-47-50

数据安好,便是科研的春天

如今,我国在科学领域上的一次次令人欣喜的创新,其背后都会受到来一次次数据负累。例如,我国的暗物质卫星“悟空”、射电望远镜“FAST”、量子卫星“墨子号”等大科学装置先后投入使用,每日就可产生PB级科学数据。仅就数据存储的规模而言,这已对传统存储架构形成严重挑战,势必推动超融合架构、分布式存储架构等存储新架构在科研领域的快速落地。

其实,曙光基于近20年高性能领域服务的长久经验,已经多次解决的了科研领域很多因数据头疼的问题。例如,前文中提到的射电望远镜“FAST”,部署在贵州黔东南地区,为世界最大口径单体射电望远镜,每天要产生5TB左右的数据,数据需要保留10年以上。为此,“FAST”项目采用了曙光的超算系统,将承担起海量天文数据整合分析、天体分析和挖掘、天文大数据的可视化等工作,推动天文科学研究和探索由假设驱动向数据驱动转变。

此外,曙光于去年与中科院大气物理所联合部署的“地球数值模拟装置”原型系统,将为地球科学大数据充当“计算处理引擎”;今年还携手中科星图、中科三清等分别发展空天大数据应用和生态环境大数据应用。

科学大数据引擎出现,谁会从此路过

不仅是传统问题的解决,科学研究向大数据技术的依赖已经变得更为现实。正如曙光公司高性能产品事业部总工程师戴荣在会上所讲:“数字化的影响从互联网开始影响的更多的传统行业 ,如服务业、工农业以及科学研究。受多种因素影响,科学研究已开始大数据转型。一方面,受数据大爆炸的影响,例如原有仿真手段生成的大量数据,一方面,国家启动了更多的科研大型装置和设备,例如FAST。为此,科学大数据战略已经势在必行。”

据戴荣介绍,在科学大数据引擎的“黑匣子”里,部署着曙光全系列数据计算技术及服务产品,主要由5个引擎组件构成,分别是:针对海量非结构化数据的曙光ParaStor并行存储系统、类型丰富的曙光高性能计算平台、最大化提升系统整体效能的曙光深度学习计算平台、高效敏捷的曙光XData大数据处理平台以及能覆盖科学大数据中心全生命周期的曙光 EasyOP运维管理平台。

曙光的科学大数据引擎拥有以下六个亮点特征:

1)专为科学数据处理流程进行优化,提供“计算、存储、分析、运维”一体化强劲性能;

2)基于曙光独特的超融合架构,灵活支持高性能计算、大数据计算、深度学习计算等多种计算模式;

3)超强弹性设计,最高支持E级超算系统立体扩展;

4)针对海量数据的存储,可构建EB级单一存储空间,是经过验证的国内最大存储系统;

5)在数据分析方面,支持PB级数据处理能力,可实现亿级数据库毫秒级极速查询分析;

6)可为上万节点提供7*24小时在线、移动、实时自动监控服务。

戴荣介绍,曙光科学大数据引擎继用了原有技术积累,也从既有技术发展出机器学习、深度挖掘很多新兴技术,应用生态的搭建更多会依赖合作伙伴的支持。曙光科学大数据引擎,旨在帮助政府部门、科研院所、教育机构、行业技术创新中心、大型企业研发部门等用户向大数据研究方面转型,促进数据密集型计算架构在各行业领域的创新发展和深入应用。

从事于遥感数据研究的唐德可在会议现场从遥感影像解析的技术角度进一步阐明了这种需求。“此前三级存储架构下有的传统存储介质已经到了退出历史的阶段,例如磁带。基于曙光的科学大数据引擎很好地利用大数据技术跳出了传统数据架构的樊笼,通过搭建软硬一体的存储计算资源池,构建起了更为先进的空天大数据处理框架,从而可以进行数据清洗、数据挖掘,以及数据可视化的智能阶段。”唐德可表示。

不让数据成为科学研究负累,任重道远

可以相信,中科曙光发布的科学大数据引擎是中国科学研究领域的一剂强有力的催化剂,以及曙光近20年服务高性能领域的长久经验也是很好的信心保障。但对于将大数据技术在科学领域的真正实践,其实我们还有很长的路要走,而这也是科学大数据引擎能否真正得到认可的关键。

若是以今日曙光的科学大数据引擎问世为界限,我们发现,此前我们在科研领域的大数据应用,专注方向更多是倾向于用大数据技术来化解科研常规中遇到的数据存储、处理等问题。而如今,除了存储规模的爆发,科学研究在向数字化、网络化方向上的迈进,更需要高性能计算技术向云计算、认知计算、大数据分析计算等多种模式方向发展。

这些新的高性能计算技术发展方向,关系着科研大数据的实践能否找到更加适合的数据应用,以及基于数据支持又会有怎样的科研发现,甚至加速科学大数据发现到产生商业价值的过程。这方面,国外已经有了前沿案例,如某气候公司基于气象、天气、降雨、地质土壤调查等海量科学数据,为保险企业和农民提供信息。

不过,戴荣也表示:“目前来看,科学大数据在中国的应用发展还处于起步阶段,在推动大科学研究、促进各行业领域科学发现和技术创新方面有着非常大的潜力,但同时也面临诸多挑战需要应对。比如我国的科学数据资源还相对分散,还没有形成一批在国际上有强大影响力的科学数据中心,针对科学数据资源管理和开放共享的法律法规及相关技术标准还不够完善,高水平的复合型数据科学家人才队伍还存在缺失。”

所以说,科学大数据引擎的推出已经不是曙光面对与科研领域提供的一揽子技术解决方案,其成功与否关系到之后与此联系的整个生态的建设。为此,我们也看到,发布会上曙光呼吁更多的机构和厂商加盟进来,共同发展适合中国的科学大数据开放社区,帮助中国的科研机构借助各领域大数据发展机遇实现转型与变革,共建创新型国家。

可见,曙光的科学大数据引擎,高性能服务老司机有志让全世界从此路过!