导语
夏日的夜晚,当望着星空脑海中就浮现出后羿射日、女娲补天、夸父追日、嫦娥奔月等等故事,这些神话总是生动地展示古人对神秘宇宙的努力探索。每每听到我们的宇宙飞船在太空有新的消息,都会激动不已,这是人类孜孜追求的事情,在现代科技文明变得越来越明朗。
载入史册的时刻
37年来首次月面软着陆
回顾中国嫦娥三号探测器奔月之旅,环绕月球,并登陆月球,由着陆器和“玉兔号”月球车组成的嫦娥三号在月球虹湾地区降落,当月球车目前已成功探测并传送有关月球表面形貌,地质构造,矿物及化学成分的数据和三维图像时,我们实现了最近37 年来的第一次月面软着陆,这一时刻载入史册。
中国的探月工程分为“ 绕、落、回”三个阶段,时间跨度从2007年到2020年,但其实测器的软着陆是登月计划中最困难的一项任务。即2015年以后, 研制和发射小型采样返回舱、月表钻岩机、月表采样器、机器人操作臂等, 采集关键性样品返回地球, 对着陆区进行考察, 为下一步载人登月探测、建立月球前哨站的选址提供数据资料。此段工程的结束将使我国航天技术迈上一个新的台阶。
最困难任务背后的
“核心团队”
落月过程中,中科院上海天文台在跟踪、测量、监视探测器动力下降时扮演了关键的角色。如此重大意义的工程背后必然有更强大的数据中心作支撑!
此前,天文台搬迁到一个新数据中心并向几个供应商咨询有关适用于嫦娥三号探月基础设施的技术要求。中科院上海天文台选定长期合作伙伴戴尔作为数据中心的重要供应商。通过与戴尔基础架构咨询服务合作,天文台设计并配置了能够满足其带宽,高强度计算,以及性能需求的解决方案。
在追踪嫦娥三号登月之旅的过程中,中科院上海天文台负责其中的甚长基线干涉测量(VLBI ) 系统,是追踪嫦娥三号奔月的几个子系统之一。它由五个大型射电望远镜组成一个网络,不断地测量探测器轨道与位置信息。该VLBI 系统需要高性能计算集群进行实时数据传输、存贮及处理。
➀戴尔卓越HPCC方案
——保障奔月之利器
20 天的精密卫星轨道实时追踪, 60秒内的实时数据处理、结果传送。
中科院上海天文台VLBI 指挥控制中心副主任设计师陈中说,“ 我们的任务是在为期20 天的精密卫星轨道追踪中,进行数据的实时测量并把结果传送到北京航天飞行控制中心。该中心对探测器发送命令使其安全地自行控制降落。在这个过程中,我们用射电望远镜收集了大量的数据并依靠HPCC 进行处理,同时在不到60 秒的时间内把所需的计算结果传送到控制中心。”
➁戴尔卓越HPCC
——包含什么内容?
陈中这样解释,“ 我们花了相当多的时间与戴尔在项目的早期测试HPCC 解决方案,并确保它符合我们的具体要求。戴尔能够提供完整的端到端解决方案,包括硬件,软件和涉及在月球软着陆的密集期所需的特定支持服务。”
这套解决方案包括了采用戴尔 PowerEdge M1000e 刀片机箱的可扩容的、高密度的戴尔 PowerEdge M620 、R720 和 R910 服务器,确保高可用性、高效准确的数据处理以及数据中心空间的充分利用。
与此同时,戴尔网络M6220 交换机和 Mellanox M6301Q 交换机确保天文台可以满足严格的要求,提供40GbE 网络带宽。该解决方案还包括戴尔PowerVault MD1200 直连存储和戴尔Precision T7500 塔式工作站,用来监控天文台与北京控制中心的视频流。减少碳排放也是数据中心的一个核心目标,通过部署戴尔刀片服务器所实现的能源节省满足了上海天文台的需求。
“ 我们很高兴能够与戴尔长期合作并讨论我们的技术需求。在这个过程中戴尔团队成为值得信赖的顾问,使我们能够制定相关要求。基于他们的专业精神和高超技术,我们选择了戴尔作为我们的合作伙伴。” 陈中说道。
➂降低探月潜在风险
—— OME主动监控探月进程的高级系统管理控制台
OME是Open Manage Essentials系统管理控制台解决方案的简称,简单又强大!
为了确保天文台团队可以监控基础设施并提供积极主动的支持,他们安装了戴尔OpenManage Essentials 。以往每台机器都需要人工监控,但OpenManage 的系统管理控制台却提供了简单、自动化的硬件管理。
通过使用Open Manage ,戴尔团队在项目启动前一个月检查了所有的基础设施并对所有固件进行升级。这两项任务有助于大大减少可能影响探月任务的潜在风险。
数据中心成功实施几个月后,HPCC 平台在筹备降落月球所需的数据处理过程中发挥了关键作用。探测器数据通过网络实时传递到 HPCC 的处理平台,接着转发到后台系统进行精细处理和分析,以便在降落月面时减少风险。
另外,通过与戴尔团队的广泛规划,天文台消除了单点故障带来的风险并实现了高可用性。为了确保天文台满足其应用程序的I/O 密集需求并避免HPCC 的 NFS 瓶颈,该解决方案利用Lustre的并行分布式文件系统,通过在四个存储节点传播数据来提供冗余。这意味着在落月时用来控制探测器所需的数据即使系统发生故障也仍旧可以保持高度可用。
陈中表示:作为整个过程的中间点,HPCC提供了一项关键的功能。在系统完全不宕机的情况下,我们实现了高可用性,同时满足了实时数据的要求以及对探月工程的承诺。
世上前所未有的复杂任务
戴尔通过技术助攻关
中科院上海天文台的 VLBI 数据中心把从嫦娥三号卫星接收到的数据经过复杂处理,然后发送到北京控制中心的时间差距从之前嫦娥二号执行任务时的 10 分钟降低到 1 分钟之内。
但,戴尔HPCC解决方案则有更大的突破!
陈中说道,“HPCC 有着实时数据的要求。我们需要数据在 60 秒完成多点数据接收、海量数据处理分析和实时发送,此项时间框架是世界上前所未有的。但我们通过技术攻关,开发新算法,并配合戴尔的高性能硬件实现了快速传输数据的目标,最快时只用 15 秒。 较为复杂的任务,比如在特殊的弧段,则需要大约 45 秒传送。”
由于包括中科院上海天文台的VLBI 网络在内的一系列系统所提供的数据,嫦娥三号探测器得以安全在月球表面着陆。着陆过程中所观测的数据将用于正在进行的科学研究,并支持未来的月球探测。
对于此,陈中用北京航天的贺电来表达他对戴尔的赞赏,贺电称:“在任务准备和执行过程中,中科院上海天文台发扬科学求实精神,严慎细实,攻坚克难,为任务的圆满成功作出了卓越贡献。”
真正白金级别
戴尔ProSupport Plus
的关键意义
陈中的赞赏除了过硬的解决方案,还包括戴尔设立的一个专属应急团队,这个团队支持嫦娥三号的探月任务。在技术客户经理的主动协调下,该团队在探月任务开始之前采取一系列预防性的措施,确保在任务执行阶段把服务响应时间和解决问题的时间降低了一半。
ProSupport Plus的意义就在于,能够立即诊断并积极解决可能影响任务的任何问题。零宕机很好地证明了该团队为天文台所提供的服务。
而这支团队在整个探月过程中提供高品质的ProSupport Plus 白金专业支持服务,确保VLBI 关键系统的稳定性。在关键任务执行阶段,戴尔提供了 HPCC 备件并派遣几位工程师到VLBI 数据中心,以便快速解决任何由于部件故障引起的意外情况。
如今,探月第三期工程的目标是月面巡视勘察与采样返回,其中前期主要是研制和发射新型软着陆月球巡视车。而戴尔与中科院上海天文台的高性能计算集群平台,将继续助力中国探月工程圆满完成既定任务!
结语
戴尔通过HPCC 平台满足航天任务的长期技术要求、高可用性助力关键系统控制落月;数据可以在低至15秒内从上海天文台传送到北京控制中心、通过比以往快一半的响应速度消除宕机时间、成功软着陆。
戴尔 – 致力于通过卓越技术为正在进行的科学探测服务!