开篇:应用技术教育的目标是培养学生的动力能力以满足企业用人单位的需求,传统物理设备堆砌的IT资源难以灵活支撑日常的教育教学及科学研究;基于虚拟化、微服务、多租户、弹性伸缩、可视化资源编排以及应用中心等技术的ECS Stack云就绪超融合方案可妥善解决应用技术教育面临的这些难题。
成立于1992年的上海杉达学院是一所全国知名的民办高校,一直致力于建成为所应用型、国际化、高水平的大学。学院的教学理念也从“学而优则仕”转变为“技而优则才”,重在培养学生的实践技能。
应用技术教育共同的痛点:教研资源不足&管理困难
与大多数计算机应用类教育面临的难题一样,随着应用技术教育教学的不断深入和学生人数不断增多,上海杉达学院的师生也逐渐面临着教学科研资源不足的问题。如,教学机房资源有限,教学排课经常遭遇冲突;不同班级的课程不同,每次上课前都要重新配置教学环境,严重影响教学效率。
每个学生的实验环境、数据无法保存,每次实验之后都只能用U盘保存部分数据,否则下次上机实验就需要学生重构。学院的管理层逐渐感到,教学实验平台老旧、单一,已经影响了教学更影响了学生学习的积极性。尤其当前,随着学院在大数据和人工智能领域教学的不断深入,迫切需要一个能够支持整个学院教学科研的平台。这个平台,不仅要能够解决面向HPC、AI、大数据等教学和实验需求的瓶颈,还要满足当前使用物理服务器加装GPU、FPGA卡,支撑Tensorflow、Caffe、Torch、深度学习框架等,而且使得学院的整体IT资源实现共享、随需分配以及快速上线。
灵活的多租户管理:ECS Stack比传统方案更胜一筹
教研资源不足的问题,很快得到了学院管理层的高度重视。学院最初的想法构建一个满足教研需求的IT资源池,满足多租户管理和易于运维等需求。学院最初也考虑过传统解决方案:X86服务器+虚拟化软件,但由于传统方案缺乏灵活的多租户管理,以及学院缺少专业运维人员的现状,使得传统解决方案难以满足学院的需求。经过严格的方案筛选,学院最终选择EasyStack易捷行云 ECS Stack云就绪超融合方案。基于ECS Stack云就绪超融合一体机,EasyStack易捷行云为学院构建了国内首个基于超融合的应用技术教育教学科研云平台,既满足了教学科研所需的IT资源,又提供了灵活的多租户管理和极简运维能力。
为了让学院的管理员更快更轻松地使用教学科研云平台,ECS Stack从安装部署、运行到后期运维全过程进化简化运维——只需3步即可完成全自动化安装部署,实现小时级就绪。事实上,该平台从开始实施到2018年7月上线投入使用,整个建设过程在1周内完成。
在IT资源管理上,新建成的教学科研云平台,通过ECS Stack内嵌了虚拟化引擎提供虚拟机服务,基于OvS实现网络虚拟化功能以及基于OpenStack neutron实现vRouter、vFirewall、vLB,实现了虚拟机生命周期管理,分布式存储系统提供块、文件和对象存储功能等。
学院的管理员可以通过ECS Stack控制台实现资产管理、应用模板管理、配置管理以及租户资源配额管理等。融入感知式编排功能,可实现通过图形化拖拽的方式快速创建整个应用IT拓扑及资源开通;平台提供租户之间资源隔离以及网络二层100%隔离,从而避免租户之间互相影响;平台提供租户资源配额管理,从而避免租户之间资源抢占。每个学生都可以申请云平台租户账号,登陆ECS Stack控制台自服使用云资源。
为了简化教育科研实验所需的应用部署,ECS Stack融入应用中心功能,管理员可预先在ECS Stack应用中心封装、更新和发布应用模板;每个教师都可以按照教学课程的需求自主设计课程实验,并将实验环境打包为应用模板发布到应用中心,学生自助挑选实验课程之后即可在应用中心实现一键部署实验环境。
不仅如此,新建成的教学科研云平台,还可以在底层支持GPU和FPGA两种最常用的异构计算架构,在芯片核心底层即可释放人工智能潜力,上层则整合TensorFlow、Caffe、Torch等多种流行的深度学习开源框架,从而可以快速建模卷积神经网络和递归神经网络,广泛覆盖图像识别、语音语义识别、时间序列预测等多种人工智能应用。另外,该平台还提供针对大数据应用的Hadoop、Spark等开源框架,以满足教学过程中对于分布式数据计算、分析、预测等需求。
运维无忧:ECS Stack提供真正无人值守监控运维中心
提到云平台和超融合的优势,运维人员兴趣凛然,但一想到平台落地后复杂的运维工作,就让原本疲惫不堪的运维人员感到发怵。事实证明,在教学科研云平台投入使用的近半年时间里,,让负责运维的老师们真正感受到了什么是故障自愈、可视化运维、无人值守的监控运维能力。
在ECS Stack监控中心里运行着一个核心引擎——ECMS故障自愈中心,实时监控平台中所有微服务化控制平面服务的运行情况,任何一个控制平面服务出现运行状态异常都都会自动发出告警并自动触发故障自愈,在数分钟内完成服务恢复。故障自愈中心包含多种故障场景应急处理知识库,进而判断不同告警对应的应对处理机制,例如服务修复的方式,服务重启的方式,帮助客户自动修复运行异常的控制服务,使得整个系统自动重新回到正常运行状态。
目前,学院师生人数已达1400多人,随着学生人数进一步增多以及需求多样化,必然会对该平台后续升级/扩容等提出更高的要求。为了简化平台升级过程,ECS Stack云就绪超融合支持业务无感知的平滑升级功能,确保“三不停”,即业务不停,控制服务不停,物理服务器不停。在升级过程中,采取多副本滚动升级的策略,确保不会造成服务停机,持续升级其它副本,直至完成所有副本升级。同时还支持升级回滚功能,且业务/控制服务不受影响。
总体来说,ECS Stack云就绪超融合一体机帮助上海杉达学院构建智能教学科研云平台,它不仅能够在安装、部署、使用、运维上实现简单易操作,而且具有故障自愈和平滑无感知升级能力,通过感知式编排实现零基础资源编排;通过管理员和用户双机制实现资源灵活管理以及通过应用中心轻松实现应用封装、发布到一键部署。