HPC China:云系统自主管理与检测平台xCloud

2012年10月29日-31日,由中国计算机学会主办的 “2012年全国高性能计算学术年会”(HPC China 2012)在湖南省张家界阳光酒店召开。本届盛会围绕着高性能计算技术的研究进展与发展趋势、高性能计算的重大应用等主题展开,促进信息化与工业化的深度融合,为相关领域的学者提供交流合作、发布最前沿科研成果的平台,推动中国高性能计算的发展。

点击查看大会直播专题

中科院深圳先进技术研究院教授须成忠发表了主题为“云系统自主管理与检验检测 ”的主题演讲,硬件开销在过去几年的增长并不是很高,但是能耗和管理成本是一个很大的开销,管理成为系统运维的核心问题。云计算就是系统资源的集成,从管理的角度来说,就希望有一个自动的管理,而不是人工的管理。

须成忠教授谈道,云系统自主管理的挑战在哪里?

首先,如何提高系统的利用率?因为系统管理的开销会随着利用率程指数增长;

另外,从系统的规模来看,管理的开销会随着系统规模程指数增长,这种反应就在系统的可靠性,我们现在的平均故障时间已经低于10个小时,但是我们靠冗余能否提供系统的可靠性?答案是,简单地靠冗余并不一定能提高系统的可靠性。如果一个部件出错,不能马上检测出来,这就会出现错误的传播。以Amazon为例,2011年全线宕机3天,但是按照Amazon的SLA协议,一年的宕机时间不能超过4个小时。

第三个方面,如何实现按需服务?需要对任何资源的需求进行实时响应,包括资源管理、虚拟机资源管理、能耗管理等等。

先进云平台xCloud

先进云平台xCloud包括的组件有:

弹性资源管理,包括设备Zone的管理,包括虚拟机的部署、配置、基于能源优化的虚拟机的实时迁移;

实时监控系统,从系统的参数,系统参数的,过载的检测;

开发部署引擎,最大的特色就是跨平台,跨手机平台;

虚拟混合存储,虚拟的文件系统,使得不同的应用可以架构在不同的存储系统上。

须成忠教授介绍了在XData基础上做的健康信息系统,他说,深圳市所有的健康信息都在这里,如何在现有的信息系统中做整合,使得在任何一个医院所看到的信息,自己都能看到,不仅仅能看到自己的看病信息,还可以看到别人看这个病花了多少钱,用了什么药。