刀片服务器在移动业务支撑系统的应用

河南移动业务支撑系统遵循集团总部BOSS3.0整体规划和规范,已经基本完成相关部署工作,包含客户服务应用部署、BOSS与DSMP接口改造、欠费风险控制、门户网站业务和数据一致性管理机制。另外进一步完善和明晰河南移动BOSS系统的体系结构、应用软件结构、系统边界和外部接口、系统功能及系统指标等基本定位与要求,从而为河南移动业务组织、管理及市场经营、客户服务等工作提供持续、有效的运营支撑。系统改造完成后,将支撑河南移动4000万计费用户话务量增长以及业务发展的要求,满足其对集团类业务、数据业务、奥运业务和其他新业务快速开发和上线的要求。

河南作为中国的人口大省,移动通信运营的竞争将更加激烈,河南移动如何在支撑系统建设过程中引入先进的系统建设思路和技术,建立一个能够满足不断增长和变化的业务需求的系统架构,这套系统架构易于管理和维护,并在最大程度上降低设备采购成本和运营成本?

问题分析和解决思路

1.原业务支撑系统的建设模式

建设BOSS3.0以前,河南移动的业务支撑系统全部选用UNIX小型机作为主服务器设备,UNIX小型机具有处理能力高,单机稳定性好的优点,但同时,UNIX小型机也存在采购成本高、运行维护成本高、运行维护相对复杂等问题。随着业务支撑系统能力要求不断提升,UNIX小型机的高成本成为系统建设的瓶颈。"降低TCO成本、提升性能、节能减排"成为河南移动业务支撑系统建设关注的重点。

2.业务支撑基础架构设施的建设思路

河南移动一直在追踪最新的互联网技术与硬件技术的发展,发现互联网企业系统架构模式值得借鉴:互联网应用多运行于PC服务器、刀片服务器等低端设备上,系统通过先进的技术架构与集群部署方式支撑大量在线访问、交易并保持高效、稳定的运行,典型的如Google、淘宝均使用刀片集群作为运行平台。河南移动借鉴互联网系统架构思路,结合系统特点对业务支撑系统架构进行优化、创新,实现了将CRM应用部署于刀片服务器机群的创新。

在软件技术层面上,河南移动BOSS3.0的CRM系统采用三层软件架构,基于亚信公司AppFrame平台设计、开发。AppFrame平台采用分布式架构设计,底层采用分布式EJB实现,整体系统架构完全支持集群化、分布业务处理。AppFrame平台完全基于J2EE开发,具备良好的可移植性,应用组件可以运行于任何支持J2EE的操作系统上。AppFrame平台提供了多种应用系统级容错机制,通过会话复制、服务可用性判断、路由分发、应用自适应调整、灾备切换等方式保证系统稳定。AppFrame平台提供Deploy机制和应用监控机制,使基于该平台的应用具备自动快速部署能力和分布式应用的集中监控、跟踪能力。基于AppFrame平台的CRM系统具备了"分布式处理能力、跨平台运行能力、系统级容错能力、集群部署能力、集中监控能力"。上述能力的具备,使河南移动CRM系统具备了运行于刀片机群了条件。

在硬件设备层面,随着AMD皓龙等x86处理器多核技术的高速发展,其每瓦效能越来越高,也使得刀片服务器技术日趋成熟。刀片服务器是一种高密度服务器,专为实现数据中心的便利性而打造,在标准高度的机架式机箱内可插装多个卡式的服务器单元,实现高可用和高密度。与传统服务器相比具有很多优势:适用于服务器集群;低成本;线缆大规模地减少;低功耗;模块化,实现了物理"即插即用"和"即购即换"处理的高效性。

结合先进的软件、硬件技术,CRM系统应用服务器替换为刀片服务器集群成为可能。新的CRM系统架构将具备由冗余节点方式提供的高可靠性,一旦单台刀片节点发生故障,应用系统将自动切换至其他节点提供服务;支持通过扩充应用服务器数量的方式扩展业务处理能力。最为重要的是,这种新的BOSS基础架构设备投资低于采用小型机方案的数倍。

业务支撑系统引入刀片服务器的技术方案

河南移动BOSS3.0 CRM系统采用三层架构部署,分别为前端业务接入服务器、应用服务器和数据库服务器。

(1)应用服务器:在应用服务器上部署中间件,提供营业业务处理逻辑,并连接后端数据库服务器,应用服务器群集通过中间件提供并行处理方式,提高系统的可用性和可扩展性,应用服务器采用HP Blade System BL685c G5刀片服务器,HP ProLiant BL685c具有极密集 4 处理器刀片式服务器的杰出性能,包括四核处理器、大内存容量和同类设备中更出色的网络连接:最多 4 个 AMD 四核皓龙8300系列处理器,具有 64 位四核计算功能以及业界领先的每瓦性能和每瓦性价比;支持 AMD Dual Dynamic Power Management 技术,以优化设备性能、降低设备功耗。AMD四核皓龙处理器的超传输总线为处理器核心、I/O子系统、内存及其他芯片组之间提供了可扩展的高带宽互连,使得每个处理器都可以拥有24.Gbit/s的峰值带宽;集成内存控制器优化了每个处理器的性能和带宽,消除了传统前端总线架构固有的延迟。尤其是在部署多路服务器时,基于AMD皓龙处理器的内存带宽会相应增加而完全不受北桥芯片的限制;AMD的直连架构技术能够完全消除传统前端总线架构所固有的瓶颈,从而提升了总的系统性能和多路处理器的效率,尤其是在HP Blade System BL685c G5此类多路服务器中,直连架构和超传输总线能够最大限度消除不同物理处理器之间的传输瓶颈,真正发挥出多路处理器的性能优势;此外HP Blade System BL685c G5刀片服务器具有16 个 DIMM 插槽可支持高达 128GB ECC 667MHz 寄存式 DDR2 内存,可用于内存密集型应用;2 个嵌入式多功能千兆网卡带有 TCP/IP 卸载引擎 (TOE) 和 iSCSI 支持;2 个嵌入式千兆以太网网卡;3 个中间件 I/O 扩展插槽可安装配置选件,例如多功能千兆网卡、1GB 和 10GB 千兆以太网网卡、光纤通道和 Infiniband。
(2)接入服务器:接入服务器为营业系统提供自建营业厅、合作营业厅、代办点、连锁店等所有的营业终端接入服务,以及电子渠道等营业相关业务接入,通过网页的形式展现。前端访问请求可以通过负载均衡器,分配访问量到各个WEB Server。这样,即使有某台Server出现故障,其他Server将继续提供服务,接入服务器群主要采用HP ProLiant BladeSystem刀片服务器系统,机型是基于AMD四核皓龙的HP Blade System BL465c G5,BL465c 配备两颗AMD四核皓龙处理器,具有与标准 1U 机架安装式服务器相同的特性,集成了节能的计算功能和高密度性、扩展的内存和 I/O,极大地提高了性能。此款均衡架构带有AMD 四核皓龙TM处理器、DDR2 内存、串行硬盘、多功能千兆网络支持和多 I/O 卡,可提供一个适合多种应用的高性能系统。尤其是采用的AMD四核皓龙TM处理器,凭借直连架构以及超传输总线和集成内存控制器等优秀技术,为接入服务器带来了业界领先的性能和稳定性。同时,外形小巧的 BL465c 中还包括确保高可用性的特性,如热插拔硬盘驱动器、内存交错、嵌入式 RAID 功能、以及提高的远程 Lights-Out 管理。采用HP C7000机箱,10U高,可放16个半高或8个全高的刀片服务器,

(3)数据库服务器:直接与应用服务器进行数据交换,应用服务器访问数据库进行数据操作,数据库服务器采用RAC方式提供性能和可靠性的保证,数据库服务器采用UNIX小型机。

在进行CRM应用服务器替换为刀片服务器的同时,CRM应用、部署进行了相应的优化、调整,保证设备替换后系统运行的高性能、高稳定性。

(1)CRM应用优化。针对应用部署的集群化,优化应用发布模块,实现应用分布式、自动化部署。优化系统监控模块提供对分布式系统应用追踪、监控功能,实现对服务、事物/数据库连接、系统访问、SQL的多方面监控。及时发现问题和缺陷并进行优化调整。如:服务跟踪功能可以实时进行营业员前台操作、后台服务调用、数据库数据操作的整个操作轨迹的跟踪、分析。

(2)应用整合。CRM应用架构整合所有业务功能,而不是原有的一套业务属性对应一套业务系统。在每台服务器上均部署相同的应用,通过设置实现不同服务器/业务域实现不同的功能;单个模块或者功能点的失效、升级或者failover通过模块控制进行设置。

(3)应用部署集群化。CRM应用采用集群部署,将若干服务器设置为一个功能域,为特定的接入渠道服务;同时,同一集群的刀片分布于不同的机框中,避免一个机柜故障导致整个应用集群的不可用。采用分散部署的方式可以在单个进程/设备/机柜不可用情况下由其他设备进行应用分担,任一点出现问题,不会造成系统整体影响问题,提高系统的可用性。

(4)应用部署自适应调整机制。不同应用集群应用负载设置性能压力阈值,当某个集群压力超过阈值将自适应/手工进行调整,使用备用集群或其它集群部分资源进行负载分担。当业务量降低,又会调整回去。通过自适应调整机制均衡各应用集群的能力。

(5)设置备用刀片集群。当生产设备故障时可以将应用接入到备用集群;同时,在应用系统升级、生产设备检修时也可以将应用切换到备用集群上。通过备用刀片集群的设置提升了系统的稳定性和可维护性。

业务支撑系统应用刀片服务器效果分析

1.降低购置成本

如果用8台机架式服务器和8台基于AMD皓龙处理器的刀片服务器相比较,带有光纤通道连接的HP BladeSystem的成本比机架式服务器成本低15-2%,服务器数量超过3-4台之后,购买刀片服务器就要比传统机架式服务器更加经济。

采用上面相同的比较,不带光纤通道连接的HP BladeSystem(只有内部驱动器)的成本比同级别机架安装基础设施成本低1-4%,服务器数量超过6-8台之后,购买刀片服务器就要比传统机架式服务器更加经济。

2.降低运营成本

初始设置时间从每台服务器12小时降低到30分钟,实施变更和重新配置的时间从4小时降低到30分钟,假设每小时的平均管理成本为43美元,若使用基于AMD皓龙处理器的HP BladeSystem,每年100台服务器的成本可从68800美元降低到8600美元。

与采用专用服务器存储相比,采用网络存储可管理多达6倍的存储,从而将从存储管理节省的资源用于战略创新。

3.更好的性能表现

采用分布式系统设计和操作系统优秀的内核应用处理效率获得显著提升。CRM部分业务的性能提高在30%-50%之间。

现有系统采用集群方式部署、分布式计算,在计算能力提升的同时有效降低单主机负载。采用小型机时,主机忙时平均负载在35%;替换后,单主机忙时平均负载降低到20%。

4.更高可用性

(1)系统可用性提升

河南移动CRM系统的刀片服务器安置于多台机柜中,应用划分为多个业务组,同一分组的应用部署于不同机柜的刀片上。通过应用部署避免设备故障导致全系统瘫痪。

系统提供故障节点判断能力,当发现某进程/设备故障时,系统自动将请求分发至其他节点并进行告警,由于采用多服务器集群方式进行负载分担,降低了单节点故障对整体系统影响。

系统提供应用分组负载自适应调整机制,某分组压力过大时,可以将服务请求分流至其他低负载分组上。

设置备用刀片组作为系统设备冗余。备用服务器上应用部署与其他设备相同,处于在线运行状态,当生产设备故障、应用升级、设备检修时可以将服务请求接入至备用集群。

(2)硬件可用性提升

刀片服务器具备"热插拔"的能力。某台刀片设备故障时,仅需将故障刀片拖出机箱,插入新刀片替换即可。

整合的基础设施可避免由于各种原因所造成的停机现象,诸如线缆、服务器、存储、开关故障;人为配置错误、以及软件、电源和散热问题。解决上述问题的时间大幅度减少,每年计划内和计划外的停机时间可减少近100%;设备内建N+1冗余,因而无需闲置、备用的部件,另外还提供了N+1冗余设计,因此而降低了冗余硬件成本。

5.更高可维护性

刀片服务器通过集群方式提供高性能的服务,但设备数量成倍增加给系统的维护、管理带来一定的难度和工作量的增加。考虑到这一问题,CRM系统提供了自动部署和系统服务追踪、监控功能,保证应用服务器刀片化的同时系统仍具备高可维护性。

自动应用部署支持自动化、分布式的部署方式,极大简化应用部署。发布通过控制设备支持全量、增量可视化发布,整个发布过程无须人工干预,仅需要15分钟;支持针对不同逻辑业务组定向发布。通过平台发布组件的应用自动发布功能,系统不因服务器数量的增加而增加发布的工作量和差错率。

CRM系统实现了追踪、监控功能,可以实现对服务、事物/数据库连接、系统访问、SQL的多方面监控。及时发现问题和缺陷并进行优化调整。如:服务跟踪功能可以实时进行营业员前台操作、后台服务调用、数据库数据操作的整个操作轨迹的跟踪、分析。系统的实时监控、服务状态跟踪和故障定位能力使维护人员可以及时发现薄弱环节、准确定位问题从而指导系统优化。

系统使用刀片服务器替换后,数据中心设备与管理员的比例大为降低,节省大量的管理投入。

6.更高可扩展性

软件系统由于采用J2EE技术,具备了跨平台运行能力和极强的扩展能力。系统在不进行任何编码的情况下,可以实时,在线的进行容量扩展,利用更多的设备,为移动业务发展提高更高的保证。

硬件设备扩容上,刀片服务器可以通过在线/离线增加设备的方式进行扩容和优化,即Scale out模式。刀片集群扩展时,仅需要根据处理能力需求将扩容刀片插入机框即可。系统可以实时、在线的进行容量扩展。

采用全新的软件架构与刀片服务器的CRM系统扩容更加灵活性、简便。计算能力需求实现的颗粒度更加细致。

7.更好的节能减排效果

通过CRM应用服务器替换,因为引入了节能高效的AMD四核皓龙处理器,标准42U机柜占用减少40%,耗电量更是节省高达57%。

8.线缆复杂度降低

传统服务器架构的布线增加了巨大的复杂性,是系统停机和不灵活的一个主要根源。

采用刀片服务器可以减少87%的线缆,平均每个1000M网络端口可节约100到350美元。

通过先进的采用IP的iLO2管理功能,消除了KVM交换机和线缆的需要,每个机架可另外节省高达25000美元。

创新性分析

1.设备选择创新

率先在业务支撑系统的核心应用系统中采用刀片服务器,与传统的UNIX服务器相比,刀片服务器的采购成本大大降低,且具备占用空间小、耗电量低、管理和配置简单灵活等特点,在实际的系统运营过程中同时降低了机房空间、耗电和管理成本。

2.系统架构创新

传统的业务支撑系统应用服务器部署一般采用集群软件形成主备方式的集群,当主服务器发生故障时,集群软件监测到故障,自动将系统和应用切换到备份服务器上。河南移动BOSS3.0 CRM系统应用服务器采用统一开发、运行平台,所有的应用服务器统一提供对外服务,业务逻辑分布在多个节点上处理,单台节点发生故障不影响系统正常服务,从另外一个层面提供了系统可靠性保证。

此外,系统性能的扩展也可以通过增加服务器节点的方式实现,不需要停止现有的应用服务,简单灵活。

3.系统运营管理创新

新系统建成后,整体的系统管理从单一服务器管理转换为刀片服务器集群管理,利用HP刀片服务器完善的管理工具,新服务器的扩展从传统的单机安装、连线、加电、配置、上线,转换成插板、集群配置和发布、上线,大大降低了系统升级、配置和管理的工作量。