曙光TC4000高性能机群服务杭州动漫基地

      动漫产业,被誉为21世纪最具发展潜力的朝阳产业,随着计算机技术的介入使动漫制作又进入了一个全新的时代。中国的动漫行业相较日韩等国兴起的较晚,但是中国也逐渐看到了动漫行业里的巨大的市场,希望能成为动漫行业的后起之秀,在政策上对动漫行业也提供了很好的支持。日前,杭州动漫基地为了提高动漫制作的质量与效率,建设了面向浙江全省得动漫公共服务平台,为全省动漫企业提供高效得动漫渲染平台,在项目建设中,曙光服务器以优质的产品和服务,以及在动漫产业的成功经验,承担了杭州动漫公共服务平台渲染系统的搭建。
  
      际遇契机,应用面临飞跃
  
      杭州动漫产业基地成立于2004年,是国家首批动漫基地之一,同时也是唯一一家由政府投资建设的国家动漫产业基地。成立以来,杭州动漫基地成为浙江省动漫产业发展的中心,汇聚了众多动漫制作团体,有力的推动了动漫产业的发展,使得杭州成为中国的“动漫之都”
  
      提升动漫制作水平是发展我国动漫产业的必要条件,有鉴于此,杭州动漫产业基地启动了杭州动漫公共服务平台项目,通过这一项目,为浙江省动漫行业提供一个公共的动漫服务平台,平台建立后,浙江省内四十余家动漫企业的动画渲染都将通过此平台完成。
  
      曙光公司通过对杭州动漫基地渲染系统的实际考察,了解到该系统的工作模式。动慢制作一般分为两种方式,一个是通过三维建模,利用计算机技术对其进行渲染、特效、后期合成以及剪辑等处理,并最终形成数字产品或胶片产品。另一个是纯粹的数字制作部分,前期由工作站先进行建模、处理最后合成为动画产品。而无论哪种制作方法,其技术核心部分都是一样的,也就是说,都要通过动画的建模和渲染“模块”来实现,在杭州动慢基地的项目中,曙光则扮演了系统的“技术核心”。
  
      整个数字动画渲染的完成,在系统的建设上分为前期建模、中期的渲染以及后期的合成。分析硬件架构,前期建模和后期合成可以在工作站上完成,中期的渲染可以交给机群渲染软件完成,而所有数据的产生以及最后成品的归档,则需要大规模存储空间的支持。此外渲染农场的存在会大大缩短图片的处理时间,机群规模同处理时间几乎成线性反比关系,只要所构建的机群规模足够,既可满足多工作站的渲染需求。
  
      因此,曙光的工程师在系统的搭建中特别注意了三个方面的建设:渲染计算节点的搭建、存储系统、和基于机群的渲染农场。
  
      运算为王,打造顶级平台
  
      动画渲染是一个计算和通讯都密集型的计算,对CPU的浮点运算能力要求较高,这时候就要求包含有多个CPU的服务器,来完成大规模的计算量,这也就是经常所说的胖节点。胖节点架构有利于性能的提高,因为它采用一种进程/线程间通讯,即胖节点采用CPU间通讯方式,系统将任务队列对称地分布于多个CPU之上,从而极大地提高了整个系统的数据处理能力。而其他架构则采用节点间网络通讯的方式,众所周知并行程序运算的瓶颈在于通讯,过大的通讯延迟将影响运算速度,而胖节点很好的屏蔽了这一点,极大的提高了性能。另外胖节点架构提过对大内存支持,节点中任何一个CPU都可以使用节点内全部的内存,在运行串行程序时,这个程序可以申请很大的内存。同时提供多线程的支持, 一个节点中采用多个CPU,这些CPU之间可以进行多线程的并行。
  
      由于动画渲染计算过程对于硬件的高需求,系统采用了4路双核Opteron处理器的曙光A830r-F服务器作为计算节点,该款产品具有处理速度快、可用性强、易管理等优异性能,能稳定运行多种32位和64位主流操作系统,为杭州动漫基地的渲染工作提供了出色的保障。
  
      基于曙光机群的渲染农场
  
      在动画节目制作过程中渲染所需要的时间越来越多,而利用PC工作站来进行渲染的方式必定无法满足如此庞大的计算量。因此在这种背景下,势必存在繁重低效的过程,也就是“渲染瓶颈”。在进行三维创作过程中,动画设计者大都使用图形工作站来完成渲染的任务。单机渲染视图和动画时所需时间往往让人难以忍受,30帧动画就可能耗费数小时,显然渲染时间显得十分困窘,使用单机工作站渲染视频动画的方式速度实在很低,往往是以数天计算,甚至上月的;这样的渲染占到很大的制作时间比例。另外,必须考虑解决渲染过程中的I/O瓶颈。当动画越来越逼真、模型越来越细腻、渲染要求越来越高的情况下,伴随着文件变大、素材库变大,庞大的数据处理将使得32位计算本身在架构上就成为一个瓶颈,因为32位的工作模式已经决定了I/O的带宽不能满足数据处理的要求。


    如果渲染程序采用机群模式,上述问题就会迎刃而解。因此曙光在杭州公共动漫平台的建设中提出了基于机群的渲染解决方案。渲染机群系统由32个渲染计算节点、1个分发节点、一个管理节点及一个备份节点共同搭建。渲染服务器通过一系列分布式工作命令借助强大的渲染能力来帮助设计师高效率地完成三维作品的最后成形。借助于分布式渲染器,动画设计者不仅可以在设计完成3维模型以后,导入机群渲染系统,通过机群渲染强大的数据处理能力,迅速的按需求进行动画或静帧进行渲染。通过分布式计算,将一个大型的模型快速渲染,时间往往缩短到原来的1/2,1/3,甚至几十分之一。原来可能要几天运算的数据,可能几个小时就能搞定,大大提高工作效率,为高效率地完成后续合成工作打下了坚实的基础。



   
   
      存储支撑,完美成就渲染
  
      对于影视动画作品,存储的容量是可以预估出的,根据通常的经验,一个2K的片子的容量即会占用10M的存储空间,4K的片子会占用40M的空间,对于放映4M的片子每分钟的放映大约需要60G的存储空间,以此类推放映1个小时的动画作品就需要3.6T的存储空间。另外加之中间数据、合成数据等,此类数据占用的空间将是放映时长的10倍,所以需要处理1个小时放映时长的动画作品会需要将近36TB的存储空间。而且随着动画越来越逼真、模型越来越细腻、渲染要求越来越高的情况下,伴随着的就是文件和素材库变得越来越大。从以上分析可知,该应用所占用的数据空间是很大的,对一部片子做渲染是需要对该片子中的所有帧操作,显而易见存储的压力是很大的,换句话说,存储系统成为了影响渲染机群性能的主要因素之一,因而杭州动慢的存储系统搭建采取了拓展能力更强的SAN存储结构设计,以曙光磁盘阵列DS8340 FA配置了高达24T的实际存储能力,外加高速的I/O通信能力。



   
      如上图所示:杭州公共动漫平台的存储系统采用了目前最为成熟的SAN存储局域网络构建,所有的渲染机群节点挂接在存储局域网内,通过光纤交换机与高端的磁盘阵列柜相连。在普通方式下,磁盘阵列内的24T的存储内容在逻辑上是独立的,32个计算节点是无法同时共享该数据的,而在实际应用中,系统则通过SNFS的方式达到了数据的共享。



      由于动漫渲染系统中的客户端平时都是独立工作的,客户端之间不需要互相通讯,因此以太网络仅仅是每个客户端同渲染机群的连接通路,所以1GB的带宽既可。另一方面,制作出的场景需要渲染的时候通过以太网络将任务递交给后台的渲染机群,渲染机群在接到任务后进行渲染动作,该工作需要频繁的读取磁盘阵列上的内容,于是在这个方面配置的工作环境带宽则需要达到4GB,给予系统较大的工作带宽。
  
      杭州动漫平台是一套公共服务平台,投入使用后浙江省四十余家动漫企业都将通过该系统进行渲染工作,因此用户的管理则显得非常重要,为了更好的方便用户使用,工程师又通过曙光4000L机群操作系统软件(DCOS)对渲染系统进行了管理优化,曙光4000L机群管理软件大大提高了机器的使用率,减少了不必要的用户资源冲突,同时兼顾资源的共享和资源的合理应用。
  
      结语
  
      高性能计算技术的介入,使得动漫产业的发展产生了质的飞跃,在杭州动漫基地的渲染系统建成之后,将有力的推动浙江省动漫产业的发展。曙光公司为杭州动漫基地提供的是一个完整的、整体的解决方案。完整性表现在,用户若采用此套方案以后,用户无需增加额外的硬件和软件即可保证系统中所有设备正常运转;提供了动画渲染系统运行所需要的开发环境、并行环境。杭州动漫是中国动漫行业的四大基地之一,在全国动漫行业有相当的影响力,每年的中国动漫节都在杭州召开。另外浙江计划最近两年要建12个平台,这些平台都是政府投资,企业化运作。此次曙光公司的进入,表明其所具备的行业实力已被认可,对于未来更多动漫平台的搭建,曙光有信心做到最好。