戴尔HPCC系统助力“四川物探”更上台阶

“山地物探铁军”雄心勃勃
  
    正如其它竞争性行业的资源和市场逐渐向强势企业集中一样,地球物理勘探企业散、小、差的局面也正在发生嬗变。在众多的勘探企业中,地处成都的四川石油管理局地球物理勘探公司(以下简称“四川物探”)的目标就是成为市场的领导者。
  
    经过50多年发展,四川物探已成为集地震资料采集、处理、解释、科研于一体的大型石油及天然气地震勘探工程技术服务企业,形成了山地地震采集、高陡复杂构造地震资料处理解释、山地全三维地震勘探、碳酸盐岩储层横向预测四大技术系列,并拥有射线深度偏移、串级偏移、混合深度偏移、同距波列静校正等7项专利技术。
  
    四川物探在业界享有“山地物探铁军”的响亮名声,仅2004年,其完成的勘探工程就高达167个,其中包括二维处理9万多公里、三维处理6000多平方公里。多年来,四川物探在四川盆地、塔里木盆地、吐哈盆地、柴达木盆地、准噶尔盆地、鄂尔多斯盆地及六盘山等高难工区攻坚查明和发现了一大批油气构造,为西气东输、西部大开发做出了卓越贡献。为了在地球物理勘探领域迅速抢占制高点,四川物探进一步制定了“1515”战略目标:到2010年,完成勘探工作量15亿元,利润10%,外部市场工程量占50%,上缴利润1.5亿元。
  
  三大瓶颈亟待疏通
  
    四川物探在过去几年中已相继引进过四套HPCC系统,然而要实现“1515”目标,现有的计算资源仍无法满足日益增长的数据处理要求,进一步扩大计算平台规模势在必行。四川物探要求新的大规模计算平台必须能够充分满足以下需求:
  
    1、超强的计算性能。地震资料处理是一种计算量巨大、计算非常复杂的数据处理过程,各种数据计算模式,如滤波、叠加、反皱积、速度分析、去噪、叠前叠后偏移等等,都对计算性能要求较高。随着地震处理方法的改进,特别是,像3D叠前深度偏移计算,在采用波动方程处理时,其计算量不亚于天气预报和生物工程的某些科学计算,因而对计算性能的要求也更为苛刻。
  
    2、优异的I/O吞吐能力。在地震数据的处理过程中,一个炮域所采集到的各类原始数据量即达200MB,它们需要分配到多个CPU上进行计算,这些CPU之间要经过多次通讯才能完成一个炮域的数据分析,而一个地区的地震成像分析经常会涉及上万个炮域的原始数据,除了单个炮域的数据计算,各个炮域的数据之间还需要多次“交互”,才能完成最终的成像处理。在这一过程中,计算节点之间、计算节点与存储系统之间的通讯极其频繁,因此对整个系统的I/O性能也提出了极高的要求。
  
    3、海量的存储能力。随着地震勘探技术和地震资料处理技术的发展,原始数据量、处理的中间结果和最后结果的数据量均以几何级数不断增长,一个地区的原始数据采集量可能要高达几百个GB,而处理过程中产生的中间结果数据量则更为庞大;不仅如此,四川物探还准备用此次引进的存储设备为其他几套HPCC系统中的重要数据提供备份支持,因此必须引进一套拥有海量存储能力的先进的存储设备。
  
    根据多年来的HPCC系统运行经验,四川物探认为,除了硬件设备自身性能优异与否之外,整套系统的投资规模是否可以接受、供应商是否拥有部署大型HPCC的丰富经验,是否拥有HPCC技术专家团队等等,也是HPCC系统能否顺利实施的重要因素。
  
  新一代戴尔HPCC解决方案
  
    经过激烈竞标,基于英特尔新一代处理器*技术的戴尔全新HPCC解决方案以优异的整体性能和突出的性价比优势力拔头筹,成为四川物探的首选方案。
  
    该方案具体如下:
  
    计算节点  共128个计算节点,全部采用戴尔PE1850服务器。其基本配置为:配备双英特尔®至强™3.0GHz处理器,2GB ECC DDR2 SDRAM 内存,1MB二级缓存,2块73GB SCSI硬盘,集成2块10/100/1000M以太网卡,分别用于连接计算网络与管理网络。
  
     I/O节点 采用4台戴尔PE2850服务器。其基本配置为:双英特尔®至强™3.0GHz处理器和英特尔®7520®芯片组,拥有1MB二级高速缓存,2GB ECC DDR内存,4块73GB SCSI硬盘,并安装了双千兆网卡、1块百兆网卡和1块HBA卡。
  
    其中,两块千兆网卡做Teaming,连接到核心交换机中,使I/O节点和核心交换机之间形成了2GB网络带宽;百兆网卡专门用于连接管理网络;HBA卡则用以连接I/O节点与HPCC系统的存储后台DELL|EMC CX700,它为计算网络和存储阵列提供了2GB的全光纤通道,足以支持地震资料在计算节点与CX700之间高频率的数据交换的需求。
  
     应用节点和管理节点  各自1台戴尔PE2850服务器,其中,应用节点只安装专业地震资料处理软件,计算节点工作时将通过网络应用程序(NFS)从该应用节点上调取相应的处理软件;管理节点则安装系统管理软件,用来执行系统远程监控、硬件管理和开关机服务等任务。其基本配置与I/O节点相同。
  
    存储系统  采用1套DELL|EMC CX700光纤存储阵列,其配载210 块146GB硬盘,做RAID5,总存储容量近30TB,用于存储本HPCC系统中海量的地震原始资料与中间结果,同时为四川物探其他HPCC系统中的重要数据提供备份支持。
  
    网络系统  在地震资料处理过程中,各计算节点之间、计算节点与I/O节点之间通讯极其频繁,方案采用48端口的CISCO 4507核心交换机构架起千兆计算网络,负责整个网络子系统的核心交换;管理网络则由3套48端口的戴尔PowerConnect3348百兆网络交换机领衔,它们以级连方式连接全部计算节点、I/O节点、应用节点和管理节点;在I/O节点与CX700之间,则采用了1套16口BROCADE光纤交换机实现连接,形成了一个强大的全光纤存储网络。
  
  软件系统
   操作系统:全部节点均安装Linux RedHat 9.0操作系统。
   应用软件:采用国际先进的OMEGA叠前深度偏移软件,这也是国内首次在戴尔HPCC系统上安装这一软件。
   系统管理软件:
    各节点均安装了戴尔OpenManage管理套件,可对系统各部件,包括CPU、硬盘、电源、风扇和各种系统资源如PCI和内存设备等进行自动监控,有助于系统管理员可通过网络进行远程硬件检测、软件升级和事件管理。
    CX700中安装了Navisphere管理套件,可以通过基于浏览器的用户图形界面对存储阵列进行监控、配置、协调和规划,加强了对关键数据的保护。
  
  技术支持与服务 戴尔为该项目提供三年金牌高级企业支持服务,主要包括:
   专门备件支持:在成都提供有关服务器、存储及网络设备的4小时专有备件库,为快速解决问题赢得时间;
   快速技术响应:通过金牌客户专享7×24热线、金牌客户经理、当地合作伙伴现场支持三种方式,确保技术人员7×24随时响应;
   单一联系人制:指派拥有资深技术背景的客户经理和工程师专人负责,与该项目有关的所有软硬件问题均可通过其得到及时解决。
   企业项目经理服务(EDT PM):能够成功部署各类大规模复杂系统,确保系统在最短的时间顺利运转起来。
   技术客户经理服务(TAM):除提供戴尔硬件设备技术支持之外,还可为包括Microsoft、Oracle、Novell等在内的第三方产品提供无缝支持服务。
  
  




  四川物探戴尔HPCC系统拓扑图


 


 稳定运行彰显优异性能
  
    方案确定后,为确保本项目在实施过程中万无一失,戴尔为此成立了专门的项目组织机构,制订了覆盖产品出厂验收、发货、到货安装、验收、项目交接、售后服务等全部环节的详尽实施方案,并派出6个小组分别负责领导、调度、实施、技术支持与维护、项目协调与意见反馈和整理文档任务。作为在本项目的负责人,四川物探计算机所所长曾伟先生对此印象深刻:“要成功部署这样大规模的HPCC系统,供应商必须拥有资深技术背景的专家团队、丰富的实践经验,以及衔接紧密的工作链条,戴尔在这几方面都有较强的优势,最终确保了全部安装工作如期完成并顺利通过验收。”
  
    2005年5月中旬,这套戴尔HPCC系统正式投入运行,截止目前,四川物探已有三个地震处理项目移师到新的计算平台上开展。曾伟先生介绍说,“在正式运行之前,我们曾在这套HPCC系统上做过Linpack测试,它的浮点运算速度高达每秒七千亿次(700GFLOPS)。就目前实际运行效果而言,整个系统运行非常稳定,数据处理速度非常快,能够支持我们开展更多、更大的三维叠前深度偏移计算。”
  
    具体而言,这套戴尔HPCC系统的优异之处主要体现在以下三个方面:
  
    首先,戴尔新一代服务器实现了系统整体性能的显著提升。PE1850是基于带有800MHz总线的英特尔至强处理器和英特尔E7520芯片组的新一代双路服务器,它集成了一系列全新的和增强的平台技术,例如:与传统的PCI相比,新的PCI Express I/O技术设计有更低的内存和I/O延迟以及更高的带宽,在地震资料处理这样的计算和I/O密集型应用环境中,能够提供充分利用处理器功能所需的数据传输速度;此外,新一代DDR2-400内存带宽更大,延迟更短,并能够降低40%的功耗;而超线程(HT)技术带来的线程级并行计算能力,则有助于提高处理器利用率,从而改进整个系统的响应时间和响应效率。这些技术赋予了它支持高性能计算所需的卓越的计算性能和响应能力,也为四川物探进一步开拓地震资料处理业务奠定了坚实的硬件基础。
  
    其次,合理的网络架构为大规模数据传输提供恰如所需的I/O性能。针对计算网络、管理网络和存储系统对于带宽资源的不同需求,本系统量身定制了三种方案:
  
    应用功能强大的CISCO 4507核心交换机支持计算节点之间、计算节点与I/O节点之间的通讯,不仅如此,在数据传输任务最密集的I/O节点中,还特别将其双千兆网卡采用Teaming技术连接到该核心交换机中,这样,一方面可利用多网卡同时工作来提高网络速度,另一方面则实现了不同网卡之间的负载均衡(Load balancing)和网卡冗余(Fault tolerance),从而大大提高了系统整体的I/O性能。
  
    对于I/O压力稍轻的管理网络,方案选择了戴尔百兆交换机来支持通讯,既满足了应用的需要,又有效控制了IT投资支出,同时管理网络独立运行,不占用计算网络的带宽,从而真正实现了带外(Out of band)管理;而对于数据存取最为频繁的存储网络,方案采用了DELL|EMC DS-16B2光纤交换机来连接I/O节点与后台存储,2GB的全光纤通道为海量地震资料的输入输出提供了充裕的带宽资源。
  
    第三,海量存储资源系统得到最充分的利用。本项目中,拥有30TB存储空间的DELL|EMC CX700身兼二职:一方面支持本套HPCC中的数据存储,另一方面,还将为四川物探已有的4套较小规模的HPCC系统提供重要数据的备份服务,从而进一步加强数据的安全保障。目前,这套新的HPCC系统已通过骨干交换网与原有的4套HPCC系统相连,以此构建起了一个超大规模的高性能计算集群,备份计划正在有序进行。
  
    谈到未来的发展,曾所长表示,未来几年内四川物探HPCC系统将陆续扩展到3000个节点以上,“我们不仅要发展成为国内最大的山地地震勘探工程与技术服务商,而且还要努力在技术上赶超世界先进水平。凭借先进强大的HPCC系统,我们会争取尽早实现这一目标,并努力为西部油气开发做出更大贡献。”