任新勃 发表于:13年09月23日 15:52 [原创] DOIT.com.cn
当前我们对地球内部的认识主要是来自于理论推导,包括对于石油的勘探,都是间接的通过地震波和人造地震波来进行推测的。而为了获得可靠的数据,就需要做最大限度的地震数据采集、存储与分析,以此获得比较准确的地球内部信息。那么面临着更高性能、更快速度以及更大容量的数据,对于数据中心存储系统的要求也是最为苛刻。在HCC大会上我们了解到近来受到热捧的闪存技术早已应用到石油勘探行业。
2013HCC大会上,由DOIT承办的闪存进化数据中心论坛受到参会者的关注,中国石油集团东方地球物理公司研究院总工程师赖能和详细讲解了面对石油勘探领域产生的海量数据,如何最优化的解决海量数据的存储分析以及SSD在实际应用中的作用。
BGP是中国石油天然气集团公司(CNPC)独资的地球物理专业化技术服务公司,成立于1964年。主要从事陆地、浅海地震勘探采集、处理、解释及物探装备和软件研发,业务分布在全球34个国家,陆上地震勘探市场份额居全球第一位。现拥有2.6万员工,约9万CPU核,80万GPU核,超过25PB存储;运算能力约2PFlops。
赖能和对于地震海量数据与处理有什么样的特点做了详细的阐释,对于地震数据的收集,实现是需要提高作业效率,让每天能产生更多的数据。首先就是数据海量,BGP由于采用连续记录或增加采集点和接受点的密度而形成,因为需要多组可控震源在空间上两两间隔一定距离,利用相同的接收排列(超级排列)各自独立工作,仪器连续记录。保证了每天产生大于7TB的生产数据。
特点二是数据类型和来源种类单一,均由人工激发,定点仪器接收。特点三地球物理算法复杂,高精度的地震成像需要巨大的计算资源,因为需要适应的构造逐渐复杂,同时对于资料要求越来越高,算法精度渐高,还有物探技术的不断进步。
特点四处理流程复杂,频繁的IO和数据库操作复杂流程。
特点五对于硬件资料配置很高,对于密集型科学计算,存储硬件的资源配置要求很高。
那么面对海量数据处理,我们的机遇与挑战在哪里?赖能和认为首先地震数据快速增长对于存储量提出巨大需求,其次对于传统的HPC软硬件架构提出了新的挑战,最后高能耗与制冷是数据中心面临的新问题。
如何快速地把数百TB数据输入HPC,快速处理、QC、安全存储与拷贝数据,是目前HPC面临的最大挑战之一。
数据中心面对数据海量的压力
那么地震海量数据处理解决方案需要关注那些方面?赖能和从高性能、高配置、高宽带、高效率以及高吞吐五个方面提出了解决方案。
采用SSD,将解决CPU性能受限于I/O瓶颈的问题,特别是数据库的随机读写速度,有效提供系统效率并降低能耗。
SSD的平均延迟大大低于机械盘。图中对于可靠性、性能、功耗以及空间利用做了详细的对比。
普通用户对于SSD盘与HDD的实际测试
采用SSD硬盘,作为节点的内部临时交换去区,系统性能提高2倍。在不同配置环境下的3D RNA的应用效率对比
最后赖能和认为,SSD具有很高的IOPS、低功耗、低热量、低噪音和低延迟等优势,并且在油气勘探行业中得到广泛推广应用。随着SSD盘性价比的提供,用户也期待高性能、更稳定、更高效、横向扩展性更好、能够提供PB级容量的SSD分级存储(如华为的Oceanstor 18800F)在石油勘探海量数据处理中得到应用。