任新勃 发表于:14年09月15日 20:45 [原创] DOIT.com.cn
对于石油等能源的勘探,都是间接的通过地震波和人造地震波来进行推测的。而为了获得可靠的数据,就需要做最大限度的地震数据采集、存储与分析,以此获得比较准确的地球内部信息。如何更快、更高效的从海量的数据中找出有用的信息,对于数据中心存储系统的要求也就更为苛刻。当前油气勘探进入大数据时代。主要有两个原因,一个是高性能计算机的发展,促进了油气勘探技术的进步。第二数据成像大幅度提高,精度提高比如带来更多的数据。
大数据时代IT升级刻不容缓
随着技术的进步,能源行业每天产生的生产数据已经远远超过TB级别。中国石油东方地球物理公司研究院处理中心的总工程师赖能和以石油勘探行业为例,一个勘测地点每天产生的生产数据都有数十TB,这就需要更高性能的数据处理系统。传统的存储系统解决不了大数据问题,对HPC带来非常大的挑战。一个是配置要求非常高,都是高端服务器,二就是存储很大,每套系统都要配几千个T的存储才能解决问题。实际上存储IO是一个非常大的瓶颈问题,如何提高集群的利用率,解决存储和CPU之间的瓶颈,这是我们目前最主要的问题。能耗也是当前数据中心面临的问题,赖能和讲到中石油某一个数据中心,需要的电费两、三千万。
闪存加速能源行业IT进程
中国石油东方地球物理公司研究院处理中心的总工程师赖能和分享成功案例表示,进入大数据时代,软件定义存储为大数据提供弹性存储空间, 他认为高性能计算发展促进了油气勘探技术的进步,高精度算法能获取更好的成像结果,显然高密度采集与处理技术成为当前地震勘探的应用趋势。
他得出的结论就是:大数据大型矩阵的求解必须采用闪存存储阵列,对于海量数据交互处理,在弹性存储中扩展闪存模块,有效提升效率。
如何降低能耗,如果用普通的技术肯定不行,但是闪存技术的应用将来就会对我们有非常大的帮助。第一,对这种I/O密集型的运算,中国石油东方地球物理公司研究院处理中心配置了高性能的并行处理系统,加上海量的数据处理闪存系统。对于大数据,文件是几百个T,解方程,求解的话,用普通存储阵列消耗的时间不容想象。一个156个亿的记录,用普通的盘阵要18天才能做完,用闪存3天就可以完成,提升了6倍。这只是闪存带来的一个优势,我们还有很多步骤,通过这种技术我们很快的解决了这个问题,也就是闪存存储。
IBM全闪存阵列应用优势
对海量数据的交互处理,中石油有很多数据库操作,用普通存储很难解决。赖能和举例说明,采用IBM弹性存储,通过这几年的应用,存储系统性能是非常稳定的,持续的I/O并发也非常高。加速模块闪存现在是810,峰值达到20个GB左右,消除了过去数据瓶颈的问题,满足了海量并发处理的要求。弹性存储加上Flash加速模块以后很好的解决了交互的问题,并通过两个数据说明,传统存储,一个命令反应时间为300多秒,通过闪存加速20多秒就能反应过来。通过对比性能提高很多,当一套系统面临几百人同时用,通过闪存加速其效率明显提升。
我们把数据库原数据放在Flash盘上去,能够很好的提升我们的I/O性能,这里我们也做了一个实验,用IBM的弹性存储,我们的数据库用的是甲骨文,能够提升14000倍左右。而传统存储远远不能实现这个目标。
同时送100个任务上去,用普通存储和用IBM弹性存储速度差好几倍。用高性能并发I/O的弹性存储能够很好的解决并发问题。
最后赖能和对能源行业数据应用四点总结:
地震勘探已经进入高密度采集、大数据时代,需要规模化的并行计算系统;
海量地震数据处理需要高性能、大容量、低功耗、可扩展的并行存储系统;
闪存技术应用效果显著,解决了大数据处理中普通HDD很难处理的疑难问题;
工业应用表明,弹性存储架构,如IBM SOSS+FlashS810,简单、灵活、有效、性价比高,还可以根据需要随时扩展闪存加速模块,其可靠性、可扩展性能满足海量地震数据并发处理需求。
因此,在他看来,对于地震勘探这个领域,数据存储与处理都必须要有更高的灵活、性能与弹性,这就要求存储厂商在软件定义存储方面全面的、完整的数据解决方案。