曙光邵宗有:大数据是HPC应用的又一片蓝海

“Big Data is like teenage sex”,有人将大数据比作青少年对于性的认知,大家都在谈论大数据,却很少有人真正知道怎么去利用大数据。个人认为这个比喻尽管有些欠妥,但还是非常贴切了形容了当前大数据发展的状况。

数据显示,当前只有6%的企业对大数据有较深度的应用。许多企业希望将大数据用起来,带动企业的经营,但不知从哪里着手。它们不惜重金投资大数据信息系统、分析系统,聘请更多的人才,希望能从这个新趋势中获益,不过却无奈地发现,大数据仍然停留在云端,没有带来多少实际收益。它们找不到大数据与业务结合的突破口。而一些真 正将大数据应用于实战的企业,却在应用过程中困难重重:大数据无法与业务结合;没有收集、分析海量数据的能力;经营人员缺少应用大数据的动力;数据来源鱼龙混杂难以使用……

2013年10月19-31日,中国高性能计算领域盛会HPC China 2013在桂林隆重召开。这次大会上出现频率最高的一个词就是——大数据。无论是从Top100的排行榜来看,还是从大会的演讲报告主题来看,大数据与高性能计算的结合已经是一个无法抵挡的趋势。

过去在很多人眼里,高性能计算主要是用于科研计算。而近两年,随着云计算和大数据等应用趋势的发展,高性能计算找到了新的应用空间。正如曙光副总裁邵宗有在接受DOIT记者采访时谈到,大数据是未来HPC应用的蓝海,大数据将对HPC榜单产生更大的影响。

【图】曙光副总裁邵宗有发表演讲

事实上,大数据与高性能计算的融合是高性能计算技术不断发展,以及大数据对于超强计算能力需求的必然结果。一方面,大数据的发展为高性能计算提供了更为广阔的应用空间,无论是传统的科研应用,还是金融、通讯、互联网等高性能计算的新用户,随着数据量 越来越大,以及大部分用户对于数据价值挖掘的意识不断加强,一套高效、可靠、弹性扩展的数据处理方法和工具就变得非常必要了。另一方面,而随着高性能计算 系统性能的日益提升,越来越多的用户开始考虑采用高性能计算的集群来进行数据处理和分析。

截止到这次中国超级计算机Top100排行榜公布,曙光已经连续五届获得中国超级计算机Top100份额第一。但是,邵宗有表示,曙光从去年开始就 在逐步淡化排名,而是把大部分精力用于推动高性能计算机的应用。“传统高性能计算机市场竞争越来越激烈了,曙光过去两年一直在开辟高性能计算机的新市场, 比如云计算,曙光通过深圳(超级计算中心)来提供云计算服务。过去一年多,曙光找到了一个更大的市场——大数据”。

大数据在互联网、通信、金融、卫生、交通、安全等领域是非常重要的。邵宗有表示,中国现在大数据用得比较好的主要有几个领域:一是消费行为分析,比 如淘宝、银行、电信等都有消费行为的分析,做消费行为分析主要是为了两个目标,一是风险防控,二是精准营销;另一个叫社会行为分析,社会行为分析又分成舆 情和情报。

大数据挑战总结起来就是4个V(Volumn、velocity、Variety、Value),经过研究和分析认为高性能能计算机比较好的解决这 些问题。邵宗有谈道,这一两年以来,曙光高性能计算机的研发团队,主要在做高性能计算机与大数据的结合。今年上半年曙光推出了大数据一体机XData,把 高性能计算机的框架跟Map Reduce和hadoop框架融合在一起,实现一个完整的软件层,再加上底层高性能计算机、结构存储、网络。

我们知道,高性能计算机包括计算、存储、网络和软件四个主系统。大数据一体机和高性能计算机的通讯主系统和存储主系统基本没什么不同,只是在计算主 系统中,高性能计算机更多的是用超薄的刀片,大数据更多的是数据服务器,上层的软件主系统中,大数据一体机则是融合了高性能曙光Gridview和 Hadoop两个软件。“Map Reduce的模式将来会深刻影响到高性能计算机的应用,Map Reduce的高性能计算机用于大数据一体机就说明了Map Reduce是MPI的有效补充”,邵宗有补充说道。

事实上,对用户而言,缺的不是数据,也不是资金,而是大数据的视角,如何去应用大数据。“对曙光来说,就是要树立各个行业的“桥头堡”,推动大数据 在各个行业的应用,包括电信、银行等等,我们现在都在推动,”邵宗有在采访中表示,曙光还要做一个专业的团队去给用户提供服务。

据透露,目前,曙光现在正在研发一款数据存储与计算在一起的大机器,有望今年年底能完成。