HPC China2013:高性能数据系统回顾和展望

2013年10月30日,桂林。HPC China2013大会进入到第二天。在第二天的会议中,来自华东师范大学云计算与大数据研究中心主任、海量计算研究所所长周傲英教授做了主题为《高性能数据系统:回顾和展望》的主题演讲。周傲英教授回顾了数据系统的发展历史与发展,并对大数据、Hadoop等热门概念与技术进行了观点分享。

 

图一:华东师范大学云计算与大数据研究中心主任、海量计算研究所所长周傲英教授发表演讲。

周傲英表示数据系统往往应用在关键应用上,价格也较为昂贵。高性能数据系统主要可以分为四类:第一类是数据库机器,典型代表就是Teradata、Exadata等机器;第二类是无共享并行系统,代表就是DB2/PE,Hadoop以及Aster;第三类则是内存/事务型系统,代表有HANA、TimesTen以及OceanBase等;最后一类则是分析型系统,代表则是Hadoop、Aster以及Greenplum。

图二:高性能数据系统的本质。

图三:并行数据处理历史。

周傲英认为数据系统或者大数据一个绕不开的话题就是Hadoop。他表示像Google和Amazon等互联网公司具有大量的非结构化数据,这些非结构化数据的价值并不确定,如果采用购买商用机器的方式将会非常昂贵,所以这些用户采用了Hadoop来构建廉价的系统。

图四:Hadoop是一个绕不开的话题。

根据介绍,在Hadoop诞生之前,Google公司在2003年发表了GFS(Google File System)系列论文,Jeffrey Dean等在2004年和2006年又分表发表了Mapreduce论文和BigTable论文。自此,奠定了Hadoop的发展基础。

图五:Hadoop的诞生。

周傲英教授认为Hadoop是一个可以更容易开发和存储大规模数据的软件平台,帮助用户快速、低成本地实现大数据的存储、管理及分析查询。Hadoop的关键在于MapReduce和HDFS,MapReduce可以实现高性能分布式并行数据处理,HDFS则提供可靠数据存储服务,低廉MPP,高容错,高通量以及可伸缩等特性功能。

图六:Hadoop不等于大数据。

周傲英表示,Hadoo虽然有很多优点,但并不等于大数据。Hadoop在MapReduce过程中仍然无法控制实时时间,所以在实时事务处理的时候还是没有数据库更强。

 

图七:周傲英教授认为大数据应该进行分类,他认为大数据主要有Web数据、决策数据以及科学数据。

周教授表示在大数据时代下,应用需求在变化、应用环境的变化、硬件的变化、体系结构的变化、计算环境的变化使得数据系统重新面对的。

图八:SQL、NoSQL以及NewSQL的对比。

最后,周教授表示传统数据库的研究理念和方法在大数据环境下仍然有指导意义和参考价值,大数据研究是应用驱动的, 国内在大数据时代中充满机会。