2014年11月6号,中国广州。HPC China 2014大会在广州长隆酒店正式召开。本次会议由中国计算机学会主板,中国计算机学会高性能计算专业委员会、中山大学和广东工业大学承办。会议吸引了海内外多家学术机构科研人员、厂商、合作伙伴以及国内媒体人员参加。在本次会议上,中国科学院院士陈国良发表了为《大数据计算理论基础》的主题演讲,陈国良院士认为大数据计算领域有着基本的计算理论。
图一:陈国良院士
陈国良院士认为不是所有的P类问题都可以有效的并行计算,小数据是可解的,大数据就面临不可解的问题。可解问题的经典定义是多项式时间内可以解决问题,而不可解问题指理论上能够解,但是实际上求解时间太长而无法用的问题,大数据就是属于不可解问题。
大数据遇到不可解问题,就可以用NC计算来解决,关键是怎么把大数据划分,必须要有一定的划分标准,陈国良院士认为提出的大数据划分标准是数据的距离和度量,在数学上,度量空间是一个集合,集合中的元素之间的距离就叫度量。
陈国良院士认为在度量空间中,我们可按照数据到支撑点的远近距离进行三中划分:超平面划分、完全超平面树、有利点划分。
最后,陈国良院士表示大数据计算理论基本的研究方法学是大数据统一表示、大数据分解方法、大数据计算;可行方案是:度量空间表示、距离划分技术、NC类计算理论;实施方法包括,将不同数据丑类成统一数据类型,将数据之间关系抽象成统一的距离函数等等。