至顶网 发表于:13年09月18日 10:17 [转载] DOIT.com.cn
大家可能还记得,英特尔公司曾提出一项极具野心的发展目标:在2020年之前以20兆瓦功率支撑起百亿亿次级别的芯片处理性能。但这一目标正面对一道难以逾越的障碍——物理定律。
当英特尔于2011年首次公布该宣言时,芯片巨头提出了一系列技术方案,旨在弥合当前处理器与发展目标高达多个数量级的性能差距,并提高执行效率。
已经被英特尔成功攻克的技术难题包括利用近阈值电压处理器(简称NVP)实现超低功耗,通过Hybrid Memory Cube等系统构建的内存堆叠机制,以及已经被英特尔用于大规模多核心至强Phi平台的异步处理系统等。
但随着英特尔在技术领域的步步深入,他们开始遭遇更多新难题与新挑战,这一切让前行中的每一小步都变得无比艰辛。
“目前新技术可谓层出不穷,而这些技术都将给我们建议系统的方式产生深远影响,”英特尔公司百亿亿次系统首席架构师Al Gara在本届IDF的一场主题演讲中表示。
他解释称,其中最大的变数在于英特尔所采用的内存类型,不同的选择将带来完全不同的结果。
他表示:“说起高性能计算与内存工作机制的发展方向,目前摆在我们面前的道路有两条:其一是继续坚持DRAM路线不动摇,并且在未来很长一段时间内始终以DRAM为首选方案,”另一条则是“如果新的内存技术之一迎来实质性进化,那么以此为基础构建起的新体系将让设计方案走向完全不同的轨道。”
这些新型技术包括自旋转移力矩内存、纳米机构RAM、相变存储器以及其它新兴的非易失性记忆体技术。所有这些方案都承诺带来五到十倍的性能提升,其中某些还会带来新的计算可能性。
但问题在于,英特尔还不清楚这些技术能否及时发展成熟,从而扮演新一代标准化内存方案的重要角色。而在此之前,芯片巨头不可能投入大量人力物力来研究和实施这些技术。
有鉴于此,我们询问Gara:英特尔还要等待多久才会押下这一轮赌注——即在DRAM与新兴内存技术之间做出选择。他回应道:“也许一年半到两年。在这样的时间框架中,大家将看到这些技术逐步转化为实际产品。也许到时候它们还不足以彻底取代DRAM,但至少我们会将其视为切实可行的备选机制。”
“在这些技术迎来进一步简化并投放市场之前,我们无法给出确切结论。”
这意味着英特尔的超级计算机之梦目前面对着两条截然不同的路线:要么继续死抱DRAM不放,将其作为创建系统的最佳方案。这当然有些棘手,因为“如果我们仍然沿用DRAM,那么随着计算性能的提升、我们将必须要步步下调内存容量来保证性能不受影响,”Gara指出,“到那个时候,我们会考虑增加线程数量。”
这样一来,我们必须要创建各种新的编程方式来实现隐式并行,同时通过光学连接等高速互连与芯片数据总线系统来构建大部分低内存容量、高计算性能的环境。
如果内存备选技术之一迎来跨越式发展,情况则大大不同。举例来说,假设自旋力矩内存能够成为新时代标准,那么计算的执行方式也将书写出新的篇章。
“我们可以利用该材料的磁特性,”Gara表示。这样我们就能够利用新内存技术的物理属性代替以往的传统逻辑门,进而将设计方案的尺寸缩小25%,Gara如是说。
不过如果采用此类形式的内存方案,英特尔需要做出一系列努力才能真正发挥其实际效果。“这些存档系统的访问时间在经过优化后仍有几十毫秒,但在非易失性记忆体技术的支持下,访问时间可降低至几十纳秒,”刚刚离开英特尔公司的前实验室首席科学家Justin Rattner在去年IDF中指出。
虽然内存方案的选择给英特尔提出了难题,但芯片巨头同时也把注意力放在其它存在发展潜力的领域——例如光子技术。
从目前来看,该公司正借助四种不同波长的光线实现50Gbps的互连传输能力,并有意通过八种不同波长的光线带来100Gbps带宽。英特尔认为只要不断增加波长类型与传输效率,Tb级别的带宽也将最终成为现实。
遗憾的是光子机制在传输时所需要的能量比传统铜缆更多。“虽然在很多领域确实拥有巨大优势,但光学传输带来的耗电增量也是我们必须留意的关键之一,”Gara解释道。
但这些与高速内存介质(也包括参数更出色的DRAM方案)相结合的带宽意味着英特尔需要拿出与之相匹配的新一代CPU。为了达成这一目标,芯片巨头专注于线程扩展,同时在缓存共享、启动成本、同步成本以及负载/执行平衡等多个领域做出改进。
单靠提升时钟速率还不足以实现改进目标。“我们在主频方面已经达到极限,”他表示。即使英特尔能够在这方面再做出小幅提升,情况也不会出现实质性变化:“如果我突然拿出一块主频达到THz级别的处理器,内存系统的滞后将导致速度表现仍然无法令人满意。”
替代方案之一在于约束性规划模型,它能够为架构相对简单的核心带来更高主频,他解释称。这一成果与专注于调整电压供给的近阈值电压处理器(于去IDF上首次亮相)相结合能够有效降低产品的额定功率,从而帮助英特尔成功摆脱功耗膨胀的难题。“难点在于,在降低电压的同时、芯片主频也会随之降低。”
英特尔当前面对的最大障碍正是在于这里:随着向目标的不断前行,物理定律总是一次又一次给芯片巨头施以重击——这种压力有时来自材料本身、有时则源自信息的物理传输机制。想用更精密的芯片工艺解决问题?电压分耗令人头痛不已。想利用光学机制提升速率?夸张的功耗又让人难以接受。
不过英特尔始终没有放弃追寻方案的努力。根据Gara的说法,在电路中塞进更多计算能力的方法之一,在于以逻辑为核心实施信息交付,从而利用时间间隔传输计算性能。
“决定能源效率的关键因素在于线缆的具体长度以及我们需要使用的线缆数量。事实上,我们所使用的并非时间资源——及时构建起编码信息并不是问题,”他指出。“如果我在单一线缆中发送一条信号,时间将被消耗在传输的过程中——这就是我们对信息进行编码的方式。目前信息编码需要消耗芯片主频,同时带来理想的能耗水平。问题是,同样的机制是否也能作用于逻辑层面?”
面对这个问题,英特尔也没能找到正确的答案,但他们无疑正在努力探索——试图抛开某些看似无法克服的阻碍,从而在追寻百亿亿次解决方案的道路上更进一步。
不过就算英特尔成功在规定时间框架内实现百亿亿次目标,整个过程也将再次循环,Gara表示。因为根据兰道尔原则——这一理论为计算成本设定了下限——英特尔仍有很长的道路要走。
“事实证明,百亿亿次计算性能的最低额定功率为16瓦;有趣的是,16瓦正是人类大脑的运作功率。因此从计算科学的理论角度看,16兆瓦功率应该足以支持yottaflop(即每秒1024次)级别的浮点运算能力。”他无奈地表示。