IDF大会骄子:Nehalem
以下这张照片是Ronak Singhal先生,他在Intel工作,他正在向大家问好。
他现在正在聚精会神的演讲,但是相信我,他不是油腔滑调的人。因为他就是Intel下一代Nehalem处理器的架构设计师。
从下面这张Intel最为知名的tick-tock“嘀嗒”路线图中,我们就可以看到,Nehalem处理器就是目前Intel最新一代的微架构处理器产品线。
这是一代全新的体系架构,至少它比Penryn处理器要新。不过它仍然是基于45nm制造工艺技术的处理器。在制程方面出次登场的Nehalem与Penryn是一样的。在下一年,我们就能看到32nm制造工艺版本的Nehalem处理器,而届时它的研发代号也另叫作Westmere。另外更新的一代研发代号Sandy Bridge将采用全新的架构,同样也是使用32nm制程。但是今天我们要讲述的主角就是——Nehalem。
最近Intel正式发布了Nehalem核心的处理器LOGO标识,那就是传说中的Intel Core i7微处理器。我们询问了Intel方面的人,为什么这款处理器会叫这个名字。我们得到了Intel方面人员积极的回应,Intel仅仅是发布了一个庞大阵容的产品线,但是并没有具体的处理器规格和型号。因此尽管这款处理器叫做Core i7,但是我仍然喜欢称它为Nehalem,在整篇文章中,我也会一直这样称呼它。
第一印象:Nehalem概述
首先,让我们来看看这个图表。
这是Nehalem内部的一个单独的处理核心,请注意,你在市场中绝对不会买到这样的产品,因为它只是处理器其中的一个处理核心,它并不包含内存控制器,L3高速缓存,还有Intel为多核心处理器所设计的许多部件。这张图表绘制的相当精确全面,这是Nehalem处理器中完整的执行核心,它绝对不是1/3的处理核心,它包括乱序执行单元和完整的逻辑电路。有了这些部分,才算是一个完整的高级处理核心。现在你可以明白为什么说嵌入式的Intel Atom处理器算是一个高级的处理核心了吧。
Nehalem中单独的处理核心,并不是由大规模的高速缓存组成的。大概仅有1/3的芯片面积用来做L1和L2的高速缓存。另外1/3用来部署乱序执行单元引擎和其他零碎的部件。最后1/3的面积用来实现解码单元的功能,分支预测逻辑判定功能,内存的排序和页处理功能。
除了单独的处理核心之外,Intel还未所有的处理核心设计了8MB超大L3高速缓存。它可以很显著的改善各个核心之间的负载平衡。
在上面这张图表中,我们可以看到完整的Nehalem四个处理核心。同时也能在下面看到超大容量的L3高速缓存,I/O控制单元,内存控制器电路和传说中的QPI互联总线。在桌面级别的Nehalem处理器,将会有1条QPI链接,即QPI 0。而在服务器和工作站级别的Nehalem处理器,将会有2条QPI链接,即QPI 0和QPI 1。
Nehalem架构采用的是高可升级性和模块化的设计。因此你会看到双核心和四核心的版本,在2009年甚至会看到8核心的版本。
甚至某些版本的Nehalem处理器还将包含一个图形核心。它将不属于Nehalem内部的处理核心,很快我们就会看到这个版本的处理器。要说明的是,这颗图形核心并不是基于Larrabee架构,它很有可能只是沿用了当前的G45显示核心架构。
全新架构:不是另一个Conroe
如果拿Pentium 4和Conroe来做比较那么他们之间的差别就像是黑夜与白天之间那么明显。P4所采用的NetBurst架构纯粹就是为了追求时钟速度的极限。而Conroe则刚好相反,只追求时钟周期执行效率。他们在架构设计思想方面,有本质的不同。Pentium 4需要做极大的软件方面优化,才能更进一步提高硬件的物理效能,此后Intel从中吸取了这个教训,不在期望通过编译器和代码优化来提高硬件的性能。他们在重新设计新一代处理器架构的时候,采用了模块化的设计思想。
Conroe是Intel第一颗包含了4路前端的处理器。这颗处理器可以进行解码、重命名,并且在同一个时钟周期可以执行4个内部微指令。不过事实上Conroe的实际处理效能可能达不到这个程度。
在Conroe中,Intel推出了宏指令的概念,它可以将2个x86指令“融合”在一起进行解码、执行和退出操作。这2个指令融合之后,就会被视为是一条指令。这项技术在某些情况下会极大的加速指令的处理效能。
Nehalem中近一步添加了更多的指令融合机制,同时也支持目前所有Core2中的宏指令技术。
另外在Nehalem中还加入了64bit指令的融合机制。在过去仅仅可以融合32bit的指令,现在64bit的指令融合也可以得以实现。在处理64bit代码的时候,我们可以看到明显的性能改善。
杀死分支:改善循环监测机制
在Core 2中特有一种叫做LSD流循环检测机制。它通过一个逻辑点检测处理器执行效能,查看在软件中各种循环语句的结构。它可以停止分支预测,可以停止那些潜在的不正确的预测分支,同时也能简单而有效的停止指令流中的指令。
分支预测和指令取回的硬件都可以被停止。在LSD单元中可以停止Core2处理器正在运行的18条指令。并且简单的从指令流中踢出他们。此后他们会再次被送到解码单元,提前完成一次循环。或者就将这些指令废弃。
在Nehalem中LSD被迁移到解码单元中,并且被放置在解码单元中的微指令高速缓存中。在一个循环中,分支预测,指令取回和解码硬件都可以通过访问高速缓存来找到LSD,那么LSD能发挥作用的同时也能进一步降低功耗。并且LSD能在重订缓冲区中直接对指令流进行操作。在Nehalem处理器中,LSD能够缓冲28个微指令,在实际的工作中,会比Core 2处理更多的分支指令。
两级预测:Nehalem中的分支预测改进
上文已经谈到了许多Nehalem中的改善,在Nehalem中分支预测单元方面的改善显得比较温和,不过这对于Intel本已经十分强大的分支预测来说,这些改进可算是相当难得了。
现在的Nehalem已经有了第二级分支预测单元,虽然它的速度相对较慢一些,不过它能检索到更大的程序分支历史记录,无论他们是否已经被踢出。在L2高速缓存中的分支预测单元具备非常大的代码容积。Intel采用数据库应用软件做了一些实际的演示范例。得益于分支预测的精确性,应用程序的处理效能有显著的增加。
在Nehalem中,重命名堆栈返回缓冲器也是一项非常重大的改进。在上一代Penryn处理器中,处理管线中无法预测的部分会导致数据迁移结果在返回堆栈中的错误。由于要保持数据结构的完整性,处理器在处理内存数据的时候都将交由一个函数来完成工作。返回堆栈会通过重命名的方式来防止堆栈错误。因此这种调用和返回的操作都会一对一对的匹配进行。在Nehalem中你会看到如果发生分支预测的时候,数据总能被正确的输出。
对于应用程序来说,这是非常重要的改进。Nehalem的设计在服务器领域内修复了这些缺点。早在这次秋季IDF之前,关于Nehalem在服务器领域的性能表现就已经成为了业界的焦点。当Nehalem被应用在桌面台式机市场的时候,同时也激发了服务器领域的设计。
而这些改进已经成为了Nehalem整个架构设计的一部分。Nehalem的体系架构要追溯到Pentium-M处理器和Centrino平台。而这次在服务器领域的技术进步,也激发了台式机和移动领域芯片的革命。
如果说对Nehalem最大的期望是什么,那么小编我说就是不要重蹈Pentium 4的覆辙,不要为了再追求时钟频率而牺牲了性能,增大了处理器的发热量。
Nehalem和Atom的设计都是Intel有史以来重大的突破,将功耗/性能之比提高到了一个前所未有的地步。如果Nehalem和Atom的功耗增加了1%,那么相应的他们的性能要增加到2%。否则如果功耗的提升与性能的提升曲线保持平行,那么Intel还会走上速度至上的死路。
数量加大:执行引擎的改善
Nehalem中的执行引擎与Penryn相比并没有较大的变化,处理管线的前端已经足够宽广,可以吞下足够多的数据。因此下面我们就来谈谈处理管线架构后端的执行部分。
在芯片内部,Intel显然没有增加数据结构的尺寸,但是对于处理单元的个数有所增加。在Conroe/Merom/Penryn中仅有96个uop,而在Nehalem中增加到128个。
而预留执行单元也从以前的32个uop增加到36个。并且它的装载和存储缓冲区也分别从以前的32/20增加到现在的48/32个登录入口。
虽然Nehalem相对于Conroe/Penryn来说在这方面不会有较大的改进,但是各项参数的配置设计都要算是最为匹配的。小
更加完善:TLB单元和独立高速缓存链接
在计算机的发展史上,可以说应用软件促进了硬件的发展。而在微处理器发展史上,服务器应用软件推动了处理器中TLB单元尺寸和性能的发展。在Nehalem中不仅仅增加TLB单元的尺寸,同时也增加了第二级统一的TLB单元,他们可以处理代码和数据。
另一个潜在的重大修正是Nehalem具备更快的独立高速缓存链接。在应用程序中,可能有许多大型尺寸的SSE内存操作,他们的长度能达到16-bytes (128-bits)。对于这些数据的装载/存储操作都会有2个步骤,第一步操作是划分出16-byte的界限,第二步操作将数据拆解。
当编译器在执行拆解操作的时候,如果内存的存取没有16-byte个字长,那么它将不能被正常操作。在所有的Core 2处理器中,拆解操作都将会花费很多时钟周期,拖累整个处理流水线的运作。
问题是许多编译器不能保证数据在拆解的时候长度恰好符合要求,并且默认的操作通常都会出现这些问题。
在Nehalem中,Intel大幅减少了拆解操作的出现几率,同时如果在使用拆解操作的时候,不会对处理流水线的性能产生重大的影响。编译器现在可以自由的使用拆解操作了。
早先的Core 2架构中在拆解操作方面可是吃尽了苦头。程序员需要额外编写代码来指定拆解目标解决执行效能的问题。在Nehalem中有一个区域可以实现重新再优化/再编译功能,这样会在拆解操作的时候加快速度。
在Nehalem中,也重点改进了线程并行处理的性能表现,我们会在下一页详细说明这个技术点。
又见又见:Hyper Threading超线程
小编我曾经问过Intel的一位高级工程师,在微处理器行业中什么是最让你感到兴奋的技术?他就回答出一个字:线程!不过在Pentium 4处理器上,我们并没有体验到Hyper Threading超线程的强大,总被DIY发烧友抨击为骗人的玩意。
Hyper Threading是Intel在市场营销时所使用的名称,从技术层面上讲它应该叫做SMT同时多线程技术。在同一个时刻处理器可以同时取回2条指令。而操作系统就会将基于HT技术的处理器识别为多个处理器,一般单核心的处理器会被识别为2个处理器,因为处理器可以同时发送2条线程指令。
我们回到Nehalem处理器,看看它的Hyper Threading有哪些新花招。总的来说,它将比Pentium 4具备更高的执行效能,具体有以下几个原因:
1、Nehalem拥有更大的内存带宽和更大的高速缓存,这要比传统的Pentium 4强上许多。因此,它将会为处理核心提供更充足的数据,具备更好的分支预测性能。
2、Nehalem比Pentium 4具备更为优秀的体系架构,每个核心都具备使用多线程的能力。
正如史上第一颗Pentium 4不具备超线程技术一样,Nehalem架构的处理器,也没有特指继承了以前的超线程技术。Intel这样做的主要原因是要让Nehalem的核心架构看起来更加简单,而且现在很多简单的应用程序也都开始支持一般的超线程技术。
你可以从下面的图表中看到开启和关闭超线程特性时,Nehalem处理器的性能表现。
Nehalem中的超线程设计,与Atom相类似。植入超线程功能仅仅占用了很小一部分芯片面积。要实现超线程技术,仅仅需要加入一些寄存器,重命名返回缓冲器,更长的TLB指令载入页。只要简单的加入这些组件,就可以实现该功能了。当开启超线程时,其余的数据结构会被拆分,从新分配。或者会被资源管理器动态的决定他们要被分配到哪个处理器核心去。
开启超线程特性后,Nehalem处理器的性能会大幅加强。在许多应用程序中,性能的提升都非常明显。它的性能提升幅度要远远高于Pentium 4处理器。
现在各位读者也许能够猜到,为什么Intel会大幅增加Nehalem处理器的各种缓冲区的容量了吧。为的就是让缓冲区能够存储更多的指令,这些指令将会被拆分为2个线程,同时执行。同时,处理流水线的前端,也被设计的非常宽广,他们可以一次吞入更多的指令,为更多的指令进行解码,这样就能喂饱后面的超线程与多核心单元。在处理流水线中,可以传输更多的内部微指令,执行更多的微指令操作,同时也可以给分支预测更多的历史记录,让乱序执行的效率大幅增加。
深入分析:高速缓存的层级架构
我们又谈到了Nehalem的高速缓存层次,这次我们来对它整个层级架构做一个详细的介绍。
Nehalem的高速缓存层级架构有点类似于AMD的Phenom,它具备3个级别的高速缓存层次。L1高速缓存具备64KB,其中32KB数据和32KB指令。每一个处理核心具备256KB的L2高速缓存,这些都是处理核心所独占的,处理核心之间的L2高速缓存不会共享。最后L3高速缓存的容量高达8MB,所有处理核心都可以共享L3内的数据。
Nehalem中的L1高速缓存的容量虽然与Penryn核心相同,但是它更慢一些,Penryn仅有3个周期,而Nehalem会有4个周期。Intel声称,降低L1的速度有利于更好地控制处理器的时钟速度,特别是在Nehalem这样极其复杂的芯片中。根据Intel所估计提高Nehalem的L1的潜伏期,会造成处理器整体效能下降2~3%。
同时L2高速缓存的性能也会有所阉割。在Penryn中两个核心之间可以共享6MB容量的L2高速缓存。Nehalem虽然为每个处理核心配备了独立的L2高速缓存,但是其容量骤降为256KB。
从Pentium 4开始起,Intel还没有为处理器制定出容量如此小的L2高速缓存。Intel指出,小容量L2的速度将会更快,数据从L2中装载和输出仅需10个潜伏期就可以达成。
由此L2充当了L3的高速缓冲区,不过也并不是所有的核心都可以自由的访问L3,它们也需要提前发出访问L3的请求。
所有的核心都可以共享L3高速缓存中的数据,并且Core i7处理器具备高达8MB的容量,这对于多核心处理器来说,是非常有必要的。通过共享L3中的数据,支持多线程的应用程序就可以支配所有处理核心协作完成所需的运算。可以说Nehalem的高速缓存层级架构沿用了Intel一贯的包容风格,在过去Intel设计缓存架构的时候一直使用着这种思想。Nehalem中的L3高速缓存包含L1和L2中的所有数据。这样的好处是如果处理器在L3中寻找所需的数据,并且没有找到的话,它就知道数据不在这里,同时也不在任何的L1和L2高速缓存中。这样它就会从更低级的内存中寻找数据。这样的机制不仅会加快处理的效能同时也能减少功耗。
高速缓存也包含了对于核心数据处理流量的侦测机制。随着处理器中处理核心的不断增加,将很难控制他们的处理任务量。介于Nehalem被设计为4核心的处理器,流量侦测机制也被加强了。
从T6到T8:改善缓存功耗管理
在今年秋季的IDF大会上,Intel介绍了在Nehalem中应用的一项新的功耗节能技术——8T(8晶体管)SRAM单元设计。所有核心中的L1和L2高速缓存都采用了这项技术,而L3高速缓存并没有使用这项技术。当Intel在Nehalem上应用8T设计时,能减少它的操作电压,进而可以减少Nehalem的功耗。这样的设计与Intel在Atom的L1高速缓存上的设计比较类似。
为了降低Atom上L1的功耗,Intel使用小型信号数组来代替开关寄存器文件单元。这是L1的写入和读取端口。现在高速缓存具备更大尺寸的单元,每个单元有8个晶体管构成。因此也相应的增加了L1的芯片面积和针脚数量。从Intel官方发布的芯片内部结构图来看他具有更大的数据高速缓存,不过为了降低功耗,它从32KB阉割成了24KB。这是Atom缓存架构中最为独特的方面,当Intel第一次公布这条消息的时候,所有人都在惊诧,为什么Atom的L1中数据和指令缓存是非对等的。通过这样的设计,Atom可以进一步降低工作时候的驱动电压。
Atom的小信号数组采用的是6T单元的设计,因此它的操作电压可以降低到最小。换句话说,使用最微弱的电压就能保存L1中的数据。在L2中Intel使用了6T单元的小信号数组,并带有ECC奇偶校验。架构设计师的初衷就是要尽可能的不去使用较大的晶体管单元,从而进一步降低工作电压。
Intel指出,在Nehalem的核心缓存中,从以前的6T SRAM转换到了8T SRAM。这仅仅是Nehalem中的L1和L2高速缓存。这是因为在Nehalem中的每个处理核心,其L2的容量已经非常小了,仅有256KB。Intel声称,从6T到8T的转换过程中,付出了沉重的代价,激增的晶体管数量相当于Nehalem的8MB L3高速缓存的33%。
偷师无愧:整合内存控制器
在Nehalem中还整合了内存控制器。Intel第一次将内存控制器由主板芯片组中转移到了处理器的核心内。同时我们也应该注意到,这个独特的内存控制器是一个货真价实的3通道DDR3内存控制器。这也就意味着你要在主板上同时插上3条DDR3内存,才能实现3通道的带宽。我想这一定把内存厂商给乐坏了。今后内存厂商肯定会为Nehalem平台,推出3通道内存套装产品。桌面级的Nehalem处理器会有2个内存控制器,而更高级的服务器级别会有3个内存控制器。
3通道DDR3内存技术的出现,使得Nehalem拥有了足够大的内存带宽。这绝对有助于喂饱饥渴的处理核心。不过内存带宽的增加带来的副作用就是使得Nehalem的预取单元的工作更加忙碌。
下面我们来谈谈服务器级别的Nehalem处理器的详情。事实上由于Core 2处理性能的突飞猛进,使得在许多企业级别的应用中数据的预取机制几乎没有发挥出来。很多企业及的应用软件都会对系统的带宽造成很高的资源占用率。通过预取机制,我们可以更好的平衡带宽负载。
在Nehalem中的预取机制的权限非常大,在系统内没有足够的可用带宽时,它可以劫杀一部分资源占用率较高的进程。
传说中的:QPI总线
当Intel提出了将内存控制器集成在处理器核心内部的时候,它还需要一个与处理核心之间通信的高速链接。因此Quick Path Interconnect (QPI)总线也就由此诞生了。从字面上看去,它比Hyper Transport更有助于提升系统的效能。
QPI每一个链接都是全双工的,每一个链接支持6.4GT/s的带宽。每一个2-byte宽度的链接每个方向可以得到12.8GB的带宽,由此一个单一的QPI链接足以提供25.6GB/s的带宽。
而更高端的Nehalem处理器将会有2个QPI链接,而一般主流阶层的Nehalem处理器将只有1个QPI链接。
可以说QPI总线,与AMD的HT总线相类似。现在开发人员最担心的就是NUMA非一致性平台。在由Nehalem组成的多处理器系统中,每一个处理器都将有自己的本地内存,并且应用程序需要保证处理器能找到与之相对应的内存。
在这个领域中,AMD早期的IMC和HT都对Intel今天的处理器设计有很大的参考价值。在服务器领域针对应用软件,AMD完整了大部分的架构设计工作,这对于Nehalem来说也有着非常多的借鉴价值。
继续扩充:新的SSE指令集
与Penryn相比,Intel扩展了SSE4指令集,在Nehalem设计的初期版本为SSE 4.1,现在Intel又加入了几条更新的指令,目前Intel将它叫做SSE 4.2。
未来Intel的扩展指令集架构中还将加入更为先进的高级矢量扩展指令(AVX),由此处理器就可以支持256bit位宽矢量处理。AVX指令可以作为一种中间媒介让SSE指令和未来的Larrabee图形核心进行指令通信。小编我猜想,未来Intel可能有意将Nehalem与Larrabee的指令集合并。
有新玩意:功耗管理的增强
在今年的秋季IDF上,最热门的焦点就是Nehalem处理器的功耗管理技术。
在这方面Nehalem处理器的设计彻底颠覆了以往的微处理器。在传统的处理器中,一般都是用动态多米诺逻辑电路来进行功耗管理,诸如Pentium 4处理器和IBM的Cell处理器,都是用这种方式驱动时钟速度。而在Nehalem处理器中,Intel移除了动态多米诺逻辑电路,转而使用完全静态的CMOS设计。
在Nehalem处理器中,为了实现功耗管理电路就花费了超过1百万个晶体管。在这里,处理器内部的功耗管理电路被称作PCU功耗控制单元。这1百万颗晶体管,相当于1颗486处理器的级数。同时PCU自身带有固件,并且它带有温度、电流、功耗管理,还有具备操作系统调用功能。
在Nehalem处理器中,每一个处理核心都带有自己的PLL同步逻辑单元。每一个核心的时钟频率都是独立的。这一点与AMD的Phenom处理器相类似。另外还有更相似的地方,每一个处理核心都是有自己独特的核心电压。而Nehalem和Phenom之间最大的差别就是Intel使用了完整的功耗门电路。
在此期间,Intel的架构工程师与制造商进行了非常紧密的合作。Intel说服了制造商,采用一种非常独特的材料,这种功耗门电路连接着电压电源与处理器核心,同时它自己也在处理核心之中。
这样的好处是Intel仍然使用一个单一的核心电压,而在深度睡眠的时候,个别的处理核心几乎可以完全被关闭。目前在Intel和AMD的多核心处理器中,所有的处理核心都具备相同的核心电压。这就意味着活跃的处理核心与不活跃的处理核心都要消耗相同的功耗。
在Nehalem处理器中,功耗门电路总能保持一个以上的核心处于被激活的工作状态,它的电压将维持正常的水平。其他的处理核心会根据任务量的大小,或开启或完全关闭。
功耗管理另一项突破就是超快的切换速度。集成在处理器内部的功耗管理单元可以快速的发出“开启核心/关闭核心”的信号。一旦处理核心处于空闲,功耗管理单元就会立刻将之关闭。其开启和关闭的切换速度在百万分之一秒。
上文中我们提到了PCU单元可以监控操作系统的性能,并且向其发出命令请求。因此它可以非常智能的决定系统的运行状态,是在高性能模式,还是在节电模式。
在一般的情况下,诸如Vista这样的操作系统在运行一个应用程序的时候,都会采用高等级节电模式,由此来保证CPU具备较低的功耗状态。无视操作系统的决断,PCU都可以控制处理器工作的形态。
自动超频:Turbo模式
这项新的特性,事实上已经应用在移动版本的Penryn处理器上了。当时Intel的设想是一个双核心的Penryn处理器运行一个单线程的程序,一颗核心就可以搞定,另一颗核心就会完全闲置。而整个芯片的功耗就会降低。Intel最善于做的事情,就是提升芯片的时钟速度。当只有一个核心在运行的时候,它的时钟频率就会被提升。不幸的是,Penryn处理器中的Turbo mode模式很少有用武之地。现在的电脑使用时,很少有人会只开启一个应用程序,一般我们在上网的时候,都会开QQ,开浏览器,P2P下载。在Vista这样的操作系统中,更有大量的进程在前后台运行着。很多任务都会交替着在两个处理核心之间运行。
Turbo模式还存在着另一个问题,当你的计算机只运行了一个单一线程的程序,那么Vista会产生额外的线程,保持你的移动版Penryn处理器不进入到Turbo模式。
所有的Nehalem处理器在以Turbo模式运行的时候,如果所有核心都处在激活状态时,每个时钟提升步进是133MHz。同时PCU功耗控制单元还要进行侦测,保证TDP不会超过额定的范围。如果侦测到的TDP数值足够低,或者有其他的核心处在空闲的状态。那么Nehalem事实上还会将处理器的时钟频率提升到一个更高的步进。那么这就意味着它会将时钟频率提升256MHz。很显然,这次Intel对自家的Turbo模式非常有信心。
在未来Intel还将发布具备更为高级的“Turbo模式”Nehalem处理器。并且你可以期盼时钟频率会自动提升到一个新的高度。这个Turbo模式的点子,想必是Intel受到了超频爱好者的启发,给那些希望提高处理器性能,同时又不肯自己动手超频的消费者的绝佳礼物。不过如果消费者不喜欢Turbo模式,也不必担心,完全可以通过软件设置来禁用该模式。
深度分析:Nehalem处理器的速度与性能
在本届IDF大会上,Intel并没有确切透露未来的Nehalem处理器产品的时钟速度与售价。不过这也是广大消费者最为关心的事情。
预计Core i7处理器产品线最初将会有三种频率。一个是2.66GHz,一个是2.93GHz,一个是3.2GHz。所有处理器都会采用相同的8MB L3高速缓存,并且全部都是4核心处理器。同时Intel彻底抛弃了FSB系统总线,转而采用更为先进的QPI总线,所有QPI总线的时钟频率皆是133MHz。
通过Turbo模式,每个Nehalem处理器至少都会提高2个步进,即256MHz的频率。并且这还是非常保守的估计,预计实际的处理器产品会有更大的超频潜力。我们最期待的还是2.66GHz的产品,希望Intel尽快将它的价格拉下来。
预计Nehalem处理器的性能将会有较大的突破,这我们已经从Intel的各种应用演示中看到了端倪。对于性能提升最为明显的就要数服务器应用了,不过毫无疑问具备如此强大的多核心多线程处理能力,也将为桌面应用程序带来前所未有的效能提升。尤其是视频编码,3D渲染部分。有兴趣的读者可以翻看我们小熊在线处理器频道早先关于Nehalem的文章。
如果你的应用程序并没有针对多线程,多核心进行优化,那么它至少也会有1%~15%的性能提升
写在最后:想说爱你不容易
Nehalem的关键特性介绍是今年IDF大会的重点。各位读者再耐心等上几个月,相信我们很快就会在市场的货架上看到它的身影。不过需要注意的是,你需要一个全新的主板,才能与之搭配,并且内存也要升级到DDR3才可以与之配合。但是相信Nehalem处理器给你带来前所未有的性能体验,将不会令你失望。
Intel的工程师在设计Nehalem的初期就深刻的了解到Intel处理器在服务器领域的弱点。由此,Intel发布的第一款服务器级别的Nehalem处理器就面向高端阶层,四核心,双QPI总线,三通道内存。如此华丽的配置让我们想起了AMD的Barcelona巴塞罗那处理器。AMD面向服务器市场阶层,目标就是提供高可靠性,高性能的平台。
得益于最近几年内桌面级别的多核心处理器的发展,Nehalem的技术已经进化的相对成熟而完善,同时它也应对了目前服务器应用软件发展的趋势。
事实上,Intel最大的革新并不是Nehalem,而是在处理器设计思想上的革命。以前为了提高处理器的性能,只是简单粗暴的增加处理器的时钟频率。现在为了提高处理器的效能,采用了多核心,多线程的思想,进一步提高处理器的执行效率,而不是运行频率。通过这样的思想,我们看到了超低功耗的Atom处理器。现在Intel继续延续着这种思想,我们亦迎来了Nehalem。
虽然Nehalem小荷才露尖尖角,但是已经注定将成为Core 2完美的继任者。此时我们就在深思另一个问题,下一步,Intel将会拿出怎样的处理器产品来催动整个处理器和半导体行业的发展呢?目前Nehalem大部分性能提升都得益于HT超线程技术和各种部件带宽的增加。我们要想知道Intel下一个“嘀嗒”将会拿出怎样的产品,我们至少还要等上2年时间。Intel的一位工程师告诉小编,如果想要提升性能其实比较简单,只要在处理器中集成内存控制器就ok了。那么未来呢?Intel还会怎么作呢?这将是值得我们不断寻找的答案。
而在2009年,Intel的重点将放在Larrabee独立显示核心上。Nehalem的继任者Sandy Bridge也将在2010年到来,这也是我们值得期待的一款处理器。在那个时候Nehalem将会成为服务器市场的主打产品,而在桌面市场中,Conroe依旧会成为最为普及的处理器。
让我们担心的,并不仅仅是Nehalem处理器的价格。为了一颗性能强大的处理器,消费者不得不升级整个系统。主板和内存,都需要更换。这对于消费者来说,将是最为痛苦的抉择。相信最初阻止消费者升级到Nehalem处理器的敌人,并不是处理器自身的价格,而是那张升级整个电脑平台的预算单结尾处一长串数字。
Nehalem处理器将在今年年底正式发布,具体的处理器评测报告,届时也会在第一时间放出。