兼顾多种指标 多核时代如何评估PC处理器性能?

DoSERV服务器在线 12月20日报道:无论是在PC上偏重数码照片、音视频内容创作、编辑与分享,并将其视为主要游戏平台的家庭用户,还是那些只在PC上利用Office等办公软件处理工作文档的商业用户,他们对PC都有着共同的且持续不变的期望,那就是希望PC的性能能够不断提升,以帮助他们获得更好的娱乐体验或是大大提高他们的工作效率。在他们衡量一台PC的品质时,其性能表现毫无疑问成为他们最关注的方面。

用户对于PC性能的追求虽是持之以恒,不过,随着PC核心组件–处理器从单核向多核演化,他们以往用来评估处理器及PC性能的方法,即仅仅根据它的时钟频率(或时钟速度)高低来评价其性能高下的做法却正在渐渐过时。那些持"速度即性能"观点的人,或许会感到疑惑:为什么现在新一代的处理器,例如英特尔的酷睿2在较低的时钟频率上的性能表现会比以前时钟频率很高的产品,如奔腾4更为出色。

其实,这些疑惑产生的原因,源于人们对处理器"效率"的忽视。

理解效率与性能的关系

虽然在许多消费者心目中,时钟频率曾是衡量处理器,以及采用这种处理器的PC性能的惟一标准,但对于专业人士而言,它只是进行性能评估中的一个要素而已。早在上世纪80年代,一些研究人员就发现并总结出了一个处理器的"性能公式",来描述可对处理器性能带来影响的各种基本因素,其中除时钟频率外,决定处理器性能高低的另两个因素分别是处理器的效率以及待执行程序的指令数目。而处理器的效率就是指它在标准时间(如1个时钟周期)内能够执行多少条指令,或者是执行一条指令平均需要耗费多少个时钟周期。前者通常由IPC(Instruction Per Cycle,每时钟周期执行指令数)来表示,后者则由CPI(Cycles Per Instruction,执行每条指令需要的时钟周期数)来表示。

根据这一公式,处理器的时钟频率与效率皆与其性能表现成正比,与待执行程序的指令数成反比。时钟频率越高,就意味着它能在标准时间,如1秒内拥有更多的时钟周期,而其效率越高,就说明它可以在单一时钟周期内执行更多的指令,而需要执行的程序的指令数越少,它所占用的执行时间就越少,这三个要素不论是单一的改进,还是全面的进步,都有益于处理器在性能方面更上一层楼。

对于处理器效率与时钟频率及性能的关系,曾有业内人士做过这样一个更加形象和易于理解的比喻。即将处理器比作一个车轮,将时钟频率比作其转动的速度,将其效率比作其直径。这个车轮的直径越大,它就可以以同样的转速、甚至是较慢的转速下比直径较小的车轮走出更远的距离。同理,我们也可以将效率较高和较低的两款处理器视作两个发动机,高效率的发动机完全可能在消耗较少的能源的前提下,输出远比低功率发动机更为强劲的动力。事实上,如今的新一代处理器在时钟频率较低的情况下能有超出前一代高频产品的性能,也是因为它们拥有了更高的效率。

效率提升源于微架构改进
 
就像一个人要提升工作效率就必须采用更为先进的工作方法一样,从处理器的设计角度来说,要想提升其效率,主要途径就是必须采用新的、在IPC上表现更佳的微架构(Microarchitecture,或称微体系架构)。

从理论上来说,处理器微架构就是对处理器所采用的指令集体系结构,如x86、PowerPC的一种逻辑实现。处理器微架构的设计,实际上涵盖了对处理器中所有模块,如控制单元、指令预取单元、高速缓存单元、分支预测单元、运算单元、总线接口单元及这些模块的连接和协作方式的设计,其目标则是一方面要使指令集体系结构定义的功能能够得以实现,另一方面就是要不断提升整个处理器的工作效率。

与发展缓慢、甚至是许多年稳固不变的指令集体系结构不同,处理器微架构几乎每隔几年就会有升级换代。如人们所熟悉的英特尔奔腾处理器家族,从奔腾、奔腾2、奔腾3再到奔腾4,他们的换代就主要是源于微架构的改进。而去年英特尔推出的酷睿2与之前的奔腾4及奔腾D的差别,也在于它使用了效率更高、耗能更低的酷睿(Core)微架构,而不是后者所用的NetBrust微架构。

我们或许可以通过对比酷睿与NetBrust微架构的一些差异来理解微架构的改进对处理器效率提升带来的有益作用。实际上,在酷睿微架构采用的五大创新技术中,多数均与处理器效率提升有直接或间接的关系,例如其宽位动态执行技术,就是通过将解码器从前一代微架构的3个增加到4个,来提升处理器的IPC值;又如它采用的高级数字媒体增强技术,就将前一代产品必须用两个时钟周期才能处理完的SSE指令改为在一个时钟周期内完成,这也有助于处理器效率的提升。此外,酷睿微架构还采用了宏融合(Macro-Fusion)技术,在解码时可将同类指令融合为单一的指令,以减少待处理的指令总数,这与处理器性能公式强调减少待执行程序指令数目的要求相合,也能够起到提升性能的作用。

选芯须兼顾架构与速度
 
所上文所述,评估处理器性能的高下,较为科学的方法应是综合考察微架构和时钟频率两个方面的差异,这种方法尤其适用于采用不同微架构的处理器产品。而要在基于同一微架构的处理器产品中进行性能评估时,以时钟频率作为衡量标准的方法事实上并未过时,当然,在时钟频率之外,消费者也需要了解它们在系统总线频率、缓存容量上是否还有差异。

以英特尔现有的PC处理器产品为例,不论是它定位于高端的四核酷睿2(Core 2 Quad)、定位于中高端的双核酷睿2(Core 2 Duo)、还是它主攻低端市场的双核奔腾和单核赛扬主力产品,现在都采用了目前业界效率最为出色的酷睿微架构,当消费者需要将它们与其他厂商或微架构的产品进行对比时,消费者就不能只看时钟频率上的差异,但如果消费者只需在这四款酷睿微架构的产品中进行选择,那么就只需考虑它们在核心数量、时钟频率、缓存容量及前端总线频率上的差别即可。
或许有人还会追问:既然时钟频率一直以来就不是衡量处理器性能的惟一标准,那为什么在过去很多年中,这种"速度即性能"的观点却一直能够大行于道呢?为什么现在人们在选择PC处理器时还要多考虑微架构的差异呢?

其实,造成这一情况的原因在于过去三十多年间,处理器在时钟频率上的增长幅度要远远超过了其效率的提升幅度。从上世纪70年代初英特尔推出全球首款处理器4004以来,处理器的时钟频率增长幅度已经达到了近30000倍,而IPC提升幅度只有几十倍,处理器性能的提升很大程度上要归功于时钟频率的飞速增长,而今,时钟频率的提升因为处理器功耗的不断增加已经遇到瓶颈,而其在效率上的改进,即微架构的改进对性能提升的作用开始变得越来越重要,实际上,处理器从单核走向多核,也是微架构上的革新,也是为了大幅提升处理器的效率。因此,在多核时代,评估PC处理器性能要兼顾微架构与时钟频率已经成为必然趋势。

软件优化情况不可忽视

PC处理器多核时代的来临,不但让消费者们在选购处理器及PC时不再以时钟频率作为衡量其性能的惟一标准,还在逐渐引导他们关注软件优化的问题,即操作系统和应用软件是否能够针对多核PC处理器进行调优,以充分发挥或发掘其性能优势,尤其是其出色的并行处理能力。

软件优化问题的出现,与PC处理器从单核过渡到多核的"突然性"不无关系。同早就导入对称多处理器技术、在软件上也偏重多线程化的服务器相比,而以往的PC,不论是家用产品还是商用产品,多是基于单颗处理器,其多数软件也一直缺乏对多核处理器并行处理能力的支持,虽然在基于多核处理器的平台上,它们的运行性能也能获得一定的提升,但它们还没有做到真正的物尽其用。

要让更多的PC软件针对全新的多核处理器平台进行优化,就需要它们的编程方式从传统的串行编程革新为并行编程,不过,如果没有合适的工具提供辅助,并行编程的难度和成本较高、开发效率也较低,这将使许多软件开发商不太愿意为针对多核处理器重新编译自己已经在市场上获得成功的软件,而这种多核PC应用软件的缺失对于多核处理器及相应PC产品的推广必然会有不利影响。

面对多核PC软件优化中存在的这些问题,英特尔的准备较为充分,它旗下的软件与解决方案事业部在最近两年陆续推出用于多核软件开发和优化的各种工具,包括相应的分析器、编译器和检查器,它们可以帮助软件开发商快速、低成本地实现其产品对于多核处理器的优化和支持,让多核处理器的性能优势能够真正落到实地。

据了解,英特尔推出的这些多核软件开发和调优工具,已经获得了众多软件开发商的青睐,就国内来说,许多商用及商用PC软件商都利用它们对自己的产品进行了优化。例如广州圆方计算机软件工程有限公司开发的个人家居室内设计软件通过优化,可以在基于酷睿2的PC上获得相当于奔腾4系统3.18倍的运行速度,东软的医疗影像系统利用英特尔相应工具优化后也能在基于英特尔酷睿2的PC的获得1.5倍的性能提升,而金山的3D网络游戏引擎在进行同样的优化后,不但运行速度在酷睿2 PC有了1.5倍的增长,其流畅性和交互性也得到了增强。

需要说明的是,由于英特尔的竞争对手还比较欠缺对于多核软件开发和调优的支持,这实际上也就意味着在多核时代选择基于英特尔处理器的PC,用户也就无须为多核应用软件的缺失而担忧。

对于广大消费者来说,要尽享多核PC的快感,仅仅以科学的性能评估方法对其处理器进行选型还是远远不够的。毕竟,处理器早已不是PC性能的瓶颈,I/O和存储子系统的性能表现才是影响PC整体性能优劣的关键环节,而它们也成为了业内厂商技术攻关的重点。值得一提的是,英特尔在这些领域的技术开发或推广上也起到了至关重要的作用–它不但在业界率先支持最新的内存技术,如过去的DDR2和即将普遍使用的DDR3内存,还领导了新一代PCI-E总线技术和USB等技术的研发和应用,此外,它与业内合作伙伴对于固态硬盘和混合硬盘技术的推动也加快了这两种高性能存储设备走入PC的步伐。