IDF2013:至强融核协处理器编译和调优工具
蓝调 发表于:13年04月11日 15:00 [原创] DOIT.com.cn
4月10日、11日,2013年英特尔信息技术峰会(IDF)在北京国家会议中心举行,本次IDF的主题为“未来,用‘芯’体验”,这意味着英特尔将继续以用户体验为核心,立足英特尔“芯”架构,扩大和深化产业合作,全面推动计算技术创新、芯片制造创新、应用体验创新、终端形态创新和云端智能创新。会上,来自全球各地的技术公司及数千名软硬件开发人员、技术管理人员、媒体和分析师共聚北京,一起体验最新技术进展及探讨未来计算的创新趋势。敬请关注DOIT全程直播报道!
在IDF2013的技术课程上,来自英特尔的高级技术咨询工程师段小平介绍了《英特尔至强融核协处理器编译、调试和调优的软件工具》。重点阐述了如何使用英特尔Composer XE进行offload编译,以及使用英特尔VTune Amplifier XE进行性能调优。英特尔至强融核协处理器和英特尔至强处理器具有相同的并行编程方法,编程模型如下:
【图】英特尔至强融核协处理器工具
英特尔至强融核协处理器平台提供了非常丰富的工具,包括源自先进编译器的业界领先性能、全面的函数库、并行编程模型和深入的分析工具。
【图】英特尔至强融核协处理器的工具
使用英特尔Composer XE进行offload编译
在可运行的主机代码中加入指示和新的关键字就可以使代码段运行在基于英特尔集成众核架构(英特尔MIC架构)的协处理器上,类似于使用OpenMP指令或者Click Plus关键字在串行代码中加入并行。
英特尔编译器同时为两种目标架构生成代码,无论系统是否拥有协处理器生成的二进制代码都可以运行,编译器通过加入代码来完成自动传输数据到协处理器,这意味着程序员不需要编写额外的代码。
offload编译器的数据传输时,主机CPU和基于英特尔集成众核架构的协处理器在硬件上不共享物理或虚拟内存。有两种可用的数据传输模型:显示拷贝和隐式拷贝。显示拷贝是指程序员在offload progma、directive中制定需要在主机和扩展卡之间拷贝的变量,隐式拷贝是指程序要标记出需要在主机和扩展卡之间共享的变量,于是相同的变量在主机和协处理器代码中都可以使用。
英特尔VTune Amplifier XE可以对应用进行分析,哪里在消耗时间?VTune Amplifier XE可以针对最长时间函数进行优化,查看调用栈,基于远吗查看时间开销。哪里在浪费时间?VTune Amplifier XE可以基于源码查看缓存缺失区,根据缓冲区缺失数据排序查看函数;等待过长时间?可以根据等待时间查看锁,等待期间使用红/绿显示CPU使用率。