当前位置:首页 > 读后感 > AMD,Radeon,HD,7970显卡深度评测|HD7970
 

AMD,Radeon,HD,7970显卡深度评测|HD7970

发布时间:2019-01-01 06:38:00 影响了:

  历史总是惊人地相似,AMD在推出首款Directx 11显卡以后,再次领先NV JDIA推出首款DjrectX 11.1显卡――Radeon HD 7970。这款产品对AMD来说具有划时代的意义,因为它和之前HD 20a0~HD 6000系列的任何一款显卡都不同,采用了革命性的GCN图形架构,给出了未来AMD显卡的发展方向。再加上它是第一款采用28nm工艺和支持PCI・E3.0的显卡,这使得它想不火都难。
  架构演变:HD 7970的革命之路
  从HD 2000系列开始,一直到HD 5000系列,AMD(ATI)显卡在架构上―直没有本质性的改变,始终采用的是VLIW5设计。新产品只是在上一代产品上小幅修改,并没有实质性的突破。到了Cayman核心的HD 6900系列,AMD意识到既有的架构在DirectX 11游戏和不少应用中出现了瓶颈,一味堆砌核心规格并不能显著提升显卡的性能。于是我们看到,HD 6900系列首次作出了尝试。它将VLIW 5改进到VLIW 4,去掉了一个较大的ALU,trans单元,实现了四个对等的流处理单元,计算效率得到了提升。这样的设计,曾被我们称之为“自R600以来最大的架构变革”。不过就在我们以为AMD将会遵循Cayman的“VLIW 4改革步伐”,对下一代产品进行改良和突破时,AMD却悄然推出了采用GCN(Graphics CoreNext)全新架构、代号为Tahiti核心设计的HD 7900系列显卡,实现了华丽的转身。
  从今天来看,AMD推出Cayman更像是一次在改革路上的投石问路之举,真正的革命则是在Tahiti上。Tahiti的革命之处在于将AMD长久以来坚持的VLIW架构彻底抛弃,为AMD打开了迈向未来通用计算的大门。从目前的计算趋势来看,通用计算在游戏中被大量使用后,将成为显卡性能的约束性因素。对通用计算支持不好的显卡,在遇到需要进行通用计算处理的任务时,如多光源等较复杂的计算时性能会明显下降。目前DirectX 11游戏越来越多,需要应用到通用计算的场合也越来越多,因此AMD选择在这个时候彻底改革架构是相当明智的。另一方面,GPU计算蓬勃发展的时代已经来临,GPU将在高性能计算领域发挥更重要的作用。而AMD过去的VLIW 5、VLIW 4架构的产品在这方面的表现并不好,远远不如NVIDIA。因此AMD欲搭上GPU计算这班高速列车的话,就势必对图形架构进行大刀阔斧的变革。
  GCN图形架构解读
  目前,采用Tahiti核心的主要有HD 7970和HD 7950。AMD首先发布的是HD 7970,定位于AMD单核心显卡中的旗舰产品,将接替之前的Radeon HD6970。它在国内的官方定价为4299元,内建2048个流处理算术逻辑单元、32个CU阵列、128个纹理单元以及32个ROP(光栅处理单元),最大浮点计算能力达到了3.79TFLOPs。该卡搭载3GB/GDDR5/384bit显存,核心频率和显存频率分别为925MHz和5500MHz。根据AMD给出的数据,HD 7970在PowerTune最大满载功耗下是250W,一般游戏满载功耗是210W,最低功耗只有3W,需要8pin+6pin的外接供电。
  
  HD 7950作为采用Tahiti核心的另一款产品,并没有随HD 7970一起发布。目前的消息是,AMD将在1月底或者2月初发布HD 7950。其流处理算数逻辑单元从2048个缩减到1792个,也就是屏蔽了4个CU单元。不过好在它的显存位宽依旧维持在384bit,显存容量保持在3GB不变(下游厂商也可以缩减到1.5GB)。接下来,就让我们从图形架构层面来看看Tahiti的革命性变化吧。
  Cu单元:基于SIMD阵列的MlMD架构
  AMD称GCN在架构设计上为“基于SIMD阵列的MIMD架构(GCN is a MIMD architecture witha SIMD array)”。从AMD的官方表态上我们可以看出,GCN本身并没有彻底地转向MIMD,而是保留了SIMD的特征。那么AMD是如何在保留SIMD特征的基础上采用MIMD架构的呢?
  为了解释这个问题,我们先抛开GCN架构的外围部分,从AMD宣称的CU单元,也就是“ComputeUnit”计算单元开始了解。在AMD公布的架构图中,CU单元被表示成32组黑色的、命名为GCN的块。这32组CU单元占据了架构图的绝大部分面积。从单个CU单元来看,每个CU单元中有64个ALU(算术逻辑)单元,Radeon HD 7970标称的2048个流处理算术逻辑单元就是这样来的(32×64=2048个)。也就是说,这2048+ALU~就是GCN架构的基础运算单元。
  再进一步分析下去,每一个CU单元中,最主要的是矢量计算单元,也就是vector Unit。这个单元中5F4个16路的SIMD计算子模块(每个SIMD模块拥有16个ALU,一共组成16路,可以处理同时并行的16个乘加指令计算),还配备Y4个64KB的矢量寄存器(每个SIMD计算子模块各1个)。这4个16路的SIMD计算子模块是CU的数据执行基础。从单个CU的角度来看,1个CU在每个时钟周期内可以执行4个不同的16路矢量线程,可以称为MIMD(多指令多数据流)。而这4个矢量线程在执行时每个线程内都使用的是16路的SIMD计算子模块,因此GCN在最底层上采用了单指令多数据流的设计方式。
  
  这样一来,我们就不难理解AMD为什么称自己的产品设计为“基于SIMD阵列的MIMD架构”了。AMD依旧使用了SIMD阵列作为数据执行基础,但在更高一级的层面上采用了四路SIMD单元并行的设计方案。在实际数据操作中,AMD设计的线程调度器会每次派发64粒度的线程给CU单元,CU单元将其直接分配给由4个16路SIMD组成的计算单元计算,在最理想的情况下一个CU单元一个周期就可以执行64粒度的线程操作。
  相比上一代Cayman采用的VLIW 4架构,虽然它看起来都是每个周期可以执行四次操作,但实际上Cayman这四次操作是有一定的“关联度”的。因为这四次操作必须来自一条指令。如果来的指令只需要3个或者2个ALU计算,那么剩余的ALU只有闲置。但是在GCN这里,如果来的指令需要3个ALU计算,由于底层的四个16路的SIMD单元没有强制的捆绑关系,因此可以自由处理,理论效率接近100%。举个简单例子来说,如果有2个指令,分别同时需要2个ALU计算,在Cayman的单个VLIW 4单元执行时,这2个指令必须分两次执行。但是在GCN的CU上,可以一次执行来自两个指令的4q"ALU操作,因此效率大大提f+o我们举出这个孤立的例子,仅仅为了说明GCN的数据 执行效率的变化,在实际处理中,AMD会采用各种手段来尽量优化分配指令,保证高效率――这并不是本文讨论的重点,我们只需要看到GCN在效率上相对前代产品的超高表现即可。总体而言,GCN与VLIW4(VLIW5)有一定关联,都采用并行运行方式,但两者在执行方式上却截然不同。采用VLIW设计的产品,使用的是提取指令级(ILP)的并行方式,GCN则采用线程级并行(TLP)方式,省略了指令打包、派送、解包的过程。
  说完了最重要的计算单元,CU中还有一些其它部分值得我们注意。比如除了矢量计算单元外,每个CU中还有一个用于执行整数、媒体指令和浮点原子操作的标量单元。这个标量单元拥N4KB的标量寄存器。此外,还有与数据分支指令有关的分支和信息单元、程序调度管理单元、纹理拾取模块、纹理滤波单元、共享的64KB只读本地数据缓存和16KB可读写L1数据缓存。这些部分在GCN架构的合理调配下,组成了精巧而灵活的CU单元。
  
  缓存:更炅活有效的缓存设计
  在之前的Fermi上,我们看到了NVIDIA设计的极为优秀、层级鲜明、灵活可读取的缓存设计,这对通用计算来说帮助相当明显。不过当时AMD的Cayman采用比较保守的vLIW 4架构,缓存设计也基本没有太多亮点。这也是Cayman通用计算能力较差的原因之一。
  在新的Tahiti上,AMD彻底改进了GPU的缓存方案,采用了类似Fermi的多级高速缓存搭配。在上一部分对CU的介绍中,我们看到了CU设计了缓存单元。实际上CU中的缓存仅仅是整个GCN架构缓存设计的一部分。除了每个CU中的标量单元和矢量单元都有自己的独立缓存外,每4个CU单元还可以共享16KB的矢量缓存以及32KB的指令缓存。另外每个CU还拥有16KB的L1可读写缓存,所有LI缓存都可以通过全局数据存储进行共享,这样32个CU―共拥有512KB的L1缓存。
  除了L1缓存外,GCN还设计了可读写的L2缓存。L2缓存直接连接了显存控制器和Ll缓存。每个显存控制器通道上连接的L2缓存都通过64bit62宽的总线和L1相连接,每个通道NL2缓存的容量为128KB。目前GCN架构NRadeon HD 7970拥有6个64bit的显存控制器,组成了384bit的显存带宽,因此L2缓存总量为768KB。
  Tahiti如此设计L2缓存还带来了一个优势,那就是它的缓存可以与CPU内存数据同步,这样在通用计算中能大幅度提高GPU和CPU的数据交换能力。除此之外,Tahiti也能够支持X86虚拟内存功能。这个功能的主要作用是将GPU的显存映射为CPU的内存,CPU可以直接读取GPU显存中的数据,速度要比读取调用内存、硬盘中的数据速度快很多,能大幅度降低延迟。
  纵观GCN的缓存设计,Tahiti形成了自己多层级的、可读写的缓存存取方案,不但大大改善了GCN架构的通用计算效能,也顺带提升了GCN架构在多种应用环境下的实际表现,让存储成为计算瓶颈的可能性大大降低。
  曲面细分、ROP等功能:继续增强
  在基本了解TAMD是如何设计GCN的核心部分、CU单元以及缓存设计后,我们从宏观角度来观察这颗芯片的其他方面的设计情况。
  首先从架构顶端来看,GCN虽然和之前的Cayman比较类似,但加入了两个被称作ACE的引擎。ACE全称是Asynchronous Compute Engine,异步计算引擎。它的作用是调配管理所有的线程和任务队列,根据任务优先级优化和排序,并最终将这些任务发配给CU单元进行计算。这大大增强了Tahiti对任务的优化排序能力,更有效地降低了计算中的无谓浪费和等待时间,同时也提升了缓存的使用效率。从数据处理的本质来看,图形计算依旧是顺序执行,GPU需要按照处理顺序一步一步地执行操作。ACE单元虽然不能像X86的CPU那样做到乱序执行,但至少能在目前有限的操作空间内大幅度提升GPU的效率。从互联角度来看,ACE联系了几乎所有的全局缓存、几何引擎以及指令处理单元。这也说明了其重要性。
  AMD显卡的曲面细分能力一直为人所诟病,为此在AMD在Cayman上设计了双几何处理引擎,以加强曲面细分的性能。在Tahiti上,AMD继续沿用了这种设计,并宣称该双几何处理引擎从Cayman的第八代进化到第九代。根据AMD提供的官方数据来看,新的几何处理器引擎在加入TACE的控制、提高了缓存设计以及强化了相关单元的情况下,相比Cayman至少可以达到1.8倍左右的性能提升(在5级的曲面细分下),最多可以达到4倍的提升(在14级曲面细分系数下)。在更高的曲面细分系数如20级以后,至少也有3.5倍的性能提升。
  接下来是Tahiti的ROP和显存控制器设计。以Radeon HD 7970为例,这款显卡拥有32个ROP单元,每周期可以执行32个色彩处理以及128个z/Stencil处理。从参数来看,虽然ROP数量相比上代Cayman的产品没有提升,但和ROP性能有关联的显存带宽得到了提升――这是AMD近年来首次采用384bit显存位宽,相比上代256bit提升了约50%。再加上AMD一贯的高频率显存,采用GCN架构的Radeon HD 7970的显存带宽高达264GB/s。更高的显存带宽,在对显存带宽渴求度比较高的应用如抗锯齿、高分辨率等计算中,会有比较明显的性能提升。
  AMD的新功能:全面看HD 7970
  在看完有关GCN架构的相关知识后,我们接下来将展示GCN架构目前唯一一款产品――HD 7970的一些新技术和新功能。
  28nm加持:晶体管数量最多的产品
  AMD在工艺上的把握相比NVIDIAN更为激进一些。基本上近年来的新工艺都是AMD抢先使用并推出成品上市,例如最早采用40nm工艺的HD 4770。在28rim上,如果单纯从发布时间看,AMD这次至少领先NVIDIA一个季度左右。Radeon HD 7970~AMD首先尝试了TSMC~28nm HP212艺的代表产品。
  TSMC在28nm工艺上首次采用了HKMG(高K金属栅极)和Gate-last两种技术。首先,高K金属栅极之前在英特尔的45nm产品上就开始采用。其主要特点是采用高介电质材料,提高栅极介电常数,可以更好地分隔栅极和晶体管的其他部分,和大幅度降低漏电电流。TSMC是首次使用HKMG材料于晶体管制造中,并且是更为精细的28nm产品,难度可想而知。其次,Gate-last技术和之前技术的不同在于,需要进行高温退火等多个步骤,最后才形成金属栅极。这种新技术可以将晶体管的门限电压控制得相当出色,在保持晶体管密度不变外,还能够带来额外的硅应变力。不过这些新技术也有一定问题。主要是新工艺生产的晶体管的产品结构很难实现平整化,必须要在设计端就开 始进行调整和改动。在这一点上,AMD肯定没有少花功夫,在产品设计之初就应该和TSMC进行了深入的合作,并且最终将这些合作结果反映在实际产品中。目前TSMC的28nm产品分为四种,Tahiti采用的是代号为28HP的High-K金属栅极(HKMG)的高性能工艺。该工艺用于制造高性能处理器和GPU产品,拥有最好的每瓦特性能,频率也可以得到2GHz以上,NVID[A也有可能选择这个工艺制造自己的下一代GPU。
  从最终产品来看,HD 7970在拥有43亿晶体管的情况下,核心面积比40ninthD 6970反而更小,仅有365平方毫米(HD 6970是389平方毫米)。这样计算下来,晶体管增加60%,面积缩小了6%。可见TSMC的新工艺相比上代产品有大幅度进步,几乎拥有40nm工艺2倍的晶体管密度。另外,HD 7970不但核心面积更小,功耗更低,超频能力也相当强悍。默认电压下突破1GHz比较轻松,而更高的频率如1.2GHz,1.3GHz也不少见。联想到AMD在HD 7970的PCB上减省了―相供电和GPU核心如此强大的超频潜力,我们有理由相信AMD在未来将推出更高频版本的产品来应对NVIDIA的竞争。
  不过新工艺早期毕竟存在一些风险,AMD早在12月底就在国外纸面发布了HD 7970,国内的上市日期则一拖再拖到2011年1月9号,才正式发布和上市。根据一些渠道消息,第一批销售的Radeon HD 7970的数量并不多,可能还存在TSMC良率较低、产能不足的影响在内。
  加了0.1:首款支持DirectX 11.1的显卡
  这次除了架构上的变化外,HD 7970还能够支持最新的DirectX 11.1。目前来看,DirectX 11.1暂时没有什么用处,因为它要等到Windows 8发布的时候才会正式面世:不过AMD自从在Radeon X800系列的DirectX支持上吃了亏以后,从此紧跟微软步伐,不但首发了DirectX 11产品,这次也特别首发了DirectX11.1的产品,足以看出AMD对DirectX的重视程度。
  一般来说,DirectX产品中带0.1的版本改进都颇小,基本上是增添一些附加功能。在之前的DireetX10到DirectX 10:1上,增加了一些对光影处理的内容,而采用它的游戏也屈指可数。这次在DirectX11.1上,情况也差不多。
  DirectX 11.1最重要的改进在于3D立体技术被写入D3D API中。这样一来,游戏厂商开发支持3D立体视觉的游戏就更为简单。目前市场上比较流行的3D立体效果,除了NVIDIA的3D Vision外,还有_AMD和厂商联合推广的HD3D,这些技术本身都带有一定的厂商倾向性。但DirectX 11.1加入了对3D立体技术的支持,使得业界有了一个统一标准。不过DirectX 11.1对3D立体技术的支持并非是封闭和排他的,DirectX11.1不排斥第三方3D立体方案,厂商可以自由选择。其他方面,DirectX 11.1比较重要改进的有目标独立光栅化等功能,不过对普通用户来说暂时看不出有太多视觉上的改变,还有如FP64双精度浮点支持等对普通用户来说就更为遥远了。
  在更底层方面,Di rectX 11.1带来了新的Windows显示驱动模型WDDM 1.2,以及新的DirectX图形基础架构DXGI 1.2。这些新技术和新架构主要在于改善GPU本身的自由度和控制能力。相信很多用户,特别是使用AMD显卡的用户都遇到过这种情况:在GPU失去响应的时候,系统经常会重置整个GPU,带来的是屏幕瞬间黑屏或者短暂地失去响应。虽然很少丢失数据,但也给用户带来了诸多不便。在WDDM 1.2和Windows 8的共同作用下,GPU被分成很多个区域,这些区域在遇到问题的时候会只重启区域本身,而不影响别的区域。这样一来对用户的影响就小很多,甚至完全没有任何感觉就完成了对出现错误的GPU的重置行为。
  总的来说,DirectX 11.1的改进很小,本身没有太多在图形优化上的重头内容,只能算是一次功能的增加,因此玩家目前完全不需要在意DirectX 11.1的支持问题。
  3.0时代:首款支持PCI-E 3.0的显卡
  PCI-E总线也是发展速度相当快的技术标准。从早期的PCI-E 1.0每通道单向250MB/s的第一代产品,到现在PCI-E 3.0每通道单向速度1GB/s。PCI-E用每代翻番的严格要求完成了速度飞跃,Radeon HD 7970就是首款采用了PCI-E 3.0总线的显卡产品。
  从技术角度来看,PCI-E 3.0本身除了速度更快、带宽更高外,在功耗、数据传输等方面都作出了相应的改进。对显卡来说,PCI-E 3.0除了提供给单卡更充足的数据带宽外,对多卡系统比如SLI和CrossFireX等也有相当强的实际意义。它大幅降低了数据传输的性能瓶颈,能够支持更多显卡互联,发展前景相当广阔。但就目前来看,PCI-E带宽还没有成为阻碍显卡性能发挥的瓶颈,暂时来说PCI-E 3.0的意义还不大,只有等到未来进一步有新显卡诞生后,PCI-E 3.0高带宽的优势才能逐渐体现出来。
  新架构性能如何?HD 7970
  性能测试
  究竟采用号称革命性架构的HD 7970的性能如何?在本章节中,我们将为你呈现HD 7970的各方面性能表现。接下来,我们将组建以英特尔Core i73960X处理器为主的平台,对HD 7970及相关显卡进行全方面的测试。
  我们将选取3DMark 11、3DMark Vantage这两个权威的显卡基准测试软件,对参测显卡的理论基准性能进行测试。同时,会用Unigine Heaven Benchmark2.5对参测显卡的理论曲面细分性能进行考量,来看看对曲面细分性能进行优化过的HD 7970会有怎样的表现。在游戏选择方面,我们精选了8款有代表性的游戏。有发布不久的《上古卷轴5:天际》,有代表了最新的DirectX 11技术的《失落的星球2》、《尘埃3》,也有人气游戏大作《使命召唤:现代战争3》,更有号称“显卡杀手”称号的《地铁2033》、《孤岛危机2》。为了考察HD 7970在通用计算方面的改进,我们选取了GPCBenchmarkoCL和ComputeMark这两款软件对其进行测试。
  HD 7970 VS.HD 6970:压倒性优势
  从VLIW 5到VLIW 4,再到GCN,HD 7970完成了华丽的转身。新架构使得它完胜上一代旗舰产品HD 6970,整体领先幅度达到了30%以上。例如在《尘埃3》、《地铁2033》(均运行在1920×1080、最高画质)的测试中,HD 7970的领先幅度分别达到了 33%和48%。甚至它在一些项目的测试中,领先幅度高达50%以上。例如在3DMark Vantage Extreme和《失落的星球2》的测试中,HD 7970的领先幅度分别为53%和67%。HD 7970领先HD 6970并不意外,HD 7970无论是流处理器算术逻辑单元、核心频率、显存带宽、显存容量等主要影响显卡游戏性能的规格参数都远远领先HD 6970。
  HD 7970、VS.GTX 580:优势明显
  HD 7970借助新架构所得的优势不仅仅体现在与HD 6970的对比中;它还全面领先了曾经的单核心旗舰王者GTX 580,领先幅度在15%左右,优势比较明显。例如在《尘埃3》、《战地3》、《失落的星球2》、《地铁2033》中,HD 7970的领先幅度分别达到了12%、15%、17%、29%。特别是在《失落的星球2》、《地铁2033》这两款“The Way It’s Meant To BeP1ayed”游戏中,HD 7970一改以往AMD显卡不给力的印象,性能大幅领先GTX 580。
  出现这样的结果,除了HD 7970采用全新的架构、采用线程级并行(TLP)方式,效率更高,以及加入了丰富的缓存设计之外,还和其采用384bit显存位宽有关。近年来,AMD显卡的顶级显卡无一例外都采用的是256bit显存位宽,导致其显存带宽不敌同档次的NVIDIA显卡(采用384bit显存带宽)。以同为单核心旗舰的HD 6970和GTX 580为例,前者虽然显存频率高达5500MHz,但受限于256bit显存位宽,显存带宽只有176GB/s。而GTX 580的显存频率虽然只有4008MHz,但得益于384bit显存位宽,使得其具备了192,4GB/s的显存带宽。而现在HD 7970采用了384bit位宽,显存带宽达到了264GB/s,远远领先GTX 580,整体性能更强也就在情理之中了。
  另外,我们注意到HD 7970在《地铁2033》的领先幅度达到了29%,超出了HD 7970领先GTX 580的平均领先幅度。这是因为《地铁2033》是一款以“高纹理”设计见长的游戏,而HD 7970在HD 6970的基础上增加了32个纹理单元,达到了128个纹理单元,纹理单元数量刚好是GTX 580的一倍。因此,HD 7970能够在这款号称“显卡杀手”的游戏中获得更明显的优势。
  HD 7970 VS。HD 6990:性能差距不算大
  GCN新架构的采用,使得HD 7970具备了和上一代AMD双核心旗舰HD 6990比拼的能力。整体来看,在总共11个3D性能测试项目中,HD 7970在《失落的星球2》、《上古卷轴5:天际》这两个项目中领先HD6990,领先幅度在10%左右;在《使命召唤:现代战争3》、《孤岛危机2》这两个项目中互有伯仲;在3DMarkVantage Extreme、《地铁2033》等余下的7个测试项目中落后HD 6990,落后幅度在18%左右。
  虽然我们对采用新架构的HD 7970充满了期待,不过由于规格上的差异较大,其性能仍然不敌双核心的HD 6990。但作为一款单核心的产品,HD 7970已经初步具备了挑战HD 6990的实力,让人不容小觑。
  HD 7950性能预测:落后HD 797010%~15%?
  虽然HD 7950尚未发布,但这并不影响我们对其进行性能预测。HD 7950和HD 7970相比,主要是流处理算术逻辑单元数量缩减到1792个,被屏蔽T4个CU单元,显存位宽和显存容量保持不变,分别为384bit和3GB。
  考虑到HD 7950和HD 7970的规格差异不算大,主要是流处理算术逻辑单元数量被缩减了。结合HD6970和HD 6950之间的性能差距,以及综合我们过去对AMD顶级单核心显卡和次一级单核心显卡的评测经验,我们大胆预测HD 7950的综合游戏性能将落后HD 7970 10%~15%。
  另一方面,结合本次11个3D游戏测试项目来看,HD 7970的性能领先HD 6950 50%左右。再加上上文我们对“HD 7950的综合游戏性能将落后HD 797010%~15%”的预判,我们推测HD 7950的综合游戏性能将领先HD 6950 35%~40%。
  HD 7970 Cross FireX:效率大爆发
  两块HD 7970组成的CrossFireX系统的效率和性能,将是HD 7970的又一个看点。从测试结果来看,我们可以用“惊艳”来形容HD 7970 CrossFireX系统的效率。众所周知,借助Direetx 11的统一渲染架构和AMD自身的优化,AMD HD 5000、HD 6000系列显卡的Cl-ossFireX效率节节攀高,HD 6850(6870)CrossFireX就是典型代表。不过这主要是针对中高端产品而言,而由于种种原因顶级的单核心显卡组建的CrossFireX效率反而没有那么明显。
  而HD 7970在采用新的GCN架构、使用线程级并行(TLP)方式以后,可以一次执行来自两个指令的4个ALU操作。而之前采用VLIW 4、VLIW 5架构的AMD显卡则需要分两次来执行上述操作。显然,HD 7970的执行效率得到了大幅提升,这种提升显著反映在CrossFireX的执行效率上。可以看到,HD7970 CrossFireX在绝大部分测试项目中,相对于HD7970都保持了90%,甚至100%的性能提升――这样超高的执行效率对单核心的旗舰显卡来说是非常难得的。例如在3DMark 11 Extreme、Unigine HeavenBenchmark 2.5、《尘埃3》、《战地3》、《异形大战铁血战士》、《地铁2033》上,HD 7970 CrOSSFireX的提升效率都非常接近100%或者已经达到了100%。
  HD 7970 3Way CrossFireX、4WayCrossFimx:3DMark 11 Extreme分数破万
  对那些发烧玩家和以冲击记录为目的的玩家来说,他们更关心HD 7970 3Way CrossFireX、4WayCrossFireX的性能表现。测试结果表明,HD 7970多路CrossFireX系统的确可以大幅提升3DMark等基准测试软件的性能。在3DMark 11 Extreme测试中,HD 7970 3Way CrossFireX较HD 7970、HD 7970 CrossFireX分别提升了183%和45%;HD 7970 4Way CrossFireX较HD 7970、HD 7970CrossFireX、HD 7970 3Way CrossFireX分别提升了265%、87%、29%。值得一提的是,HD 79704way CrossFireX取得了X10037的高分数。同样 地,多路CrossFireX在Unigine Heaven Benchmark2.5测试中亦有上佳的表现。
  不过在实际游戏中,多路CrossFjreX,的表现相对就比较差了口这其中,HD 7970 3WayCrOSSFireX的游戏表现稍好,例如在《尘埃3》测试中,相对HD 7970、HD 7970 CrossFireX,HD 7970 3way CrOSSFirex的性能分别提升了121%、20%。而HD 79704way CrossFireX的表现则比较糟糕了,在总共5个游戏测试项目中,除了《异形大战铁血战士》以外,在另外4个测试项目中性能不但没有提升,反而有所下降。这个测试成绩也和过去我们对AMD显卡的多路CrossFireX系统的测试结果基本吻合。这再次说明,如果单纯从提升游戏性能的角度出发,最多只需要组建3Way CrossFireX,4WaV CrossFireX已经没有实际意义了。4Way CrossFireX的意义在于可以显著提升3DMark的分数,帮助玩家冲击记录。
  在测试中,我们注意到对AN进行了特别优化的《异形大战铁血战士》,对多路CrossFireX支持得很好。以HD 7970 3Way CrossFireX为例,它的性能分别领先HD 7970、HD 7970 CrossFirex 198%和49%。即使是HD 7970 4Way CrossFireX,相对HD7970 3Way CrossFireX亦有22%的性能提升,相对HD 7970则有高达264%的性能提升。不难看出,多路HD 7970系统在该游戏的提升幅度基本和3DMark等基准测试软件的结果相符合。
  另一方面,多路CrossFireX在测试中也遇到了一些问题。例如HD 7970 4Way CrossFireX在运行《尘埃3》时,不断出现死机问题,无法获得测试结果;同样的情况也出现在其他游戏中,只是在其他游戏中,我们可以通过重新启动游戏、反复测试等手段来获得测试结果,而《尘埃3》却无法做到;总体而言,我们建议那些打算组建HD 7970 CrossFireX的用户,如果你不是“跑分党”的话,从功耗、效率和价格综合考虑,组建HD 7970 CrossFireX是最合适的,HD 7970 3WayCrossFireX、4Way CrossFireX意义不大。
  HD 7970(CrossFireX)三屏表现:基本令人满意
  Eyefinity作为AMD独有的多屏显示技术,在游戏、金融等许多领域有广泛的应用前景,一些游戏发烧玩家以Eyefinity技术为基础,组建三屏系统,以获得更高的分辨率和更好的游戏体验。因此我们特意组建了三屏系统,来看看HD 7970能否具备在5760×1080超高分辨率下流畅运行游戏的实力。从4个游戏和一个基准测试软件的测试结果来看,HD 7970的性能损失比较严重,普遍在50%以上。例如在《尘埃3》、《孤岛危机2》中,三屏下的HD 7970的性能较单卡性能分别下降了53%和60%。好在HD 7970的性能足够出色,除了《孤岛危机2》以外,它在余下4个游戏中都保持了40fps的帧率(包括在抗锯齿模式下),基本满足了流畅运行游戏的需求。
  此外我们还组建了HD 7970 CrossFireX系统,在三屏下进行了游戏测试。HD 7970 CrossFireX在三屏下依旧延续了超高的效率,相比HD 7970单卡在三屏下的性能有近lOO%的性能提升,流畅运行游戏没有任何问题。不过由于驱动优化的问题,在使用Cross FireX系统运行在三屏下时,不时会出现游戏无故退出,或者需要多次启动游戏才能运行的问题。
  HD 7970:通用计算能力攀新高
  HD 7970除了大幅提升游戏性能之外,其通用计算方面的改进尤其令人关注。究竟在使用了新架构、改进了执行效率,和增加了丰富的缓存设计以后,它的通用计算性能能否有大幅提升呢?我们使用GPCBenchmarkOCL和ComputeMark这两款软件对其进行测试。GPCBenchmarkoCL是一款基于openCL的测试软件,可以全面测试和评估GPU在通用计算方面的性能以及底层的性能。例如可以测试出GPU的峰值计算性能,GPU在各种实用算法中的实际性能。ComputeMark在技术上基于由Jan Vlietinck开发的F1uid3D Demo,号称可以“百分之百测试DXllCompute Shader的基准测试工具”。它在一般情况下能够调动99%的GPU资源,可以深度测试HD 7970的通用计算性能。
  两款测试软件的结果都表达出一个明确的信号:HD 7970在新架构和丰富的缓存设计的帮助下,通用计算性能提升到一个令人吃惊的地步。从GPCBenchmarkOCL的测试来看,HD 7970的总分分别领先HD 6970、GTX 580高达176%和58%。例如在全局存储器、局部存储器的子项测试中,HD7970都有出色的表现。特别是局部存储器的子项测试,HD 7970的多层缓存架构体系使得它在该项测试中获益良多,性能领先HD 6970高达524%。这是因为HD 6970仍然采用的是VLIW 4架构,没有引入缓存设计,测试大幅落后也就在情理之中了。而和同样具备丰富的缓存设计的GTX 580相比,HD 7970也不逞多让,也获得了51%的领先优势,从侧面反映出HD 7970高效的缓存架构设计。
  GTX 580唯一占优势的是双精度的实际计算性能。首先是双精度浮点运算子项,HD 7970领先GTX580达310%,反映出HD 7970优秀的双精度浮点运算性能。但在常用数学方法(双精度)子项上,GTX 580却反而领先HD 7970 20%。这说明虽然GTX 580的双精度浮点运算,性能不如HD 7970,但在一些常见应用方面的双精度性能却领先HD 7970。双精度性能主要和高性能计算有关,这个测试结果也和GTx 580在高性能计算领域的地位相吻合。
  在ComputeMark测试方面,HD 7970继续着良好的势头,分别领先HD 6970、GTX 580达109%和80%。这说明,HD 7970的Compute Shader性能更强,在加速图形后期处理、随机访问等方面的效率更高。
  HD 7970的曲面计算能力:比GTX 580更强
  坦白说,HD 7970相对于HD 6970在有关曲面细分性能的硬件规格上并没有作明显的改进和提升,但AMD却宣称HD 7970的曲面细分性能有了长足的进步。我们利用Unigine Heaven Benchmark 2.5对HD7970进行测试后发现,它的曲面细分性能很强,性能分别领先HD 6970、GTX 580达78%和19%,一改HD 5000、HD 6000系列显卡曲面细分性能低下的局面。
  HD 7970在没有明显提升有关曲面细分性能的硬件规格的情况下,仍然大幅提升了其在UnigineHeaven Benchmark 2.5下的性能,主要原因有两个。一则是,HD 7970的硬件规格得到了长足提升,综合3D性能明显得以加强(Unigine Heaven Benchmark2.5除了侧重曲面细分的测试以外,还有大量其他场景,可以综合测试显卡的3D性能);二则是,HD 7970使用了全新的GCN架构,优化了执行指令的方式,整体效率更高,从而提升了它的曲面细分性能。
  HD 7970的超频表现:上1GHz无压力
  28nm工艺究竟会给HD 7970带来怎样的超频表现呢?我们利用催化剂控制中心,轻松将HD 7970超频至1125MHz、6300MHz,3DMark 11 Exreme模式的性能提升了18%。而且此时其GPU满载温度也只有80℃,PC满载功耗为393W。
  HD 7970的功耗、温度表现:控制得不错
  采用28nm工艺生产的HD 7970的PC待机功耗为为1.17W,是参测显卡中表现最好的。在PC满载功耗方面(使用FurMark进行拷机),HD 7970所在的平台达到T422w,比HD 6970、GTX 580所在的平台分别高了36w和8Wo虽然HD 7970采用的是28nm工艺,但考虑到其硬件规格参数有大幅的提升,而且还将PC满载功耗基本控制在和上一代同档次显卡的水平,我们认为它的功耗控制还是基本令人满意的。
  温度表现方面,HD 7970借助28nm工艺将待机温度和满载温度分别控制在32℃和79℃上,这个测试结果在同档次显卡中属于很优秀的表现。相对而言,由HD 7970组成的CrossFireX系统的PC功耗就比较高了。以HD 7970 CrossFireX为例,它的PC满载系统功耗达到了690W。好在两颗Tahiti核心的温度并不高,分别为32X2和86℃,在可以接受的范围内。
  不过HD 7970 3Way CrossFi reX、4Way CrossFireX的表现就没有那么好了,它们的PC满载功耗分别达到了988W和1243W。HD 7970 4Way CrossFireX在满载状态下,四颗核心的满载温度更是分别达到了79℃、88℃、87℃、92℃。
  HD 7970:自我超越,全面胜利
  如果非要用一个字来形容HD 7970的话,“新”是非常合适的:全新的图形架构、全新的游戏性能、全新的曲面细分性能、全新的功耗表现、全新的交火效率、全新的生产工艺。
  没错,HD 7970是一款从里到外都是全新的产品,实现了自我超越,是一场全面的胜利。AMD在认识到来来图形发展的趋势和自身的不足后,终于抛弃了沿用多年的VLIW架构。而事实证明,这是卓有成效的。无论是图形计算还是通用计算,它都达到T--个新的高度,单卡卡皇的地位毋庸置疑。特别是通用计算,它设计了丰富的缓存结构,无疑更适合进行这方面的工作,具备了进军高性能计算领域的潜力。虽然该显卡在硬件层面上已经做好了拥抱通用计算的准备,并在一些理论测试软件上获得了不俗的成绩,但要获得市场和行业用户的认可还有一个较长的过程。友商NVIDIA之所以在高性能计算市场上节节开花,除了借助专为通用计算进行优化的Fermi以外(硬件层面),还拥有丰富的、基于CUDA开发的一整套软件。而AMD目前在这方面还无法和NVIDIA相抗衡。另外,据我们所知在整个HD 7000系列产品中,暂时只有高端显卡采用了全新的GCN架构,中低端产品依旧会坚持VLIW 4甚至VLIW 5的架构,更专注于游戏性能。这和NVIDIA在中低端产品上剔除有关高性能计算单元、更注重游戏性能的做法有异曲同工之处。
  而HD 7950虽然还没有发布。但据悉,AMD将从它发布伊始就开放非公版授权,届时会有大量非公版涌现。当然,真正的高手是无惧挑战的。HD 7970马上就将遇到挑战者――代号为“开普勒”的NVIDIA下一代产品即将发布。届时又将是一场激动人心的王者之争,预知胜负,敬请关注本刊后续报道。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3