|
NVIDIA 1TFLOPS GPU「GeForce GTX 280」终登场
作者:後藤弘茂[日] 译:OCP-贵族蓝翼
注意:本文是PC Watch网站专栏作家後藤弘茂後藤弘茂所作「NVIDIAの1TFLOPS GPU「GeForce GTX 280」がついに登場」的翻译作品,仅作交流只用,版权©均归属原作者与PCWATCH。
●GPU通用计算用Tesla T10P已达1TFLOPS浮点能力
NVIDIA新的高端GPU「GeForce GTX 200(GT200)」系列已经发布。GT200体系的最大特征是达到了1TFLOPS的单精度浮点运算能力。其中「GeForce GTX 280」显卡已完全达到1TFLOPS,运行在1.5GHz使用相同GPU晶片并针对通用数据处理的产品「Tesla T10P」处理器浮点能力也超过1TFLOPS,1U大小的空间即可实现4TFLOPS浮点能力。可编程GPU终于进入TFLOPS级超级计算机的行列。
![]() |
|
GT200概要 |
![]() |
|
新旧製品比較 |
![]() |
|
GeForce GTX 260 概要 |
GT200继承并发展了G8x/9x(GeForce 8/9)体系,G80的性能与功能扩张版即是GT200。强大的处理能力与弹性的规格(贵族案:此处亦可做灵活的产能与市场运作理解)不仅在图形市场取得成功,也掀起了通用处理的热潮。NVIDIA通过性能加倍、功能强化的GT200来进行流运算。GT200正是NVIDIA「以显卡为基础,向通用处理的世界延伸」战略第二阶段的担当着。
NVIDIA以G8X/9X的通用处理为目的导入了可编译程序模块:「CUDA(compute unified device architecture)」。这次为匹配GT200责开发了CUDA2.0。CUDA2.0正在进行应用多核CPU—CUDA模块 (通过编译生成CPU指令)的战略研发,现在NVIDIA正在同时进行GPU硬件与CUDA的研发。
![]() |
|
CUDA 2.0路线图 |
G8x体系架构的代号是「Tesla」,那个代号也用做GPU通用处理器的品牌。GT200的体系架构以「GeForce/Tesla 2nd Generation」命名,这是在G8X/9X、GT1XX时没有见过的代号。
G8X体系的代号是NVIDIA在杂志「IEEE Micro」发表的论文「NVIDIA Tesla: A Unified Graphics and Computing Architecture」(IEEE Micro March April 2008(Vol. 28, No. 2))中明确的。然后4月16~18日横浜开幕的「CoolChips XI」会议中、进行[CPU的通用运算]演讲的Kevin Skadron(University of Virginia Dept. of Computer Science LAVA Lab/NVIDIA Research)也将G8x体系称为Tesla。
●流处理器由原来的128个增加到240个
相对500GFLOPS级的的G80/92(GeForce 8800/9800),GT200处理能力提升至两倍,内部架构也有所更新。流处理器「SP(Streaming Processor)」数比原来的128个增加到1.875倍。整体的比例变为「240:80:32」(SP:TEX:ROP),上代旗舰GeForce 8800(G80)则是「128:64:24」。
![]() |
|
GT200与G80的比較 |
![]() |
|
搭载240个SP |
新一代旗舰显卡GeForce GTX 280的流处理器频率位1.297GHz、1U服务器Tesla S1070则是1.5GHz、与以前没有大的变化。但是,这次流处理器核心采用了特殊的高级逻辑电路设计(以前是ASIC逻辑电路),据说还有频率提升的空间。
GT200流处理器内的寄存器数量倍増、高速读写杂乱数据、为GPU处理能力加强对其功能进行了完善。因此GT200有了两倍提升、流处理器(贵族案:直译为Shader引擎)大增使新的3D仙卡性能大幅度提升。
此外、NVIDIA从GT200开始支持双精度(64-bit)浮点运算。过去显卡曾被认为不需要做单精度(32-bit)之外的浮点运算故他们都不支持双精度浮点。GT200共搭载30个双精度FPU、因双精度的必要性、之前用不到GPU的软件也可以使用GPU来做计算。NVIDIA的相关人员曾说过「双精度是使用GPU做通用计算客人的最后要求,有了它总算能很好的做check mark了。」
NVIDIA通过运算能力强大的G80/92体系与可编程的CUDA模块成功进入了高性能计算领域(HPC)。对于强调并行度的GPU要成功实现通用计算双精度是必不可少因素的,实际上曾有Tesla用户报告自支持双精度到现在不能支持的移植软件的一部分已经可用了。
但是,Tesla T10P的双精度浮点能力是90GFLOPS、仅有单精度浮点能力的12分之1。GPU依旧无法从单精度变成高精度处理器。能够发挥其性能的依旧是比起双精度来说单精度用的更多的精度混合软件。
●Geometry Shader能力强化
就显卡运算来讲、以往相对AMD产品较弱的Geometry Shader性能大幅改善。实用性有所提升。而且、「ROP (Raster Operation Processor)」的alpha混合处理性能也有所提升。整体来看、显卡的改良并不多、流处理器则有明显扩充。DirectX 10时代偏重流处理运算,流处理器的改进不再与强调浮点数为主、我想这样显卡性能才会有所提升。
相对流处理器规模的扩大,内存控制器的扩大要平和一些。MC接口位宽从G80的384 bits变为 512 bits并同时支持memory type、GDDR3/DDR2。因GDDR3已达2214Mt/sec高速,内存带宽方面GeForce GTX 280达到141.7GB/sec,比GeForce 8800 GTX的86.4GB/sec(1,800Mt/sec)大大提升。但是,如果只看体系方面的话,(MC)放大程度只有1.33倍。也许其内部人士认为这方面应该等比放大的。同样ROP也放大到1.33倍,tex数则从G80的64个变成了80个。
从G80的「128:64:24」到GT200的「240:80:32」可以看出内存控制器、ROP等放大规模为1.25~1.33倍,流处理器的放大规模却有1.875倍。明显侧重于流处理器的方面。相对来说扩大内存控制器等更难以做到,流处理器的扩大要容易一些,这就是现在GPU设计的现状。
![]() |
|
GT200与G80运算单元構成比較 |
此外、接口方面PCI Express升级到Gen2、视频处理引擎升级到「VP2」。这与G92是一样的。
相对G80/92大幅强化性能与功能的结果就是、GT200的成本变大了。使用TSMC 65nm CMOS工艺下晶体管数是1.4 Billion(14億)、芯片表面积则将近600平方mm。相对90nm的G80的681 Million(6億8,100万)晶体管、470平方mm芯片表面积正在大型化、相当接近硅晶工艺的极限(贵族案:原文为“露光工程对CHIPSIZE的限制”)。NVIDIA的Tony Tamasi (Vice President, Technical Marketing)说过「这是TSMC目前制造的尺寸最大的芯片」。与大规模制模,双模生产的AMD(ATI)对照、NVIDIA的高端CPU仍旧硕大无比。
![]() |
|
GT200的晶圆 |
![]() |
|
GT200的DIE照片 |
●GPU的架构变更
下面的图是GT200(GeForce GTX 280)的架构图与用来对比的G80的架构图。GT200的图标采用G80的架构图作为蓝本,并加入GT200与NVIDIA文档中的内容。当然,一部分内容只是推定。
![]() |
|
GT200的概要 |
![]() |
|
G80的概要 |
NVIDIA这次只发布了非常简略的架构图。左边是GPU通用计算时的运行模式、右边是显卡模式是的运作方式。各单元运作方式的不同真是微妙啊。
![]() |
![]() |
|
GPU通用计算模式 |
显卡模式 |
就像方框图中那样,NVIDIA改变了GT200 GPU流处理器中「Streaming Processor Array (SPA)」的工作模式。
NVIDIA G8x后的GPU中单精度浮点、整数运算单元「SP(Streaming Processor)」也是存在的(SP、Thread Processor)。8个SP与周遍单元由1个「SM(Streaming Multiprocessor)」来管理。之前G8x/9x体系是2个SM与1个(Texture Unit)组成「TPC(Texture/Processor Cluster)」。各TPC当中16个SP与8个(Texture Filtering Processor)包含在内。G80搭载8个TPC、总共128个SP。
相对的GT200也是8个SP在1个SM的模式、TPC中的SM由两个增加到三个。此外,整体上TCP增加到10个。SP总数增加到240个。
|
运算单元数比較 |
●为抑制节点增加而变的GPU设计
NVIDIA抑制了TPC数量的增加、TPC内SM数增加的理由1是:改变TEX与Computation比例、TEX-Computation重新编组。以前是、SM中SP16个对应TEX(TF)8个、是2:1比例。GT200则是24个对应3个,变成3:1比例。这样就可以减少内存读写,提高流处理器内的效率。
TPC的架构变化还有一个理由:推测是抑制内部总线的复杂化。NVIDIA体系是各TPC与内存控制前间cross bar连接。估计内部布线极为密集。现在的GPU设计者曾讲过“cross bar 是GPU设计中最难的地方”。AMD为此在内部采用了RINGBUS。但讨厌RINGBUS的NVIDIA依旧继续使用cross bar。
RINGBUS的优点是增加内部的连接数目较为容易。但cross bar 必须抑制复杂度,增加节点是很难的。故NVIDIA设计了10个TPC而不是15个。
这次,NVIDIA也粗略公开了GT200的DIELAYOUT图。参考规划图、DIELAYOUT图上负责各功能的区域如下图所标。NVIDIA的远景设计图标识十分粗略,按规划图来看可能有其它的部位没有被NVIDIA标出。
还有、NVIDIA在IEEE Micro文中发表过G80粗略DIELAYOUT图。参考那些照片的话G80的各功能分区如下图。不过有一部分是难以推断的。
下次是GT200各单元构成的内部构造解析。
![]() |
|
GT200的DIELAYOUT |
![]() |
|
GT200的DIELAYOUT |
![]() |
|
G80 DIELAYOUT |
| 谁顶了这篇日志>> 还有谁对该日志投票? | 最近读者>> | ||||||||||||
|