GK110设计师专访:讲述70亿GPU背后故事
扫描二维码
随时随地手机看文章
作为GTC 2012大会的一部分,最后的一天还有个采访活动,接受采访的是GK110的两位设计师,Jonah albums是GPU工程部门的高级副总裁,Danskin则是负责GPU架构的副总裁。
以下就是Heise网站带来的报道,问答形式,内容很劲爆,提问的一方没什么客套,植入主题,回答的一方“太极推手”防守严密,从中能得到多少收获就看自己的理解了。
Q:GK110性能比GK104强多少?
Albums:我们已经公布了GK110的规格,但是最终的频率之类的还没有定,这是项目开发中很自然的事,问题是功能单元的数量还是显存位宽会影响产品的性能?基于这些因素,你们可以期待性能提升50%,而SGEMM之类对计算性能敏感的应用中,性能几乎与功能单元的数目成正比。(GK110有15组SMX单元,这么说性能比8组SMX的GK104可以高出近一倍了?)
Q:也是就说,GK110的性能优势在50-70%左右?
Albums:这是一般的情况,如果是在充分利用了Hyper-Q、Dynamic Parallelism以及双精度运算的HPC应用中,这个(性能提升)比列还会更高。
Q:Kepler开发了多长时间了?
Albums:这个取决于你问的是谁了。我是在G80架构完成之后开始Kepler项目的,大约是7年前了,直到三年前NVIDIA才开始有大批人手加入这个团队的。
Q:为什么GK110架构要等到年底才能发布,比GK104晚了这么久?
Danskin:这个问题很难回答。GK104功能更少,而且主要针对显卡而非计算应用,它必须要及时发布。另一方面,GK110则是一款大核心架构,TSMC在流片和制造过程中要扮演更大的角色。(TSMC又中枪了,不过这么复杂的芯片确实是个问题)
Albums:GK110这样庞大的芯片不可能在新架构的同时再使用新工艺,还需要等28nm工艺更加成熟。
Q:研发GK110架构最大的挑战是什么?
Albums:很明显,就是新开发的Hyper-Q和Dynamic Parallelism技术。
Danskin:由于GPU需要自动刷新线程,Dynamic Parallelism技术实际上非常复杂,Hyper-Q对有些人很有意义,更容易实现而且会带来更好的性能。Dynamic Parallelism可以简化写代码的过程,这在以往是不可能的,对我们而言它是最重要的功能。
Q:NVIDIA增强了GK110的双精度浮点性能,它是靠几个单精度核心联合工作实现的吗?
Danskin:GK110有独立的双精度运算单元。(昨天PCGH的解析中已经明确了这一点。)
Q:这是GK110为什么占用这么多核心的原因?
Ablbums:实际上(双精度单元)占用的并不多。主要还是SMX单元增多带来的,另一个占面积较大的功能是ECC校验单元。
Q:GK110的双精度性能是单精度的1/3,为什么不是1/2?
Danskin:由于架构不同,1/2的比列很难实现。
Albums:简单来说那样做需要更多的资源,我们要重新考虑寄存器之类的设计。
Danskin:还有就是每瓦性能比的问题,我们认为目前的(1/3)比列是合适的。
Q:GK110为什么使用384bit位宽而非512bit?
Danskin:使用512bit位宽也会导致功耗及其他代价升高,GK110使用384bit位宽则可以在性能和代价中保持平衡。
Q:目前的GK110只使用了13-14组SMX单元,未来是否会有开启完整15组SMX单元的产品?
Albums:某种意义上说,很有可能。
Q:GK110的硬件编码单元与GK104有什么提升吗?
Ablums:GK110的硬件编码单元跟GK104是一样的。
Q:你们认为未来的GPU开发最困难的挑战是什么?
Danskin:最大的挑战是功耗。回顾一下过往的历程,我们以及AMD都是一样的:更高的性能,更高的功耗。现在一切都改变了,功耗是明显的分界线。另外,如以往走过的相似,先进的制造技术有利于改善(功耗)问题。
Albums:主要挑战还是每瓦性能比,图形芯片设计中这倒是个次要因素。
更多信息请关注:21ic网友杂谈频道