以Talus Vortex和Talus Vortex FX解决32/28纳米IC实现问题
扫描二维码
随时随地手机看文章
前言
目前的高端ASIC/ASSP/SoC器件开发商可考虑分为三大类:主流、早期采用者和技术领导者。在写这篇文章的时候,主流开发商正致力于65纳米技术节点设计,早期采用者开发商正专注于45/40纳米节点设计,而技术领导者开发商正力求超越32/28纳米及更小尺寸节点设计。随着技术采用开发步伐的日益加快,下一代的早期采用者过渡到32/28纳米节点的时间将不会很久,而他们的主流开发商同行也将紧随其后。
进行32/28纳米节点设计时会遇到许许多多的问题,包括:低功耗设计、串扰效应、工艺变异及操作模式和角点数量的显著增加。本文首先会为您呈现微捷码Talus® Vortex 1.2物理实现流程的高层次视图,接着将介绍32/28纳米节点设计所包含的一些问题并描述Talus Vortex 1.2是如何解决的这些问题。
除了上述技术问题以外,32/28纳米节点日益提高的设计规模和复杂性还造成了工程资源(在不扩大团队规模的前提下取得更大成果,同时还保持甚至缩短现有时间表)、硬件资源(无须增加内存或购买全新设备,利用现有设备和服务器处理更大型设计)、满足日益紧张的开发时间表等方面相关问题的增加。为了解决这些问题,本文还将描述通过Talus Vortex FX创新性的Distributed Smart Sync™(分布式智能同步)技术, Talus Vortex显著地提高了其容量和性能。Talus Vortex FX 提供了首款且唯一一款分布式布局布线解决方案。
Talus Vortex 1.2物理实现流程介绍
图1所展示的是标准Talus Vortex 1.2物理流程的高层次视图。从图中,您不难观察到它先假设了芯片级网表的存在,此网表可能已通过微捷码或第三方的设计输入和综合工具而生成。
在完成初始单元布局之后,第三步是综合时钟树, 将其添加到设计中。多数时钟树综合工具并非执行真正的多模多角(MMMC)时钟树实现,而是将时序环境分为best-case(最佳情况)和worst- case(最差情况)角点。但这种做法过于的悲观,会导致性能一直处于“毫无起色”的状态。在32/28纳米节点,实现真正的MMMC时钟树势在必行(另见后文32/28纳米主题中“MMMC问题”部分)。 因此Talus 1.2的时钟树综合部署了完整的MMMC分析,以平均10%的延迟性改善和10% 的面积缩小实现了更为先进的鲁棒性时钟系统,如图2所示
在多开关阈值晶体管情况下,非关键时序路径上的单元可由漏电量较低、功耗较少、开关速度较慢的高开关阈值(high-Vt)晶体管来组成;而关键时序路径上的单元则可由漏电量较高、功耗较多、开关速度显著加快的低开关阈值(low-Vt)晶体管来组成。
多电源多电压(MSMV)所包括的芯片可分为不同区域(有时称为“电压岛”或“电压域),不同区域拥有不同的供电电压。分配到较高电压岛的功能块将拥有较高性能和较高功耗;而分配到较低电压岛的功能块则将拥有较低性能和较低功耗。
动态电压与频率缩放(DVFS)技术的使用是通过改变一个或多个功能块的相关电压或频率来优化性能与功耗间折衷权衡。例如:1.0V的额定电压在功能块活动率低时可降至0.8V以降低功耗,或在需要时它也可以提至1.2V以提高性能。同样地,额定时钟频率可在功能块活动率相对低时减至一半,或它也可增强一倍以满足短时间爆发的高性能需求。
顾名思义,电源关断(PSO)系指切断选定的目前不在使用中的功能块的电源。尽管这项技术在省电方面效果非常好,但它需要考虑到的问题真的很多,如:为避免造成电流浪涌,要按特殊顺序给相关功能块的供电和关电。
Talus Vortex 1.2提供了一款完整的集成化低功耗解决方案,包括一种自动化低功耗综合方法,可与跨多电压和频率区域的并行分析与优化功能结合使用。 Talus 1.2不仅不会对所使用的不同晶体管开关阈值的数量进行限制,同时还支持无限的电压、频率和电源切断区域。此外,Talus 1.2完全支持通用功率格式(CPF)和统一功率格式(UPF)。这两种格式让设计团队能够先从功耗角度出发把握设计意图,然后再推动下游规划、实现和验证策略(见侧边栏)。
时钟频率的持续提高与供电电压的日益降低意味着对串扰型延时变化、功能失效等信号完整性(SI) 效应的敏感度在不断提高。在32/28纳米节点,由于更近的相邻轨道、横截面(32/28纳米节点的轨道的高度可能大于其宽度,如图4 所示,它增大了相邻轨道耦合电容)以及金属化的轨道和通孔的电阻的提高(相对而言),因此这些效应也进一步增强。
对于以180纳米及更高技术节点制造的硅芯片来说,所需的只是解决些少量晶圆间变异,即源自不同晶圆的晶粒在时序(性能)、功耗等特征方面的差异。这种差异可能是由于从一家代工厂到另一家代工厂的制程变异和仪器及操作环境微小差异所造成,如:炉温、掺杂程度、蚀刻浓度、用以形成晶圆的光刻掩膜等等。
在较高技术节点时,所有晶粒间工艺变异(同一晶圆上各晶粒间差异)和晶粒内工艺变异(同一晶粒上各区域间差异)相对来说并没那么重要。(晶粒间变异也被称之为“全局”、“芯片到芯片”、“晶粒到晶粒”变异。)例如:如果一个芯片的核心电压为2.5V,那么在多数情况下会假设整个晶粒拥有一致和稳定的 2.5V电压; 同样的也会假设整个晶粒上拥有统一的芯片温度。
随着尺寸越来越小的新技术节点浮出水面,晶粒间与晶粒内工艺变异变得日益重要。这些变异中有些是系统变异,这意味着它会随着单元级电路功能而改变。例如:晶圆片中心附近所制造的芯片与朝向晶圆片边缘所制造的芯片相比,其相关的某些参数可能会有所不同;在这种情况下,可以预测所有参数都将受到类似影响;而一些参数还会在随机变异的情况下独立地波动,据说这可能是基于区域的变异(相对于基于距离的变异)。
32/28纳米多模多角(MMMC)问题
除了前文主题中所提及的制造工艺的变异以外,我们还必须解决芯片使用的环境条件(如:电压和温度)存在的潜在变异问题。所有这些变异均可归入PVT(工艺、电压和温度)项目范围。
对于以更早期技术节点所创建的器件来说,晶粒间与晶粒内PVT差异可以忽略不计。先做假设,然后基于整个芯片表面具有一致的工艺变异这一事实、基于整个晶粒上具有稳定的核心电压和温度等环境条件这一事实来简化工作是有可能的。基于这些假设,通过采用一系列bese-case条件(最高允许电压、最低允许温度等),确定每条路径bese-case(最小)延时会相对容易;同样的,通过采用一系列worst-case条件(最低允许电压、最高允许温度等),确定每条路径worst-case(最大)延时也会相对容易。
目前工具的问题在于:实现期间 ,芯片必须可在MMMC前景下进行优化 。许多现有系统通过先考量已假设的worst-case情景、然后对别的条件进行优化的方式来着手处理优化问题。遗憾的是,这可能导致过度悲观主义,造成次优性能。甚至更糟的是,如果这些关于哪些是worst-case情景的假设是错误的,那么结果可能是得到完全不管用的芯片。 Talus 1.2内置有自带MMMC处理功能,这意味着优化过程不会漏掉任何情景。此外,Talus 1.2的高速度和大容量还意味着,它能够考虑到的不只是较小子集的实现情景,而是这款工具需要处理的整个系列的签核情景。因此,Talus 1.2可提供更好的性能和更短的实现周期。
以 Distributed Smart Sync技术增强Talus Vortex的性能
前文所提及的物理实现流程每个步骤都是属于计算密集型问题。而且为了解决伴随技术节点而增加的复杂性,每个节点必须执行的计算量也在提高。此外,当器件中所集成的功能越来越多时, 设计的规模和复杂性会随着每个节点而提高,物理实现相关的计算需求也会相应增加。
再有一个因素就是:功能模块的尺寸(为实现模块功能所需的单元数量)也会随着每项功能中包装进越来越多特性而不断增加。一些物理实现团队偏爱层次化方案,而另外一些团队则更喜欢使用“扁平化”方案,因为他们感觉在使用层次化方案时放弃了太多东西。
如果工具具有处理更大型电路模块的能力,那么生产率就可得到即时的提升。例如:定义和微调层次化模块间约束是极为耗时的资源密集型工作。如果这些工具具有处理更大型电路模块的能力,那么就不需要定义子模块间约束,因为不会有任何子模块存在。这会大大提高生产率。
问题在于:多数布局布线解决方案都局限于只能处理几百万个单元。这常迫使物理实现工程师由于工具的局限性而不得不人工将电路模块进行分割。而这也对工程师生产率造成了影响。.
除非通过某些方式进行增强,不然的话即便目前最先进的Talus 1.2布局布线解决方案的实际容量也只在200万到500万个单元之间,所提供的生产率为每天100-150万单元。结果会造成一种由容量驱动的生产率差距。为了处理32/28纳米节点设计,实现包括1000万以上个单元的扁平电路模块是必不可少的,如图7所示(另见侧边栏)。