SoC芯片设计+“互联网思维”+AI 结果出乎意料!
扫描二维码
随时随地手机看文章
“依靠NetSpeed Orion AI的帮助,特斯拉自动驾驶芯片从设计到流片只花了9个月的时间,这在以前是完全不可想象的。”在NetSpeed Systems大中华区销售总监黄啓弘所列出的客户案例中,除了特斯拉,还包括3家来自中国的顶级人工智能公司:地平线机器人、寒武纪和百度。
NetSpeed Systems大中华区销售总监黄啓弘
在芯片上布一张互联网
可能很多人对NetSpeed并不熟悉。这是一家专为移动设备、网络系统和高性能计算市场提供高扩展性的缓存一致性片上网络IP的新锐公司,2011年成立于美国硅谷,核心技术团队来自思科与华为,投资方则包括英特尔、Imagination、华登国际等知名企业。2016年,根据技术、目标市场、财务能力和投资情况、成熟度和高级管理人员的资历等标准,NetSpeed被EETimes列入“Silicon 60—2016年全球60家值得注意的新创科技公司”名单之中。
与其它竞争方案不同的是,NetSpeed的片上系统总线设计理念是将互联网的网络拓扑思想映射到芯片内部的设计中。即采用数据路由和分组交换技术替代传统总线结构,旨在从架构上解决由于地址空间有限导致的传统总线结构可扩展性差,分时通讯引起的通讯效率低下,以及全局时钟同步引起的功耗和面积较大等问题。
通俗的讲,“以前,我们可以把SoC中的视频功能关掉,但总线是无论如何不能关的。但现在在Orion AI方案中,即便关掉一部分总线也没问题,芯片仍然能够正常工作。”黄啓弘说NetSpeed的做法,就是放弃传统的总线理论,把所有的数据通过桥接模块的形式分成数据包,然后再用互联网的方法分发出去。
他将这种片上网络(NoC)理念比喻成“在芯片上布了一张互联网”。也就是说,传统的方法倾向于孤立地优化各个子系统,从而导致瓶颈问题和采用过度的系统设计来处理最极端的情景,这对当前在视频、语音、预测、机器人及诊断等应用中正渐入佳境的人工智能技术来说尤其不利。因为这些新兴应用对处理能力提出了进阶需求,推动计算架构发生天翻地覆的变化,并急剧改变着SoC的设计模式。用NetSpeed首席执行官Sundari Mitra的话来说,就是这些新SoC内部体现出的是一种新的数据流。
“以自动驾驶为例,这是人类第一次如此坚决的把身家性命交给半导体芯片来做决断。”黄啓弘对《电子工程专辑》说,芯片设计师为此需要大量的计算单元来实现快速有效的点对点数据交换,需要保证信号回路没有任何阻断和延迟,再加上人工智能系统需要任意位置数据交换和支持长突发传输,采用中央存储作为数据交换系统的传统总线架构在这些需求面前几乎处于完败的境地。
用人工智能来优化SoC设计
于是,Orion AI出现了。
它是NetSpeed在AI SoC设计领域内的最新尝试,因为NetSpeed认为这是一个展示自身优势的绝佳的时间节点。
按照官方给出的说法,Orion AI是业界首款以人工智能为基础的SoC芯片内部互连解决方案,由经过硅验证的Orion IP构建而成。支持多播与广播等先进特性,能极大提升人工智能SoC与加速器ASIC的性能与效率,可广泛应用于数据中心、自动驾驶、AR/VR,以及先进视频分析。
Orion AI架构
从技术角度来看,当一颗芯片内部集成了数百甚至上千个运算单元时,传统总线架构需要针对不同的系统需求单独进行设计,当系统功能扩展时,需要对现有设计方案重新设计,研发成本与设计周期均比较长,在性能、功耗、全局时钟同步、信号完整性及可靠性等方面面临的挑战也将呈指数型增长。
NetSpeed的解决方案采用分层堆叠方式将网络架构解耦,具有良好的可扩展性。当SoC片内网络中节点数量增加时,仅需要按照相应拓扑结构规则继续增大网络规模即可,缩短了产品的设计周期,节约了研发成本。另外,传统总线架构,每次信息交互都需要驱动全局互连线,因此总线结构所消耗的功耗将随SoC规模增加而显著增加,而在NetSpeed方案中,可以将一部分信号通路关掉,从而实现低功耗。
授权费用方面,尽管黄啓弘不能透露具体数字,但他承诺说“绝对低于arm的费用”,但也肯定高于普通接口IP的费用,通常是根据定制的复杂度来决定该怎么收费。NetSpeed一般会在授权完成之后对客户进行1-2天的培训,因为无论简单还是复杂的工具,最后都是由AI工具自动生成RTL,所以商业模式相对比较灵活。
Orion AI由NetSpeed的图灵机器学习引擎提供支持,该引擎使用监督学习来探索和优化SoC设计与架构。据称这也是当前市场上唯一采用机器学习方法的产品,能在多次迭代之后慢慢收敛,精确地进行整体系统建模,以实现最优的应用性能。中国最牛的几家互联网公司之所以愿意与NetSpeed合作,也是看上了这一核心技术。
除了通过人工智能进行SoC设计之外,Orion AI的片上带宽高达万亿字节每秒(TB/s),并具备支持数千计算引擎的底层架构。它提供超宽数据通路,接口位宽高达1024位,可支持高达4K字节的长突发传输,并可定制更高位宽。此外,为优化对自动驾驶应用的支持,Orion AI还通过了ISO 26262标准,可支持ASIL D级别安全要求。
Linley Group首席分析师Linley Gwennap对这种以人工智能为核心的设计方法给予了极高的评价,称“就像有一位随时在线的建筑大师给出设计建议。处理器架构师可以采纳图灵的建议,然后花时间去解决SoC设计中的其他难题。”
Turn-Key模式不适合我们
把人工智能技术从云端引入到终端,会遇到一些挑战。首先,云端追求的是极致性能,对功耗没有太多要求。但对终端设备而言,能耗却是非常重要的指标,芯片需要满足系统低功耗的要求。其次,是通用性与特殊性如何平衡。当一个终端产品从通用产品变成专用产品的时候,市场规模会小很多,例如做血液检查的终端产品就只能做血液检查,不能做别的事情。因此,对那些有志于从事嵌入式人工智能的人士来说,黄啓弘的建议是需要综合考虑公司是否能做?怎么做?如何在性能、功耗和通用性三者之间找到平衡点等关键问题。
“我拜访过很多人工智能公司,留给我的印象是如果不开发出几款AI芯片,都不好意思说自己是这个行业里的人。”黄啓弘说从理论上来讲,开发芯片永远比卖算法要好,因为如果只有算法,对知识产权的保护还是相对比较弱的,一篇论文就可以让天下人皆知。但很多公司此前之所以不愿意研发芯片,主要的顾虑在于芯片研发周期比较长,一旦出错,上亿的资金付之东流是常见的事情,代价太大。然而随着中国政府对集成电路产业支持力度和对知识产权保护力度的不断加强,AI公司看到了实现自主可控的希望,独立开发芯片的意愿也更加强烈。
但“一千个人眼里有一千个哈姆雷特”,即便是同一个应用场景,不同客户间也存在着不同的理解,导致芯片设计的复杂度也各不相同。因此,无论用户采用通用还是定制化计算平台,都可以在SoC设计中使用Orion AI解决方案,缩短研发周期,快速完成设计迭代,自然成为了NetSpeed的使命。
AI时代,传统的SoC芯片高度集成,一家独大的模式正在发生变化,由于不同场景对芯片、算法的需求各不相同,导致定制化计算平台需求旺盛。黄啓弘说自己认同这样的看法,的确是同一颗芯片,在不同的算法和应用中,也会产生不同的价值。但这是否就意味着以往的Turn-Key模式走向衰落?他认为并不一定。“因为很多做系统的人对芯片设计并不了解,这时要能给他一个Turn-Key的方案,说不定他就会借此把市场做大。但NetSpeed设计的是总线,不会参与到客户最核心的神经网络设计之中,因此Turn-Key这种模式不适合我们。”