雪湖科技FPGA服务器,“颠覆”传统芯片参数
扫描二维码
随时随地手机看文章
90年代末21世纪初,高性能计算还是一个阳春白雪的行业,项目看起来都十分前沿和酷炫,但很难创造商业价值。张强回忆,“要从科研机构、政府机构手上项目并从中赚钱,一直到回款,整个过程非常艰难。”
另一方面,民用市场已经成为英特尔奔腾多核处理器的天下,计算能力是完全溢出的,满世界的声音都是——“没有必要买i7,买个i3、i5就够用了”。“在这种背景下,在民用市场上根本是找不到计算的需求。”张强谈道,“所以尽管案例都很有开创性,但项目仍然没法支撑下去。”
随后,张强便投身热闹的C端市场。在2014年,和朋友等人一起创办乐蜗VR,推出基于虚拟现实技术的头盔及软件应用。该公司在2016年年中被华人文化旗下的微鲸收购。在微鲸,张强遇到了同为半导体行业背景,此前在日本富士通担任亚太区市场总经理的王韵。
回顾过去十余年的同构计算发展路线,工艺与应用规模高速发展,核心架构却没有发生太大变化。与此同时,CPU发展所主要依赖的半导体工艺红利却在消失。“摩尔定律失效后CPU的发展路线将会平缓,算力将会出现缺口,需要GPU、FPGA、ASIC等异构芯片去填补。”基于同一个判断,张强和王韵开始了异构计算的创业征途,并找了曾经在超算领域一同打拼的伙伴。
雪湖科技核心团队,从左往右依次是创始人兼CEO 张强、COO 王韵、系统专家 赵小吾、算法专家 杨付收
张强认为,基于数十年的研发经验,雪湖团队对FPGA的理解更为深刻。“我们是非常早期一批就关注到FPGA应用的人,我们了解将算法本身固化到硬件电路将会对其执行效率带来的巨大潜力。并且我们通过早期的大量案例证明了这个观点。”
对于以ASIC为主的另一条AI芯片路线,张强认为ASIC芯片面临的巨大痛点在于摊销的成本太大。比如,7nm的研发高达投入3亿美金,至少要百万片的销量才能摊销掉高昂的成本。
基于王韵此前在富士通的工作经验和资源,雪湖团队首先从云端计算应用需求强烈的手机客户切入。 2017年年中的一次机会,雪湖团队向美图CTO张伟介绍了其基于FPGA的AI算法加速技术。张伟颇感兴趣,次日便从厦门飞到上海与雪湖团队当面交流。
为应对美图10亿级的在线用户的实时需求,美图近年来重点投入研发力量在神经网络计算加速领域,特别设立美图影像实验室MT Lab,在算法层面取得一定突破。但如何将算法以较低成本移植到芯片上是当时面临的一大难题。
在了解到美图的具体需求后,雪湖团队开始全力投入推进CNN加速接解决方案。与此同时,雪湖科技的公司设立和团队组建等工作也开始有条不紊地展开。今年6月,美图的FPGA加速神经网络计算项目正式落地。
雪湖科技FPGA服务器
该方案正在逐步替代美图云计算中心的昂贵且大功耗的GPU服务器。张强介绍,“英伟达的数据中心GPU平均在1万美金左右,算力约为35T;我们即将要升级的服务器1U算力能达到400T,成本只要3000美金。”
目前,雪湖团队规模约为20人左右,定位于为上下游赋能,上游对接FPGA芯片厂商,同时连接下游的应用厂商。年初,雪湖获得美图天使轮数百万投资,正在推进Pre-A轮融资阶段。
“颠覆”传统芯片参数
“算力只是一个间接指标,”张强说道。
在算力堪比“石油”燃料的AI时代,一款芯片的算力指标显然已经成为最核心的参考因素。算力,即单位时间内芯片所能提供浮点计算能力的峰值。理论上看,当芯片设计完,算力就已经固定,不会根据应用场景发生变化。
但在张强团队看来,一颗芯片在不同应用场景下提供的算力有所不同,比如计算密集型,I/O密集型的不同需求下数值差异很大。 “现在大部分AI芯片公司都在偷换概念,对外宣传的都是算力峰值”,王韵谈道,就像是眼睛一闭油门踩到底能跑出的最快速度,但是缺少实际参考价值。通常来说,由于实际部署下的各种原因,芯片远不能达到其计算能力的最高理论值。
对于雪湖团队而言,他们更看重芯片的资源利用率。对于一颗FPGA而言,在核心计算单元运行算法时,如果从启动一直到运算结束的每个使用周期都在不停的工作即芯片的理论值,相当于100%的工作状态,也就是说把该芯片所有的功力都发挥出来了。
“我们能将这个理论率提升到98%,换句话说,100个计算周期里只有两个周期在休息。”张强说道 “这颠覆了芯片行业里的一个标志性参数。除了雪湖,没有任何一家公司可以做到。”王韵形象地将描述为“完美地榨干芯片性能。”
“98%资源利用率”所能带来的实际价值是——“通常需要赛灵思最高端、售价超过1万美金的芯片才能实现复杂的算法。雪湖可以采用10到20元美金的中低端芯片实现同样算法。”张强表示,1万美金与20美金的核心指标差异就在其内部可利用的资源数目。
长久以来,开发难度大、开发周期长,开发者稀缺、培养周期长是横亘在FPGA发展和应用推广道路上的难题。“FPGA工程师的培养成本很高,要培养一名真正具备独立做FPGA开发的工程师通常需要五年的时间。”张强谈道。
为此,雪湖团队研发了一套私有的开发环境和框架PteroTool,以实现更简洁的芯片工具链条,抽象度更高的应用层。
“这是基于我们十几年的积累,里边包括了大量高效稳定、占用资源很少的库。”张强介绍,基于Ptero系统抽象层,能够将系统抽象出来,类似于芯片操作系统,以实现算法快速移植,可以从一颗芯片快速移植到另一颗FPGA芯片。“这套工具体系很容易上手。按照我们的经验,经过三个月培训,一个刚毕业的大学生就上手成为FPGA算法开发工程师。”
为了对开发工作进行更加细致地分工,雪湖对开发过程进行了系统化地分解。在雪湖的技术架构下,工程师不再需要同时掌握FPGA开发、写算法和代码等全链条工作,“每人掌握一个环节,通过多人合作,以实现更高效地开发。”
预 判
“我们目前集中私有云、公有云、车载三大块市场。模块市场优先级被调低了,因为目前AI在C端市场仍然缺少应用推动。”张强谈道。
在云计算中心市场,雪湖主要通过私有云GPU替代、FPGA公有云加速两条路径推动。对于图像与语音数据调用频繁的AI公司而言,相较于公有云数据可能面临的安全性问题,搭建一套高性价比的私有云方案正在成为核心诉求。
随着5G落地步伐的加速,张强认为,云上的计算需求和市场会会变得更加庞大。受到4G的传输速率和网络承受力限制,目前很多计算主要在手机端/在端测完成。但是5G来临之后,传输速率提升十倍以上,手机本地的计算能力会弱化,存储会变大;通信能力会变强。
在雪湖团队与OPPO、美图等主流手机厂商交流过程中,比较一致的观点认为,5G时代云端的数据中心计算需求,特别是人工智能运算需求将呈现井喷趋势。相应地,将AI芯片塞到手机的潮流可能弱化。
此外,正处于窗口期的汽车智能化也是雪湖现阶段押下重注的市场。“我们的优势在于技术方案能够更快地落地,以帮助车厂或者自动驾驶团队抢夺时间窗口”,张强认为,相比ASIC的AI芯片公司开发和流片通常需要一到两年时间,快速落地是雪湖当下最显著的优势。
此外,一个更为隐形的优势还在于,FPGA具备现成的车规级芯片可供选择,而无需等待遥遥无期的AI芯片通过车规级芯片认证。
目前,雪湖团队正在帮助一家自动驾驶公司实现前端的视觉数据识别与分析,以取代昂贵和高功耗的GPU服务器方案。张强表示,该自动驾驶公司近期再次提速研发节奏,“年初方案一旦能够落地,将成为开创性的自动驾驶解决方案。”