天数智芯李云鹏:数据驱动的春天即将来临 | CCF-GAIR 2019
扫描二维码
随时随地手机看文章
编者按:7 月 12 日-7 月 14 日,2019 第四届全球人工智能与机器人峰会(CCF-GAIR 2019)于深圳正式召开。峰会由中国计算机学会(CCF)主办,记者、香港中文大学(深圳)承办,深圳市人工智能与机器人研究院协办,得到了深圳市政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会,旨在打造国内人工智能领域极具实力的跨界交流合作平台。
7 月 13 日的 AI 芯片专场,南京天数智芯科技有限公司(以下简称天数智芯)创始人、董事长兼 CEO 李云鹏带来了主题为《海量数据时代的全算力》的演讲。
天数智芯创始人、董事长兼 CEO 李云鹏
李云鹏首先提到,泽字节时代( Zettabyte Era)数据体量十分庞大,数据的收集、组织、分析和运用都将对社会和科技的发展带来不可忽视的影响,这一切都对算力有了更高的要求。但随着数据量的不断增长、算法不断演进和迭代,对极致算力的需求也越来越多,此时就需要将软硬件充分结合起来。这也是天数智芯决定打造高性能 AI 芯片的原因之一。
记者(公众号:记者)了解到,天数智芯已经布局了云端、边缘端和终端的 AI 芯片,将针对不同的市场,提供云、边、端的算力支持;其 GPGPU 流片计划正在如期推进,据现有 PPA 数据显示,对比 Nvidia V100,会有三倍的功耗比提升。而且,在6月中旬的斯坦福 DAWN Bench 深度学习推理榜单中,天数智芯的图像识别性能斩获第一,性能比此前榜单中表现最优的机构提升了30%,与华为、寒武纪、阿里云分列榜单前四位置。
在大会演讲结束之后,李云鹏接受了记者的采访,精彩内容节选如下:
记者:您一直在强调全算力的重要性,您认为,天数智芯在这方面的优势什么时候能发挥出来?
李云鹏:机会是留给有准备的人的。天数智芯虽然 2015 年才成立,但在成立之前,我们也花了很长时间来思考究竟要做什么。眼下,随着 5G 逐渐普及,数据不断累积,各行各业都需要从海量数据当中提取自己所需要的、具有价值的数据。在接下来两三年里将爆发数据驱动的“春天”,我们认为,天数智芯恰巧赶上了这一波浪潮。
记者:天数智芯将会推出高性能云端 GPGPU Big Island,请问这是出于什么样的考虑?
李云鹏:如果是对一个没有做过芯片设计公司来说,这种选择肯定是有风险的。不过,天数智芯不一样。首先,天数智芯有一支可以说是国内唯一的完整高端芯片设计团队,有着丰富而完整的高端芯片产品研发经验和技术实力。其次,天数智芯通过即将推出的边缘端AI芯片EPU,将产品研发设计全流程打通,进一步降低风险,提前获得市场反馈来为高性能云端芯片积累经验。
记者:云端市场代表相对稳定的需求,产品迭代的周期也会更长,这会对公司的营收产生影响吗?
李云鹏:从某种意义上来说确实是这样,因为一款最新的服务器产品问世之后,一开始其实没有多大的销量。但研发周期长其实是件好事,因为我们说的稳定不是看某一个模块的稳定,而是整个系统,软硬件协同的稳定。我大学第一堂课的老师,说了这么一句话,“坐下来,钻进去,好好做学问”。在高端通用芯片和基础软件的领域也是这样,需要长时间的投入也需要持之以恒的决心。
以下是李云鹏大会现场全部演讲内容,记者作了不改变原意的整理及编辑:
谢谢各位,谢谢大会主办方,这是我第二次来到 CCF-GAIR 的会场,今天报告的主题是《海量数据时代的全算力》。
什么是 Zettabyte Era?数据的累计达到一定体量,收集、分析、运用数据必然推动社会的发展。无论是 Collect、Organize、Analyze、Infuse 都会遇到这个问题。作为创业公司,什么是根本性的需求,我们的答案非常简单——随着数据体量不断增加、算法不断演进和迭代,对数据的处理本身需要所谓的算力。
那么,什么是算力?我们的产品是做哪部分的算力?我们说提供全面的算力,这个“全面”又指什么?举个例子,这张图片上有一辆赛车,无论是在北京二环开车,还是在上海高架上开车,车况、车流、天气情况都会与车辆的驾驶速度密切相关。换句话说,汽车的引擎可以定义为硬件,整个路况、车流、天气和操控定义为软件,从这个意义上来讲,只有软硬件的充分结合才能提升极致的算力。
很多公司要么做硬件、要么做软件、要么做 AI 的算法,其实这对整个合作来说是非常大的 挑战,传统业界的迭代升级大概需要花十年的时间,硬件的研发周期相对来说以年为计算,而软件随着开源的发展,迭代周期越来越快,软件平均两周有很大的迭代,具体可以说是以天为计算。
不同领域有不同的专长,对天数智芯来说,我们在海量数据处理时代看到了自身发展的机遇,即为具体 AI 应用提供相应的软件平台,同时提供极致算力的硬件服务或是芯片的服务。
我们技术的开发逻辑是这样的:首先从软件算力切入,软件算力是什么?是如何利用软件来提升已有硬件的平均算力。如今,天数智芯的中间件产品可以和市场上已有的任何一款开源计算框架完美配合,能在已有的硬件处理器上达到更高的处理效率。随着中间件的推出和上层应用的不断落地,我们也将推出相应的芯片产品,为已有的硬件产品和已有的系统解决方案提供平滑的、透明的迁移。
那么,我们如何做算力呢?行业内一共有三种方式:一是通过写代码;二是通过中间件;三是选择基础的算子层级。天数智芯就是选择了第三种路径,即所谓的基础软件层加速技术。因为,整个计算力受到多方面因素影响,不仅要面临处理器的问题,还要面临 I/O 的问题;不仅要解决机器越做越大,还要解决机器越做越多的问题,包括新的标准化硬件不断地推出。
在上个月的斯坦福 DAWN Bench 深度学习推理榜单中,天数智芯和另外三家国内企业分别为前四名,我们取得了第一名的好成绩,亚马逊是第五名。
还有一个主要的问题关于 AI 芯片。每当谈及芯片的时候,大家都会想到美国搞发明、日本把它做小、中国把它做便宜。而且,一谈到芯片,大家首先关注的就是量,没有量做什么芯片?谈到量的东西或者是可能达到现象级的量,我喜欢用 Gompertz 曲线,上一个现象级的需求来自于手机。
关于全球晶体管市场的需求,从上图 2010 年到 2015 年的需求数据来看,我们即将面临半导体市场的增长大潮。市场上有各种各样的半导体公司,有成熟的、有初创的。芯片的研发也有不同的开发策略,一般是根据需求和性能来决定开发的策略。我们的 AI 芯片需要什么样的功能?过去两年大家都在说摩尔定律已经不行了,CPU 解决不了 AI 大数据时代的问题,所以要用 GPU AI 芯片。
Makimoto 对半导体的发展也有贡献,比如 Makimoto's Wave。从 60 年代以来,半导体的发展趋近标准化和定制化。如今已经是 2019 年,过去数年我们一直在呼唤AI 芯片和高性能计算芯片,如果 Makimoto’s Wave 仍然有效的话,下一个波峰将是超高灵活度集成的芯片,同样的标准化硬件也发生在 90 年代末期和 2000 年代中期的 FPGA 时代和英特尔时代。
硬件的开发策略是要提供超高灵活度的高性能处理芯片,这种情况下,市场上有没有同款芯片? 天数智芯提供了很好的选择,除了做计算以外,还提供一个完整的、可编程的标准性架构,为此针对当前流行的数据驱动型应用,包括 AI 算法本身做专门的定制和优化。我们的 IP 提供完整的灵活度,我们针对不同的市场,不仅有云,还有边、端,或是任何一个需要相应算力支持的地方,这是很重要的定义。
天数智芯在过去三年的努力中,已有的数据在云端训练好可以使用边缘计算系统和平台套装,无缝的迁移至硬件端。今天看到所有在试验车上运行的应用,是基于 NVidia TX2,相应的 Iluvatar EPU 产品也将在近期发布,做到完整的软硬件结合的客控系统。
关于Edge Cloud。5G 来了,我们的手机离基站越来越近了,但基站离数据中心还很远,不断产生的计算需求将会向边缘端涌入。边缘端是否具备足够大的计算能力?为此我们也推出了终端芯片解决方案。
我的老东家是 Oracle。记得2009 年 Oracle 把惠普的 CEO 马克·赫德招过来,马克·赫德给中层开会的时候说,你们知不知道任何一家数据中心买惠普的产品,他的生命周期有多长?答案是20年。这就意味着数据中心持续的变化相对小。对标 Nvidia V100,我们相应的流片计划正在正常推进,据现有 PPA 数据显示,将会有三倍的功耗比提升,就算是比较下一代的 V100 产品,天数智芯的 BI 依然有 75% 性能提升。
我们如何做一款灵活的算力芯片,配合开源生态和已有生态的软件,为整个系统提供支撑?这是我们所谓协同设计的基础概念,如何 Meet In The Middle,两者之间是否能融合?这个时候,物理学概念动态平衡 Dynamic Equilibrium 的有趣之处就体现出来了,天数智芯两方面(软件和硬件)的业务具备动态平衡的特征,两者之间是可以相互转换的,换句话说,软件能为硬件迭代,硬件能为软件进步提升提供帮助。任何一个状态本身的此消彼涨,软件多一点硬件就会少一点。
我对 Steve Jobs 的书看得不多,但有一句话我非常有感想——“I discovered that the best innovation is sometimes the company, the way you organize”( 我发现最好的创新是系统组织的化身, 即公司本身)。当前时代非常适合创业创新,我们可以实现技术创新、市场创新、模式创新等,而作为一个公司本身最好的创新是什么?是如何系统化组织。作为一家科技公司,如何组织规划自身的产品,变成一个有活力的组织是很有必要的。
谢谢各位,这是我分享的内容。