“非著名”中国AI初创公司,获全球顶级学术大会唯一最佳论文
扫描二维码
随时随地手机看文章
世界顶级FPGA会议——FPGA2017在落幕之时传来消息:来自中国的初创公司深鉴科技的ESE语音识别引擎的论文获得了本次会议唯一的最佳论文(Best Paper Award)。
FPGA2017 最佳论文证书
作为FPGA领域最具影响力、历史最悠久的学术会议,FPGA国际大会始终引领着整个FPGA工业界的技术创新。
在深度学习浪潮席卷全球的今天,FPGA 2017特别增设了一个环节:The Role of FPGAs in Machine Learning(FPGA在机器学习领域所扮演的角色),并邀请了两家公司,英特尔与深鉴科技,共同致会议Tutorial。成立不足一年,深鉴科技已得到FPGA学术界的高度认可。
FPGA(现场可编程门阵列,Field-Programmable Gate Array)。简而言之,这是一种程序驱动逻辑器件,就像一个微处理器,其控制程序存储在内存中,加电后,程序自动装载到芯片执行。
相比CPU和GPU,FPGA凭借比特级细粒度定制的结构、流水线并行计算的能力和高效的能耗,在深度学习应用中展现出独特的优势,在大规模服务器部署或资源受限的嵌入式应用方面有巨大潜力。此外,FPGA架构灵活,使得研究者能够在诸如GPU的固定架构之外进行模型优化探究。
深鉴科技开发的“雨燕”深度学习处理平台
去年5月,DT君作为首家媒体,对刚成立不久的深鉴科技进行了专题报道。创始人兼CEO姚颂表示,现在有很多公司在做各种各样的算法,包括ADAS(高级驾驶辅助系统)或者机器人等应用,因为算法是最快的切入方式。
但算法最终要落地,无论是在CPU上运行,还是在GPU上运行,都会受限于性能、功耗和成本等因素。深鉴科技的产品将以ASIC级别的功耗,来达到优于GPU的性能,可把它称作“深度学习处理单元”(Deep Processing Unit,DPU)。
深鉴科技首席科学家韩松在大会做关于高效深度学习的Tutorial
在本次FPGA大会的演讲中,深鉴科技首席科学家韩松从算法、硬件、训练、推理四个维度,对于深度学习算法的训练与应用两方面如何变得更加高效进行了阐述。韩松提出的“先压缩、再加速”的深度学习推理方案,比“训完即用”的推理方案更快、更节约功耗。
上图:传统的“训完即用”的机器学习推理方案;下图:韩松提出的“先压缩、再加速”的机器学习推理方案
在本次会议上,深鉴科技的论文《ESE: Efficient Speech Recognition Engine withSparse LSTM on FPGA》得到录用并最终被评选为本次大会的唯一最佳论文。该项工作聚焦于使用LSTM进行语音识别的场景,结合深度压缩以及专用处理器架构,使得经过压缩的网络和未经压缩的网络相比实现6倍的性能提升。本文所描述的ESE语音识别引擎也是深鉴科技RNN处理器产品的原型。
最佳论文颁奖
更为难得的是,此篇论文不仅仅停留在仿真与模拟结果阶段,而是落在了实实在在的演示系统上。
会场外,基于ESE语音识别引擎的深鉴语音识别平台进行了现场展示,得到了参会教授与工业界人士的极大关注——使用Xilinx KU060 FPGA与NVIDIA GTX 1080 GPU运行一个实际应用的LSTM现场对比,深鉴FPGA方案稳定的保持了超过GPU六倍以上的性能。
这就意味着,处理相同的语音识别任务,处理延迟大大降低,用户体验能有明显的提升。测试结果表明,深鉴能够基于业界领先的商用的语音识别算法模型与数据,实现模型压缩,提升硬件性能。
深鉴科技CTO单羿(左图)与CEO姚颂(右图)现场向与会专家展示深鉴语音识别平台
深鉴科技虽成立于2016年3月,但早在2013年,来自清华大学和斯坦福大学的几位公司创始人就开始了深度学习相关的学术研究。
2015年深度学习顶级会议NIPS上,斯坦福大学在读博士、深鉴科技首席科学家韩松提出利用剪枝和权重共享的方式对目前的深度神经网络在不损失网络精度的前提下大幅度降低计算和存储资源消耗。
公司技术团队聚焦于稀疏化神经网络处理的技术路线,提出的“深度压缩”(Deep Compression)算法可以将模型尺寸压缩数十倍大小而不损失预测精度,并结合专用的深度学习处理架构来实现加速。
ICLR 2016和FPGA 2017两篇最佳论文的获奖,再次证明了这家中国技术型初创公司所聚焦的稀疏化技术路线,已越来越得到深度学习界的认可。