探境科技AI语音芯片出货量高主要原因是有三大“黑科技”加身

时间：2020-05-11 15:54:01

关键字： AI 语音芯片黑科技神经网络

手机看文章

扫描二维码
随时随地手机看文章

[导读] IDC 预计，2019 年全球智能家居设备市场出货量将达到 8.327 亿台，将同比增长 26.9％。蛋糕之大让业界一片欢腾，尤其是进入门槛较低的语音识别应用市场，吸引了众多 AI 创业公司的目

IDC 预计，2019 年全球智能家居设备市场出货量将达到 8.327 亿台，将同比增长 26.9％。蛋糕之大让业界一片欢腾，尤其是进入门槛较低的语音识别应用市场，吸引了众多 AI 创业公司的目光，市面上出现了多款针对语音识别的 AI 芯片，其中不乏思必驰、云之声等算法厂商，还有出门问问、若琪等终端厂商，语音 AI 芯片市场的竞争变得异常激烈。

近期，探境科技也推出了具有 AI 双麦降噪功能的语音识别方案，即 Voitist 音旋风 612。可能很多人对探境科技并不是熟悉，其实这并不是一家新的 AI 公司，而是在 2017 年就已经成立，只是公司初期在埋头研发，因此很少出现在公众的视野中。据其技术副总裁李同治介绍，“公司创始人鲁勇曾经在全球著名半导体公司 Marvell 担任研发高管，研发团队有着给苹果、三星、希捷、西数、特斯拉等国际顶级公司量产芯片供货的经验，公司的目标是为客户提供终端人工智能芯片及整体解决方案。如今，公司在北京、上海、深圳、杭州、合肥及美国硅谷都设立了研发基地，目前公司员工近 200 人，其中技术研发人员 150 人，平均研发经验在 15 年以上。”

在今年的 7 月份，探境科技就推出了首款 AI 语音识别芯片音旋风 611，并且已经量产，李同治介绍，“音旋风 611 支持多达 200 条命令词，能够覆盖家庭生活场景中几乎所有常见的语音控制命令；在识别率方面，不低于 99%的唤醒率，超过 97%的识别率，以及低于 24 小时 1 次的误唤醒率。适用于各种需要语音进行控制的应用场景，芯片内嵌领先的 NPU 架构，配合单麦克风即可实现 5-10m 远距离的语音识别，识别延迟小于 0.2 秒，不需要依赖云和网络，可在本地完成推理运算，音旋风 612 是 611 的升级版。”

AI 公司以技术取胜才能走得更远，探境科技能够推出这样的产品也全依赖于技术驱动。AI 应用需要软件和硬件共同实现，市面上的很多公司要么单独做算法，要么单独做硬件，这就容易出现软件和硬件匹配困难的问题，探境科技是在软件和硬件两方面同时研发，从而实现软硬件融合，包括芯片设计、结构框架、系统、算法等全部自主研发。在发布会上，探境科技负责人从硬件方面介绍了公司的独特技术存储优先架构，从软件方面分析了公司的三大黑科技。

“杀手锏”：存储优先架构

传统的处理器一般都采用冯·诺伊曼体系结构，计算单元和存储单元相互独立，每次运算计算单元将数据从存储单元中提取出来，处理完成后再写回存储单元中。近年来，处理器性能飞速提升，但是访问存储器的速度并没有相应的提升，所以访问存储器的速度无法跟上处理器消耗数据的速度，导致处理器的计算性能无法充分发挥出来，这就出现“存储墙”问题。

为了解决“存储墙”问题，探境科技推出了存储优先架构（即SFA架构），这是一种不同的技术路线。探境科技创始人鲁勇解释，所有深度学习算法和 AI 芯片都面临一个问题，它们并不是要做卷积运算的乘法或加法，这并不是最难解决的问题，难点是在于有很多数据在重复使用，数据在存储器里的位置、相对关系、读取的性能会影响到算法运行的性能。而且数据的存储带宽要求很大，存储功耗很高。传统上的解决方式不考虑存储墙的问题，暴力增加存储单元，成本很高。我们用一种独特的芯片架构来推翻冯诺依曼体系架构，把数据读取的次数降低，降低数据的冗余，从而降低带宽的需求，通过算法和调度数据的方式，改进数据管理，在硬件上控制数据流，降低数据重复使用，通过软件和硬件结合，在芯片上降低资源的链接复杂度，这种架构我们称为存储优先架构，其实我们改善的是芯片本身的原因。”

从效果来看，鲁勇强调，“这种方法可以带来超高的能效比，数据访问可降低 10-100 倍，存储子系统功耗下降 10 倍以上，28nm 工艺系统能效超过 4T Ops/W。”

鲁勇将 SFA 架构称为真正符合商业应用的 AI 芯片架构，因为其采用成熟的设计方案，无需对底层器件进行修改设计，可以走商业化路径；通用性高，芯片面向的场景众多，必须支持多种算法才可以被商业化；同时易用性高，用户学习成本低，模型移植简单。

需要指出的是，一般 AI 芯片只针对某一神经网络进行运算，SFA 架构支持任何神经网络，而且可以调整参数。

存储优先算法既然如此高效，为什么其它 AI 公司没有开发？鲁勇的解释是，这是一项有技术门槛的技术，不仅在技术上需要要懂数学原理、架构、数据管理知识，同时需要有丰富的芯片设计经验，综合起来才能做到高效率，这些都是探境科技所具备的。

如果说存储优先架构是探境科技在硬件上实现的优化，软件上又做了哪些工作？李同治向我们做了详细介绍。

三大“黑科技”加身，出货量过百万

李同治将探境科技在软件上的创新归结为三大“黑科技”，分别是 AI 降噪算法、高计算强度神经网络 HONN、基于 FCSP 的端到端 AI 双麦算法。

黑科技之一：AI降噪算法

目前在智能家居应用中，语音识别面临环境噪杂或者距离远，从而导致识别不清的难题，智能家居设备厂家急需一种能够准确过滤噪音，并提取目标声源的方案。

在语音识别技术中，信噪比是衡量识别的目标声源与其它干扰声源强度比值的对数。一般将信噪比低于 15dB 的称为噪声环境。信噪比越低，识别难度越大。在语音识别的研发过程中，一个完整的识别链路可以简化为麦克风输入、降噪处理、语音识别、识别结果输入四个环节。想做好识别，首先要在降噪处理上下功夫。

探境科技自研了 AI 降噪算法基于深度学习，不仅能够处理稳态的噪声，非稳态的突发性噪声也能快速过滤。为了验证探境 AI 降噪算法的有效性，技术人员将一批信噪比在 3dB 左右的语音数据送到一个知名的云端公开语音识别引擎做了测试，降噪后比降噪前提高 30%识别准确率。

黑科技之二：高计算强度神经网络HONN

在对声音进行降噪处理之后，就进入到了语音识别环节。在这一环节中，神经网络模型所需的算力决定了模型的描述能力，同时也决定了模型处理能力和识别率的上限。在传统的语音识别算法里，国内很多语音识别芯片都采用了全连接操作 DNN 技术。但是相对全连接操作，卷积操作能够提供更高的计算强度，且卷积运算与人类大脑负责感知模块的处理方法类似，能够提取满足大脑认知的本质特征。

探境将其计算机视觉中的一些经验迁移到语音识别中，在语音识别算法上加入了更多的卷积操作，重新设计了一个高计算强度的神经网络，即 HONN（High OperaTIon Neural Network）。

李同治解释，“对比发现，HONN 仅需要 350k 的存储空间，而 DNN 需要 1.6M 的存储空间，更低的存储需求意味着成本更低。同时 DNN 与 HONN 所需的算力相反，处理高强度模型单帧时，HONN 需要超过几百兆 OPS，而一般的 DNN 模型仅为个位数的算力，两者相差超过 30 倍。对于神经网络来说，模型所需的算力决定了模型识别率的上限。相对安静的环境下两者之间差别不大，但是当信噪比进一步降低时，基于 HONN 的方法识别优势非常明显。”

在实际测试中，在抽油烟机的噪音中（大约 70 分贝），HONN 方式下的识别信噪比约为 3~5dB，单灯模型的识别效果非常准确。

黑科技之三：基于FCSP的端到端AI双麦算法

信噪比还有一种更严苛的情况，就是 0dB 和负 dB，0dB 意味着噪声和信号强度一样，甚至噪声比语音信号还要强，面对这种应用场景，探境科技采用了基于 FCSP 的端到端 AI 双麦算法。

传统的麦克风阵列处理算法有几大缺点，从而造成处理效果并不理想。“为了克服传统处理方式的缺点，我们设计出了基于 FCSP 的端到端 AI 双麦算法。”李同治对记者表示“FCSP（Frequency Complex Subspace ProjecTIon）是我们自研的频域复数子空间投影算法的简称，这个算法直接输入阵列信号，输出的是最终的识别结果，中间部分全部交给基于深度学习的 AI 算法来处理，不再使用传统的数字信号处理方法。信号增强与识别模块整体以降低识别错误率为目标进行优化，避免了语音增强与语音识别模块错配的问题。”

另外，在模型训练期间，采取了“注意力增强”的学习方法，能够灵敏的检测到唤醒词和命令词，即使干扰信号与目标信号方向接近，也能灵敏的进行唤醒和识别。李同治做了一个形象的比喻，“这个类似于在一个嘈杂的环境里面，如果有人喊自己的名字，一下子就能反应过来。”

李同治强调，“我们采取了频域复数子空间投影，抗噪性能强，在信噪比为 0dB 时，相对于传统的处理算法，相对识别错误率降低超过 20%。”

通过 AI 语音算法+HONN 神经网络模型来提升识别率，再通过 FCSP“端到端”的双麦处理算法简化识别流程，降低最终识别错误率，探境的语音算法实现了跨越式的升级，加上通过存储优先架构打造的 AI 芯片，探境科技可以为客户提供芯片、算法俱全的 Turn-key 方案。

除了支持 AI 双麦的 VoiTIst 音旋风 612 之外，还包括在离线一体的 VoiTIst 音旋风 621、以及语音芯片的旗舰产品——可支持本地 NLP 的音旋风 7 系列。探境目前拥有约 30 家合作伙伴，既有美的、海尔等智能家居制造大厂，也有世强科技在垂直领域颇具影响力的渠道商，知名智能家居制造商阿凡达智控也刚刚与探境达成合作，目前，探境科技的产品出货量已达百万级别。

未来规划：从语音到图像，离线在线一体方案已在路上

近两年，边缘计算大热，随着数据量不断增大，云端的承载压力越来越大，因此终端客户寻求在边缘完成部分数据处理，从而分担云端的压力。尤其在 AI 领域，未来对延迟和带宽提出更苛刻的要求，探境科技也认为，真正的人工智能应用场景，是不需要借助云端服务等做远程支持的，只有将人工智能做到终端上来，让每个设备都具备人工智能，才是现阶段“人工智能”的进化。

目前厂商多采用在线方案，就是打一个数据包放到云端，而离线方案是语音识别算法在本地，音乐等播放内容还是放在云端。据鲁勇透露，未来探境还会将语音产品进行二次升级，推出更多在线离线一体化方案。探境科技采用 HONN 神经网络模型，意味着处理模型变小，放在边缘的存储容量变小，成本也随之降低。关于用户对在线方案和离在线一起方案的选择，鲁勇表示，离线在线一体方案和在线方案两种会共存，毕竟用户的想法不同，选择也不同。

关于产品规划，鲁勇还表示，“探境不仅仅是一个语音芯片公司，而是一家语音、图像整体结合的 AI 芯片公司。除了语言市场之外，我们还看好工业视觉、新零售、安防、辅助驾驶等市场。我们的图像芯片在 2019 年 Q4 就已经流片成功，在某些应用中已经开始产生营收。AI 芯片的蛋糕非常大，探境希望可以联合上下游一起，开发生态，开放 SDK 和工具链，不仅是大家可以直接使用我们的产品，我们也希望有大量的合作伙伴，完成更多的场景开发。”

鲁勇认为，AI 芯片这一领域不像手机 APP 那样，瞬间可以凭一款应用获得数百万的用户，AI 芯片更像马拉松长跑，比的是耐力，而不是冲刺速度，在这场比赛中，不是要看谁跑得快，而是要看谁有潜力到达终点，谁在中途不走岔路。探境作为创业公司，虽然进入市场比较晚，但是这也是一个拐点期，市场教育工作已经完成，后面市场竞争还是看核心技术，我们的优势在于软件和硬件都自主研发，因此算法移植非常快，我们将从智能家居领域开始，先打好地基，再逐渐加码，等待市场大潮的到来。