科大讯飞的语音识别为什么那么准?
扫描二维码
随时随地手机看文章
近日,锤子新机发布会让科大讯飞语音输入法火了!大家纷纷表示:不管说得多快、多复杂,这款神器都能识别。甚至前几天一个搞电影的盆友拿着这款神奇对一个从事IT行业近10年的我普及了下什么叫语境识别,瞬间我感到世界翻转了……为了表示我这些年不是白干的,我决定简单解释下为啥科大讯飞语音输入法辣么准。
这一切源于一个叫“深度学习”的东西。深度学习是在于建立、模拟人脑进行分析学习的神经网络,使得机器能从大量历史数据中学习规律,从而对新的样本做智能识别或对未来做预测,以达到具有人类一样的思考能力。
影响深度学习发展有3个前提条件:算法、计算和数据。随着互联网技术的发展,人类可获取利用的数据正以爆炸式增长,预计2020年全球数据量将超过4万亿GB,这解决了深度学习发展的数据获取问题。在算法方面,目前最常用的是DNN算法(k近邻分类算法),它能比较好地模拟人脑神经元多层深度传递的过程,解决智能语音中的复杂问题,那么接下来就是计算了。据了解,人类大脑大致有1000亿神经元,每个神经元有大约5000个神经突触,要使机器无限接近人类的思考能力意味着要模拟出更多的神经元和神经突触,这就会带来巨大的计算挑战。
为了提升智能语音识别率,科大讯飞很早就宣布了“讯飞超脑计划”,计划将模拟人脑神经元的1/10,以期让该公司的智能语音设备拥有初步的人类思考能力。要实现人脑神经元的1/10的深度模拟,意味着科大讯飞面临着数千倍训练数据及数千倍模型参数的巨大挑战。更大规模、更多存储的超算集群、更优的深度学习并行化及集群调度算法和深度定制的人工神经网络专属芯片系统也成为了科大讯飞的迫切需求。
提到这里,不得不提下浪潮。浪潮在很早之前就跟科大讯飞展开了合作,浪潮为科大讯飞设计构建的高性能计算集群采用NF5280M4、NF5288M4服务器做集群节点,其中每个NF5280M4服务器配置1块NVIDIA M40加速卡,每个NF5288M4服务器配置4块NVIDIA M40加速卡。目前,这几款服务器已经应用在科大讯飞等众多公司支持深度学习应用。