科大讯飞李世鹏：答AI技术的当下战局，给AI创业者的九条建议 | CCF-GAIR 2019

时间：2019-07-29 12:24:01

关键字： 2019 AI ccf-gair 智能语音

手机看文章

扫描二维码
随时随地手机看文章

[导读]记者(公众号：记者)按：7月12日-7月14日，2019第四届全球人工智能与机器人峰会（CCF-GAIR 2019）于深圳正式召开。峰会由中国计算机学会（CCF）主办，记者、香港中文大学（深圳）承办，

记者(公众号：记者)按：7月12日-7月14日，2019第四届全球人工智能与机器人峰会（CCF-GAIR 2019）于深圳正式召开。峰会由中国计算机学会（CCF）主办，记者、香港中文大学（深圳）承办，深圳市人工智能与机器人研究院协办，得到了深圳市政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会，旨在打造国内人工智能领域极具实力的跨界交流合作平台。

人工智能发展至今，已经开始走入各类行业，诸如AI+教育、AI+医疗、AI+交通等在当下备受关注。而在人工智能技术体系中，文本、语音、视觉是当下最火的三大关键技术，大数据、物联网、云计算又是当下三大关键技术体系，各类行业应用也都是基于这些技术进行的应用。

尽管如此，随着AI越来越深入行业，对算力、算法的要求越来越高，对计算架构的精准性、稳定性、并发性等关键性能要求越来越高，AI究竟会走向何处？

在CCF-GAIR 2019的「中国人工智能四十年专场」论坛上，科大讯飞集团副总裁兼讯飞研究院联席院长李世鹏博士发表了《人工智能技术大规模应用的挑战和机遇》的主题演讲，介绍了当下人工智能的技术应用和行业布局的机遇和挑战，并就人工智能该如何走下去给出了自己的看法。

以下为李世鹏博士的演讲全文，记者进行了不改变原意的编辑：

李世鹏博士，现任科大讯飞集团副总裁兼讯飞研究院联席院长。他曾是微软亚洲研究院创始成员并曾任副院长。现任《IEEE电路与系统视频技术学报》总编辑，在多媒体、物联网及人工智能等领域极具影响力，拥有199项美国专利，并发表了330多篇被引用了21020多次的论文（H指数：74）。他培养出四位MIT TR35创新奖的获得者。李博士拥有中国科大学士和硕士学位、Lehigh大学博士学位，同时也是IEEE Fellow。李博士是（科技部）新一代人工智能产业技术创新战略联盟发起人之一及联合秘书长，同时兼任深圳市人工智能和机器人研究院（AIRS）执行院长。

人工智能的六层分布

从数据的角度来看，我们如何将人工智能分层，我这里大概分了6层：通知、算知、感知、认知、预知、决知。

其中每向上一层都代表一个更高一个层级的智能，不同层级的智能与大数据的依赖关系有所不同，我们看到其中有知识库、环境数据、用户个人数据，这些数据与相应层级间形成一个反馈，在这些数据的基础上就能达到不同层次的应用。

具体不同层次的人工智能需要哪些数据如下图所示。图中实心绿点表示确实需要这个数据，空心点表示可能会用到的数据。从底层的人工智能到高层的人工智能，代表所需要的数据种类和数据量上的跳跃。

今天的人工智能究竟达到了什么程度？

下图中有三条线，绿线是10年以前的人工智能发展情况，橙色的线是今天人工智能的发展现状，到感知智能这一层，我们基本上已经做到可以好用了。

什么属于感知智能？具体而言，感知智能包括语音识别、人脸识别、图象识别，甚至我们把机器翻译也作为感知智能的一部分。感知智能在我的定义中，它是不提供新的信息的，它只是把信息从一类表达方式转换成另外一类表达方式。例如，语音识别是把一个语音信号转换成为一个文本信号，翻译是把信息从一类语言的表达转换成为另外一类语言的表达，今天感知智能已经到了从可以使用转向好用的阶段。

认知智能还很遥远，尽管现在我们在阅读理解中，在很多其他场景中也会看到认知智能的应用，但是离真正好用还差很远。预计大概再过10年，真正的认知智能才能达到今天感知智能的技术水平。

从智能到群智：技术融合是关键

整个AI体系中有很多概念，包括人工智能、机器人、IoT，以及人和环境。它们相互之间是什么关系呢？

具体这几个元素之间的相互作用关系如上图所示，AI需要机器人或IoT来传感一些现实中的信号，反馈给它，AI处理完后，反过来影响和控制现实生活中的机器人或者其它的设备。人与机器之间的交互通过人机交互界面实现，人与AI之间的交互则是通过人机耦合实现。

每一个部分本身也会形成一个群体。人与人之间的关系形成人类社会；机器人与机器人之间的关系形成机器社会，这还是一个没被充分挖掘的领域；把所有人工智能技术融合在一起，就是类人智能。人与机器人联系在一起，就形成了物理世界的智能；人与AI联系在一起，就形成虚拟世界的智能；AI和机器连接在一起，就形成了机器的智能。

科大讯飞的AI部署：感知智能到认知智能

感知智能现在的应用有很多，在实际生活中也已经在发挥作用。以科大讯飞的应用为例，向大家介绍一下现在人工智能的发展程度。

科大讯飞成名的技术是语音技术，语音技术包括很多方面，包括语音合成、语音识别，讯飞现在的语音识别技术上居于第一梯队。科大讯飞做语音技术已经有20多年，积累了很多特有的数据。尽管如此，语音技术中要做的工作仍有很多，包括在一些细分领域，例如在人工智能和机器人领域，要想将这个领域中所有的专业名词识别得很好的话，本身就是一个很有挑战性的工作，再加上很多方言、口音。科大讯飞现在至少支持22种以上中国各地方言。我特别自豪的是，我们将中国那些一辈子不讲标准普通话的老人的世界打开了，他们今天可以用自己的方言去拥抱最先进的IT技术。

在翻译领域方面，讯飞的翻译技术已经可以达到英语六级，今年年底我们将可以达到英语八级。

此外，讯飞在计算机视觉方面也有技术布局，包括OCR技术、人脸识别技术、场景识别技术，甚至在医学领域的图象识别，我们已经走在世界前列。

认知智能方面，讯飞在斯坦福的SQuAD竞赛中，在很多方面在世界上第一次超过人类的阅读理解。2017年底讯飞的AI机器人第一次通过了国家医生资格考试，满分是600分，360分及格，我们的机器人拿到了456分，超过了96.3%的人类考生。也就是说它如果是一个人类医生，它是Top 5%的优秀学生。这些都是科大讯飞在技术上进展。

语音合成方面，今天的语音合成不止可以做到自然的声音合成，还可以做到图象合成，我们可以把声音与画面同步结合起来，这样就可以有多种应用，例如现在很多地方电视台或网站有用到讯飞的虚拟主播技术，通过自然的表现方式向用户传达新闻信息。

下图是最近几年科大讯飞在多次人工智能竞赛中取得的一些桂冠。

讯飞技术应用一：语音类产品、硬件

技术是一方面，如果我们没有切实的应用，它就只能停留在技术层面。

科大讯飞在语音和语言处理方面做了很多工作，也把它实实在在落地了，它打破了人与机器之间的交互障碍，也打破了人与人之间通讯的障碍，科大讯飞也注重文化保护、语言保护，世界上很多国家只有语言，没有文字，包括中国的一些少数民族，他们同样也没有文字，也许将来人类没有人能再听懂他们讲的话，如果机器能够听懂，并且会说，这是对文化保护的一个巨大的贡献。

在人机交互界面方面，今天的人机交互界面不单纯停留在人与机器交互的你问我答，还在于它有一定的智能。

科大讯飞的人工智能技术目前已经应用于客服及其他多种产品服务中，科大讯飞前不久刚刚发布了翻译机3.0。这款翻译机可以支持58种语言，同时还支持5种中国方言，支持7种不同的英语口音，包括英国音、美国音、澳大利亚音、印度音等。

很多国家的英语口音很难听懂，但是机器能听懂。

此外，科大讯飞还有诸如“听见”系统（实时转录和翻译）、智能录音笔、智能办公本等产品。

此外，科大讯飞现在也在行业领域不断进行探索。

讯飞技术应用二：AI+教育

第一个领域是AI+教育。从古到今，大家最习惯的就是老师在上面讲，学生在下面听，由于老师的资源缺乏，一位老师不可能有那么多精力给每位学生因材施教。今天我们通过人工智能的技术，可以做到因材施教。具体人工智能技术工作流程如下图：

简言之，具体分为以下几步：

首先，我们会采集学生在做作业、做习题、考试过程中的所有数据，我们用扫描的方法将它扫描到计算机中；

同时，我们用到前面提到的科大讯飞的OCR技术，将这些内容数字化；

然后再通过分析系统对题目进行分析，并分析学生在哪一步出了错，哪个概念不熟悉；

将这些分析结果再反馈到我们为每个学科专门做的知识图谱中，并在这个图谱上标记出每位学生对这个学科的哪些知识点是熟悉的，哪些知识点是薄弱的，哪些知识点还依赖于前面某个该学生不熟悉的知识点。

我们为每位学生定制了这样一个知识图谱，老师按一个键就可以对每位学生实现下发定制化的教学内容，同时可以做个性化的家庭作业。这样，每位学生就可以只做自己不熟悉的作业，而那些他熟悉的作业就不需要再重复做了。这样可以为学生省去很多时间，据科大讯飞粗略统计，预计能省去30%的时间，这些时间可以用来学习其它的知识，或者探索其它领域，这就是科大讯飞能够提供的个性化教育。

讯飞技术应用三：AI+医疗

我们知道科大讯飞的语音识别、OCR技术可以很容易把医生与病人的问诊记录，以及一些过去的医疗记录转成文本，数字化，然后通过我们的医疗机器人或智医助理对这些数据进行分析。

传统的一个没有经验的医生在为病人看病时，会出现误诊或是第一印象觉得是某个病，就按那个病来治疗。我们的医疗机器人不仅可以给出你患某种病的百分比，还可以将这个症状的所有可能的病症都为你列出来，并且为医生提供一些建议，告诉他可能要做怎样的检查，引导医生进行正确的诊断。讯飞的智医助理已经在安徽落地，成为全国首个智慧医院中的AI系统。

以上这些是AI在行业中的具体应用，具体AI技术当下面临怎样的挑战？

AI技术当下挑战：无止境的算力、未知应用场景

人工智能经历了三个高潮和低谷，到今天进入以大数据驱动的深度神经网络阶段，今天很多技术已经可以成熟到放在一个实际应用产品或场景中。

现在有好消息，也有坏消息。

好消息是：基于深度学习的AI在某些领域已经超过了人类，大家在用AI提高工作效率、工作有效性、准确度等方面都很有效。此外，整个工业界也知道AI的好处，现在也有很多Open AI的计算框架，让不懂AI的人可以用已有的数据做应用和服务。

坏消息是：为什么AI的发展有高峰、有低谷？有高峰是因为大家对AI的期待太高，今天的AI还不是一个真正意义的智能，它所有的智能仍是基于大数据。如果你从来没有给它某个方向、某个场景的数据，它永远无法正确处理此类数据。所以这就造成了在很多关键应用领域，例如自动驾驶中的普适安全问题。其实我对这件事情一直很担心，总有一天它会在遇到一个从来没见过的场景时无法处理，那时就可能会出事故。

因为我们今天太依赖数据，所以数据成为我们的瓶颈，这在工业界尤其明显。我们现在特别怕定制一些人工智能服务，因为你要定制的话，就意味着你要为那个应用去收集、标注很多数据，这个工作量消耗的资源是巨大的。

现在的AI还需要很强的计算能力，多少算力才足够？没有人知道。

所以我们最后还是需要有一个新的AI框架，也许我们可以从人的认知过程中吸取一些经验。

我们可以用一个开放的框架来解决部分问题，科大讯飞应该是中国最早把自己的语音识别的服务开放出来给开发者的厂商，同时今天也有很多开放的软件、用户界面、云服务、用户数据。新一代人工智能产业技术创新战略联盟一个重要的职责就是促进中国在开放平台方面的建设。

此外，在用户数据的保护方面，我们需要标准和法律，这是条很漫长的道路。

写给AI创业者的九条建议

作为一个创业者，在人工智能领域可以做哪些呢？

第一，人才培养和教育，这也许是人工智能发展过程中的一个很重要的产业；

第二，数据，以前所有的工作都靠手工去做，今天我们可以引入一些AI工具，让机器来帮助我们做大多容易做的事情，最后剩很少的数据放给人来标注；

第三，算力，到底计算应该放在端上，还是放在云上，还是一个云端边缘计算的优化？AI芯片也许还有很多的机会。

今天大家都在布局AI芯片，但是一个巨大的挑战是AI的最终框架是什么，谁也不知道。所以也许今天你做了AI芯片，为某个框架去优化，也许再过两年就会改变。我们还没有像英特尔X86这样的架构能做所有的事情。

第四，人机的有效融合，和谐发展。

现在的大数据、人工智能还有一些解决不了的问题，在一些关键领域，我们如何能让机器告诉人类，前面我遇到一个很复杂的场景，我没法处理了，人类是否应该快速介入。由此衍生出一个很有意思的课题，在机器为你推荐的时候，是不是也要给你一个可信度，这样在可信度低的情况下，人类就把它接过来，避免很多无谓的事故，或者一些大的问题。

第五，政治正确性，很多统计上有意义的事情，也许在政治上并不正确。

第六，系统，我们为什么解决问题要靠一个单一的信号源？其实把多个数据融合在一起也许是未来之路；即使做语音识别，为什么只停留在语音信号，为什么不能把你的口型、体态放进去，把我们的位置信息、时间信息都放进去，把我们知道的更高层次的数据放进去，也许对人工智能发展有更多的好处。

第七，细节，人工智能为什么越做越怕？因为最后都是在细节上，没有关于某方面的一些细致的数据，永远做不到极致。

第八，知识图谱和大数据，在今天大家都在讲知识图谱和大数据，其实还没有特别好的框架把这两者有机结合起来，我们看到很多领域大家已经在尝试这方面的工作。

第九，AI应用商店，我们知道中美之间很多不一样的地方在于美国掌握了很多应用生态，例如苹果应用商店、安卓的应用商店，在今天AI领域中，我们要不要建立一套属于我们能控制的应用生态？

例如，今天很多人在做智慧医疗，智慧医疗涉及的病种非常多，每家公司不可能全都做到，有没有一个医疗的统一的框架，大家把自己的能力、技能都放到里面去，组合在一起，会形成一个更大或者更好、更全面的系统。因而，这也是值得大家关注的一个领域。

「AI投研邦」将在近期上线CCF GAIR 2019峰会完整视频与各大主题专场白皮书，包括机器人前沿专场、智能交通专场、智慧城市专场、AI芯片专场、AI金融专场、AI医疗专场、智慧教育专场等。「AI投研邦」会员们可免费观看全年峰会视频与研报内容，扫码进入会员页面了解更多，或私信助教小慕（微信：moocmm）咨询。