机器人大脑需要漫长的积累才能沉淀
扫描二维码
随时随地手机看文章
2015年8月孙正义曾经在发布会上预言机器智能将在2018年超越人类智能。现在2018年还剩下几天就要过去了。机器智能超越人类智能了吗?
我们看到这么多年来,在语音识别和图像识别方面,机器智能确实在飞速发展。
但,语音识别和图像识别只是机器智能的一部分。在自然语言交互——语义理解方面,市场上始终没有很好的产品。
SIRI视频中描绘的景象和我们在科幻片中看到的智能机器人,他们和人类的交互方式都是自然语言交互。他们都对语义理解有很强的依赖性。实际上,只有做好语义理解,人类才能和机器人进行自然语言交互,机器人才能普及,人工智能时代才会到来。
就在前不久,我们收到了JIBO卖掉的消息。很多人估计是看了JIBO创始人发布的视频才进入机器人行业的。我一直是看衰JIBO这个产品的。因为他们的视频做得太棒了。完全不顾技术基础。一般那样做宣传的公司都会死掉,因为给用户的预期太高了。做好自然语言交互是非常非常非常难的。
以前我讲语义理解,人家不知道是什么,以为只是语音识别的附属品。现在越来越多的人知道语义理解是个细分领域。比如,“前进”到底是什么意思?语音识别识别出这个字,但理解是什么意思,就是语义理解的工作。有时候语义理解是在语音识别之后的。但用文字和机器人交流的时候,就只有语义理解没有语音识别。
JIBO没解决好的问题,可能有一部分就是语义理解。
几年以前就有公司宣布他们做机器人操作系统。百度就一直在推DurOS,他们推的就是机器人的操作系统。但比起操作系统,机器人更需要一个大脑。为什么呢?
首先讲讲什么是机器人大脑。我们和一个人聊天,即使对方没听清你说的什么,他依然能从只言片语推断出你的意图。这是因为对方是有智慧的。如果机器人要理解人类自然语言,一样需要拥有人类的智慧。机器人大脑是一套系统,它让机器拥有近似人类的智慧,能让机器理解人类自然语言。自然语言就是我们日常交流使用的语言,它和机器语言是相对而言的。自然语言的特点就是不标准、不完整、不稳定。而机器语言是命令化的,它的特点就是标准、完整、稳定。
比如,我们需要机器帮我们查账户余额,据有人统计过,我们人类可以用7000多种不同的表达来表达这个意图。这是自然语言的不标准性。倒装句,同义词等等都会导致表达的不标准。
我们经常说省略句,有时按约定俗成进行表达。这都是自然语言的不完整性。比如上一句说“你公司有多少人”,下一句就会省略掉主语说“在哪里”。
我们说“中国足球谁都打不过”,目前看是贬义。假设过了很多年,中国足球天下第一,见谁灭谁,还是这句话,一个字都没变,语义却成了褒义。
操作系统只能处理标准化的机器语言,机器人需要的是能处理自然语言的拥有人类智慧的机器人大脑。语义理解是机器人大脑的核心。如果让操作系统处理语言,机器就还是个机器。比如你说“前进”,语音识别识别成了“天津”,机器打开天津地图。这就是操作系统在处理。如果换成机器人大脑,它要思辨一下用户的意图是什么?根据用户的意图给出用户处理结果。如果是在运动控制状态下,即使语音识别把“前进”识别成了“天津”,依然按照前进处理。
做好机器人大脑不光是个技术活。它首先是一门哲学,其次是一门科学、最后才是个技术,是个工程。
现在恐怕没有关于机器人大脑的权威定义。因为人们对这件事的认知还比较浅。很多人不认为机器人需要个大脑,有操作系统就够了。其次机器人大脑系统结构应该是啥样的?几乎没人能讲清。最后,作为机器人大脑的核心的语义理解是什么,也没多少人能讲清。很多人认为搜索就是语义理解。很多人用搜索技术做语义理解。这是认知的部分,是哲学的部分。很多人在认知上存在局限,自然做不好机器人大脑。
在我们看来,机器人大脑由以下几个部分构成:
第一:系统结构。操作系统的结构是菜单式的。它是面向用户的,它展示一个用户可以理解的菜单给用户操作。机器和人通过自然语言交互,它理解人,不需要人理解它。它的系统结构是平行的。从一个任务(对话场景)到另一个任务(对话场景)通过思辨完成,可以自由切换。想进入则进入、想退出则退出、不想进入则不进入、不想退出则不退出。
第二:自然语言语义理解能力。这部分功能主要是理解用户通过自然语言表达的用户意图。我们提出了语义理解的四个标准:差异原则、同一原则、模糊原则、一致原则。差异原则即理解语言的细微差异。比如“你干什么的”和“你干什么”,差一个“的”,语义不一样。同一原则处理一个问题的多种表达。比如“员工可以带家属参观公司吗”和“家属可以参观公司吗”关键字不同但语义相同。模糊原则是指对用户表达的容错;即使用户表达有一定错误,也能处理。比如用户说“给我往前周”,就应该理解成“给我往前走”。我们有语音相似计算工具专门处理这个。一致原则就是机器人说的话要前后一致。不能一会说“我是男的”一会说“我是女的”。要做到这四点还是很难的。
第三:知识。其实一个7-8岁的小孩的智力水平已经和成年人很接近了。他们只是学的知识不够多。系统和自然语言处理能力只是决定了机器人的智力水平,只有机器人拥有知识才能变得更加聪明。因此需要培养机器人,就是教机器人知识。这部分工作虽然难度不大,但工作量很大。需要全社会一起协作才能完成。互联网和移动互联网之所以强大就是因为有大量内容。而这些内容是全社会一起参与提供的。机器人的知识也需要全社会参与建设。
自然语言语义理解是科学的部分。系统开发是技术的部分。整个机器人大脑建设是工程的部分。
我认为整个机器人大脑建设的工作量要比登月工程大多了。
通常说一个机器人很聪明,基本都是感觉上的判断,没有客观评测标准。即使大名鼎鼎的图灵测试也是感官上的评测。只有系统结构机器人大脑,才能对机器人大脑的优劣做出评测。