对话微软小冰三大首席科学家：微软第一美少女AI的成长之路

时间：2019-12-18 08:30:01

关键字：人工智能小冰微软

手机看文章

扫描二维码
随时随地手机看文章

[导读]11月21日，微软（亚洲）互联网工程院在北京微软总部召开了微软小冰2019年年度研究进展分享会，微软小冰三大首席科学家—;—;微软小冰首席科学家宋睿华、微软小冰首席NLP科学家武威、微软小冰首席语音科

11月21日，微软（亚洲）互联网工程院在北京微软总部召开了微软小冰2019年年度研究进展分享会，微软小冰三大首席科学家—;—;微软小冰首席科学家宋睿华、微软小冰首席NLP科学家武威、微软小冰首席语音科学家栾剑在会上展示了微软第一美少女AI小冰近期的技术突破，带来了相当硬核的技术干货分享。

左：武威中：栾剑右：宋睿华

一、会比喻懂常识越来越像人的微软小冰

—;—;会比喻的小冰

语言无疑是复杂的，其包含了陈述、疑问、反问、比喻、修辞乃至“阴阳怪气”等只有人类才能领会并熟练运用的微妙技能，所以当微软小冰首席科学家宋睿华表示小冰已经学会使用“比喻”时，着实令人震撼。

而且小冰不仅仅做到了诸如“爱情是复杂的，像数学一样”简单形容词比喻，甚至可以实现“灵魂就像球迷一样，在无声地呐喊”、“爱情就像是脂肪，是点点滴滴的积累”这样的动词与名词形容句，而且毫无违和感。

宋睿华介绍道，为了帮助小冰学会“比喻”这项技能，他们从复杂的诗歌中挑选了6大类，每类122个主题，并通过小冰聊天日志过滤出了包括爱情、内心、世界、母亲、美丽、人类在内的96个常用比喻概念。随后从1000个常用词中选取了3000个最常用的形容词扩充小冰的比喻能力。

比喻句的基本结构是“XX像XX”，其中前者是比喻的本体，后者是比喻的喻体，说好一句比喻的重点无疑在如何筛选本体和喻体上，并且还要为这句比喻提出一个合理的支撑点，避免出现“恋人像报表，都十分可靠”这种奇怪的比喻。为此小冰会对比本体与喻体的可能存在的相关词汇。

比如爱情与国足，它们共同的相关词汇可能有未来、虚幻，那么小冰就可以作出“爱情就像国足，未来都是虚幻的”这样自然的比喻句。

—;—;懂常识的小冰

常识对人类而言是一个非常简单事情，比如提到北极熊时就很少会有人说“这是一只白色的北极熊”，因为常识默认北极熊是白色的，大多数人都会省略到这种众所周知的常识性信息。

但对于小冰而言，这种省略会对它的理解造成困扰，比如一篇描写北极熊捕食的文章在描述“北极熊在接近海豹前会用爪子捂住鼻子”时，人类会自然懂得这是为了挡住鼻子的黑色防止海豹看到自己，但缺乏上下文的对话机器人就会很难理解捂住鼻子的原因是什么。

为此微软为小冰增加了常识与“记忆”能力，当一句话提到某个概念时小冰会自动“回想”起与其相关的图片，并识别出图片上的特征。而且与业界”一对一“文字与图片对应能力不同的是，小冰可以做到”一对多“，比如一句话中同时提到了老奶奶与鹅，小冰就可以同时”回想“起老奶奶与鹅的照片，帮助自己更好地理解这句话。

二、日本出道成歌手小冰如何学会唱歌？

微软小冰会唱歌已经不是什么秘密，在此前的微软小冰发布会中，小冰已经演唱过中文、日文、戏曲等多种语言和类型的歌曲，前一段时间甚至发布了翻唱的”野狼Disco“。微软小冰首席语音科学家栾剑在会上分享了让小冰跨界唱歌技术干货。

首先栾剑谈到了让小冰学习唱歌的原因，他表示小冰推出后经过努力语音合成领域一些大的问题已经解决了，于是就开始寻找更有挑战性的课题，此时比说话门槛高、情感更丰富、人们喜闻乐见的唱歌就自然成为了微软的下一个目标。

唱歌包含了发音、节拍、旋律三大要素，机器可以通学习人类的歌声和识别五线谱两种方式进行学习。为了为小冰提供素材，微软甚至与一家拥有十几年历史的唱片公司合作。但这里遇到了一个教材问题。

唱片公司很少保留歌手清唱的录音，但对于机器而言清唱的干扰最少，最适合学习，为此微软甚至发表了一篇论文，提出了输入原始波形、全卷积网络+残差连接、软分类标签3大创新，实现了从伴奏中把人声部分准确地截取出来的能力。

后面的问题就是如何更自然地合成歌声，这方面微软选择了比传统单元拼接更自然的参数合成法，并且为了进一步提高小冰的”唱歌技巧“，微软选择了用一个模型预测三大要素困难模式，最终使得小冰的歌声自然度和流畅度有一个明显的提升。

当然微软科学家辛苦付出让小冰学会唱歌并非只是培养她的业余爱好，其商业化前景也是不可限量。比如小冰的日本分身凛菜（りんな）已经与日本最大唱片公司AVEX正式签约，成为滨崎步、安室奈美惠等叱咤国际乐坛多年的著名人类音乐人的同门师妹。

除了专业的歌唱领域，会唱歌的小冰还能覆盖到儿童机器人以及儿童陪伴APP中，会中微软工作人员透露小冰该领域份额高达70-80%。

三、小冰成长的背后：Self-Complete

自2015年小冰诞生以来，其已经进化至第七代，实现了从“平等对话”向“主导对话”的跨越式升级。但在背后究竟是什么在支撑它从一介聊天机器人迅速成长为业界巨擘？微软小冰首席NLP科学家武威进行了详细解答。

武威表示，Self-Complete（自我完备）可以很好地概括近些年来微软在小冰身上的研究成果。而一个具有Self-Complete能力的对话机器人涵盖了三种能力：学习、管理、联结。

首先是学习。对话机器人对话的过程其实就是一个检索自己的候选回复，然后通过检索模型来找到最匹配的回复，检索模型直接关系到对话能力。而微软则为检索模型引入了外部知识，在知识层面、词语层面、短语层面进行融合，开发出了业界最好的模型之一。目前微软的检索模型已经成为了各种做检索模型必比的一个基线模型。

此外微软也探索了让两个检索模型互相训练的尝试，并开发出了Co-teaching算法，取得了相当好的效果，经过Co-teaching互相教的每一个模型都实现了明显提升。

其次是自主管理。此前第六代小冰引入了共感模型，可以对对话过程进行把控，通俗的讲，就是让小冰能实现了主导与人类对话的能力。

共感模型背后包含了决定小冰说什么内容的回复模型与决定小冰怎么说的策略模型，这两个模型结合在一起就把微软小冰从原来基于上下文直接产生回复的模式，变成了从上下文到决策，然后再根据这个决策来决定自己说什么。

凭借着自主管理能力，小冰可以通过问问题快速了解用户意图，进行商品推荐，微软在日本和美国对小冰的这种能力进行了测试，发现推荐转化率高达68%，即100个和小冰聊天的客户中会有68个人进店查看小冰推荐的商品。

当然上述案例仅仅小冰拥有自主管理能力后的应用之一，其未来前景不可限量。

最后就是联结了，联结本质上是多模态交互，即小冰可以同时处理对话、语音、文本、多媒体等各种形势的资源，进行消化吸收，最终可以将它们有机联结起来。

微软在今年2月份，已经在日本公测了多模态交互功能，为小冰在日本的分身凛菜增加了视觉能力。当地记者携带着配有摄像头的“日本美女高中生”凛菜，在水族馆中游览，在测试中，凛菜在识别出当前画面的同时，也能就当前画面与用户展开深入交流。例如看到鱼之后，会联想到鱼的大小、颜色、种类与鱼翅（本质吃货？），让用户获得了近似真人的聊天体验。

四、总结：邻家有女初长成

会上微软同时披露了微软小冰在应用上的最新进展，截止目前，小冰已经入住了超过30个平台，搭载小冰的智能设备数量已经超过了4.5亿部。而小冰的CPS（对话轮数，即用户与小冰的可以对话多少轮）高达23，换句话说，平均每个小冰用户都会与小冰聊上23轮，这是一个相当惊人的数字。

虽然受限于商业合同，微软无法全面公布小冰在商业化上取得的成绩，但从上述几个数字中不难想象，凭借着微软在小冰背后的科研投入与成果，微软小冰已经成为人工智能产业中一个难以忽视的存在，其所存在的广度与深度已经远远超出人们的想象，而它也正如一个18岁少女一样，冉冉升起，未来可期。