视觉语言技术造就高智商机器人

时间：2020-07-19 10:20:12

关键字： AI 机器人视觉语言

手机看文章

扫描二维码
随时随地手机看文章

[导读]如今，世界科技飞速发展，视觉语言导航技术日臻成熟，高智商的机器人正向我们走来。人类开发人工智能的未来目标，如同现在科幻电影所呈现的场景一样，智能机器可以独立“看、听、思、行”，具备像人类一样的语言理解系统、视觉感知系统、自我理解与行动的能力，最终成为人类的完美“替身”。

如今，世界科技飞速发展，视觉语言导航技术日臻成熟，高智商的机器人正向我们走来。人类开发人工智能的未来目标，如同现在科幻电影所呈现的场景一样，智能机器可以独立“看、听、思、行”，具备像人类一样的语言理解系统、视觉感知系统、自我理解与行动的能力，最终成为人类的完美“替身”。

视觉语言导航，指的是让智能体跟着自然语言指令进行导航，同时理解指令与视角中可以看见的图像信息，然后在环境中对自身所处状态加以调整、修复，做出对应的动作，最终到达目标位置。比如，我们把机器人放置在一间卧室里，让它去取放在另一间卧室里的足球。因为房间无法通视，机器人需要走出房间，经过走廊、客厅等场所，并通过推算看到的每一处环境信息，来判定下一步行进方向，最终定位找到足球。

由此可见，视觉语言导航涉及计算机视觉、自然语言处理和自主学习三大核心技术。

先进的科技成果往往备受军事领域的青睐。世界许多国家已开始致力于视觉语言导航在人工智能上的拓展运用，打造智能战争机器，抢占打赢明天战争的前沿高地。

计算机视觉，让智能机器“看清”世界

计算机视觉是一个跨领域的交叉学科，包括计算机科学、数学、工程学、物理学、生物学和心理学等。

在人工智能里，计算机视觉可以类比人类的眼睛，是在感知层上最为重要的核心技术之一。它能让智能机器人灵敏地辨识“眼”前的一切，并对捕捉到的图像数据信息进行分析识别、检测、跟踪等。嵌入计算机视觉技术的智能武器，可以通过视觉系统，精准辨识和区分目标的主次、真伪，大大提升作战效率。

据悉，现在技术人员读取由无人机传回的战场态势数据，每天的工作时间要超过10个小时。这与瞬息万变的未来战场不相适应。然而，当计算机视觉技术应用于战场智能侦察装备前端时，可从海量信息中有效过滤无关信息，向作战人员提供甄别处理后的视觉态势图，指挥决策效率随之提升。

当前，世界发达国家的部分装备已经开始应用该项技术。如美军搭载计算机视觉技术的iRobot侦察机器人，就是其中之一。它可以警告作战人员有伏击或其他危险，经过处理的态势感知，能够明确指出目标坐标，或提示危险等级。该侦察机器人还可准确传回有价值的态势视频与相关建议指令，缩短己方在战场上的决策周期，从而把握行动优势。

近年来，俄军也在大力开发人工智能系统。其自主研制的陆战机器人，可在遥控下完成巡逻、侦察、追踪、阻截、攻击等任务;形似军犬、快速奔跑的机器人，可供火线运输弹药给养;铲车式机器人，可将战场上的伤员用铲斗送回后方等。俄军部分导弹也已装有人工智能设备，在导弹飞向预定目标时，若人工智能设备在途中甄别出价值更大的目标，导弹可自动转向进行攻击。在这些先进的武器中，都能看到计算机视觉的影子。

在民用领域，计算机视觉技术已陆续应用到安防、自动驾驶、医疗、消费等活动中。这也是当前人工智能细分领域中发展最快、应用最广、炙手可热的技术之一。

随着算法的更迭、硬件算力的升级、数据的大爆发，以及5G带来的高速网络，无论在民用领域还是军用领域，计算机视觉技术的应用将会有更大的空间。

自然语言处理，让智能机器“听懂”指令

简单地说，自然语言处理就是用计算机来处理、理解以及运用人类语言(如中文、英文等)，它属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。

自然语言处理的历史发展大致经历了3个阶段：20世纪40年代到20世纪50年代属于萌芽期，英国科学家艾伦·麦席森·图灵的计算机算法模型为现代计算机科学奠定了基础;20世纪60年代到20世纪80年代属于发展期，机器翻译技术日渐成熟，并被应用于实际生活;20世纪90年代后属于繁盛期，随着计算机计算量、计算速度以及万维网的爆炸式发展，自然语言处理技术也随之在更多方面得到长足进步。

众所周知，语言是人类区别于其他动物的根本标志之一，没有语言，人类的思维也就无从谈起。所以，自然语言处理技术体现了人工智能的最高任务与境界。也就是说，只有当智能机器具备了处理自然语言的能力，才算实现了真正的智能。这样，人类才能与机器人进行无障碍语言沟通。

如今，自然语言处理在军事上的应用越来越多。比如，在指挥控制上，通过高辨识度的语音系统，指挥员可以在作战中直接用语音实时控制雷达、无线电、火力等作战单元，省去繁琐的指挥流程，集中精力专注于作战谋划;在通信保障上，语音增强技术能够减弱噪声对智能机器语音信号的干扰，减少听话人的疲劳和沟通失误;在人机交互上，典型代表是人机口语对话系统，人类通过自然口语与复杂的智能机器系统进行交互，包括语音识别、语言理解、语言生成、语音合成、对话管理和知识库等。

提起“台风”战斗机，相信军迷们都不会陌生。它是由英国、德国、西班牙、意大利联合研发的，最大的技术亮点是搭载了直接语音输入系统，飞行员可以通过语音下达命令，控制战机的传感器、武器以及自卫系统。

除此之外，自然语言处理在不少国家的医学、互联网监控、执法部门的犯罪预防以及大数据反恐应用等领域也很受欢迎，极大地提升了任务执行效率。

自主学习，让智能机器“蜕变”成长

婴儿刚出生时，只会用眼神、哭泣、欢笑与周围的人交流。随着一天天长大，他们不断扩大接触观察范围，学会了走路、说话、做游戏等，慢慢建立起自己的思维体系。这就是人类的一个自我学习成长过程。人类大脑拥有860亿个神经元、数万亿个传递信息的结构——神经突触。神经突触的重要特征是具有可塑性，即允许神经元对记忆进行编码、学习和自我修复。

人工智能的自主学习技术，就是让机器人像拥有人类大脑、甚至超越人类大脑一样，可以通过思考学习实现自我完善。在很多人眼里，自主学习能力是人工智能与人类智能的天然鸿沟。当前，伴随该项技术的发展，这一鸿沟正在被逐渐填平。

2019年11月，在捷克布拉格召开的第二届计算机视觉与模式识别国际会议上，评分第一的论文主要贡献就是为智能机器提供了自主学习反馈机制，让其自主导航时能够实时询问自己的知识储备。

“这条路对吗?”“到目的地了吗?”……拥有学习反馈机制的智能机器，根据预设环境信息与实际对比，在行动过程中形成“是非”观念，让智能机器真正变成有思想的“机器人”。

究其根本，智能机器“是非观”的形成，离不开强化学习，这种学习方式是当今人工智能最热门的研究领域之一。

说到这里，我们不能不提无师自通的“围棋高手”阿尔法元(AlphaGo Zero)，它的一鸣惊人也正是利用了新的强化学习方式。从一个对围棋“零”储备的神经网络开始，接着与强大的搜索算法相结合，神经网络在博弈中不断被调整更新后，与搜索算法再次重新组合，循环往复，系统性能经过每一次迭代持续提高，使得神经网络预测越来越精准，阿尔法元也拥有了“战无不胜”的本领。可以说，它也让人工智能离“像人类一样”更近了一步。

如果把自主学习技术应用于军事无人装备上，并按照战斗力水平划分等级，那么自主学习级和智能对抗级应该属于“王者”级别。

自主学习级，就是不再局限于人为提供的学习样本，可以边执行任务边组织学习，并且遇强更强，灵活应对任务过程中出现的未知事件;

智能对抗级，是指无人装备在具备自主学习智能水平的基础上，形成自身的核心价值，能够短时间内适应未知的任务环境，迅速理解周围局势并做出判断，完成作战任务。

随着技术的发展，智能机器感知环境、识别语言、自主学习的能力越来越强大。这些能力的提升，不仅使智能机器成为人类分担任务的得力帮手，也或将让它成为未来战场的主角。