AI与5G如何赋能机器人产业
扫描二维码
随时随地手机看文章
(文章来源:电子工程世界)
目前常用的视觉传感器主要有:摄像头、ToF 镜头和激光雷达技术。机器视觉相机 。机器视觉相机的目的是将通过镜头投影到传感器的图像传送到能够储存、分析和(或者)显示的机器设备上。可以用一个简单的终端显示图像,例如利用计算机系统显示、存储以及分析图像。
激光雷达技术 。激光雷达是一种采用非接触激光测距技术的扫描式传感器,其工作原理与一般的雷达系统类似,通过发射激光光束来探测目标,并通过搜集反射回来的光束来形成点云和获取数据,这些数据经光电处理后可生成为精确的三维立体图像。采用这项技术,可以准确的获取高精度的物理空间环境信息,测距精度可达厘米级。
ToF 摄像头技术 。TOF 是飞行时间(Time of Flight)技术的缩写,即传感器发出经调制的近红外光,遇物体后反射,传感器通过计算光线发射和反射时间差或相位差,来换算被拍摄景物的距离,以产生深度信息,此外再结合传统的相机拍摄,就能将物体的三维轮廓以不同颜色代表不同距离的地形图方式呈现出来。视觉技术包括:人脸技术、物体检测、视觉问答、图像描述、视觉嵌入式技术等。
人脸技术:人脸检测能快速检测人脸并返回人脸框位置,准确识别多种人脸属性;人脸比对通过提取人脸的特征,计算两张人脸的相似度并给出相似度百分比;人脸查找是在一个指定人脸库中查找相似的人脸;给定一张照片,与指定人脸库中的 N 个人脸进行比对,找出最相似的一张脸或多张人脸。根据待识别人脸与现有人脸库中的人脸匹配程度,返回用户信息和匹配度,即 1:N 人脸检索。
物体检测:基于深度学习及大规模图像训练的物体检测技术,可准确识别图片中的物体类别、位置、置信度等综合信息。视觉问答:视觉问答(VQA)系统可将图片和问题作为输入,产生一条人类语言作为输出。图像描述:需要能够抓住图像的语义信息,并生成人类可读的句子。视觉嵌入式技术:包括人体检测跟踪、场景识别等。
SLAM,全称叫做 Simultaneous LocalizaTIon and Mapping,中文叫做同时定位与建图。在SLAM 理论中,第一个问题称为定位(LocalizaTIon),第二个称为建图(Mapping),第三个则是随后的路径规划。通过机器视觉的映射,机器人可以通过复杂的算法同时定位并绘制出位置环境的地图,通过 SLAM 技术可以有效解决规划不合理,路径规划无法覆盖所有地区,导致清洁效果一般的问题。
当完全不含 SLAM 的时候,由于没有地图没有路径规划,扫地机器人每次碰到障碍物会沿着随机方向折返,无法覆盖到每一个区域。当有 SLAM 的时候,可覆盖至任意区域。此外,扫地机器人还配备摄像头,用来识别鞋、袜子、动物粪便等物品,达到智能规避。
机器人中,基于 ToF 技术,主要可用来进行高精度测距与定位,目前常用的就是超宽带定位技术。UWB(超宽带)是一种无线通信技术,可用于高精度测距与定位。UWB 传感器精简设备分为标签和基站两种。其基本工作方式是采用 TOF(TIme of flight)的方式来进行无线测距,根据测距值快速准确计算出位置。
人类获取信息的手段中 90%依靠视觉,但表达自己的方式 90%依靠语言。语言是人机交互中最自然的方式。但是自然语言处理 NLP 的难度很大,在语法、语义、文化中均存在差异,还有方言等非标准的语言产生。随着 NLP 的成熟,人类与机器的语音交互越来越便捷,也将推动机器人向更“智能化”发展。
机器人的阵列式麦克风和扬声器技术已经比较成熟,随着近年智能音箱+语音助手的快速发展,麦克风阵列和微型扬声器被广泛使用。 在钢铁侠陪伴机器人中,与用户的语音交互都依靠麦克风阵列和扬声器,此类陪伴机器人就如同会动的“智能音箱”,拓展了边界形态。目前对话机器人可分为通用对话机器人和专业领域对话机器人。自然语言处理的技术发展,将提升机器人与人类的交互体验,让机器人显得更为“智能”。