自然语言和三维姿态模型结合,AI研究者将文字转成肢体语音
扫描二维码
随时随地手机看文章
卡内基梅隆大学(Carnegie Mellon University)的人工智能研究人员发明了一种人工智能代理,能够将文字转化成身体动作。这种方法被称为Joint Language-to-Pose,或JL2P,它将自然语言与三维姿态模型相结合。
JL2P动画目前仅限于简笔画,但将文字翻译成类似人类动作的能力有朝一日可以帮助类人机器人在现实世界中执行物理任务,或帮助创意人员为视频游戏或电影等制作虚拟人物动画。
JL2P能够做一些比如走路或跑步,演奏乐器(如吉他或小提琴),遵循方向指示(左或右),或控制速度(快或慢)的动作。这项研究最初发布于arXiv.org上的一篇论文,并且将于9月19日在魁北克举行的3D视觉国际会议上由CMU语言技术研究所的研究员柴坦雅·阿胡亚(Chaitanya Ahuja)与合作者共同发表。
“我们首先根据完整的指令来预测动作序列从而优化模型,”论文写道。这个简单的任务可以帮助模型学习非常短的姿势序列,比如走路时的腿部动作、挥手时的手部动作和弯曲时的躯干动作。研究人员声称,与SRI国际研究人员2018年提出的最先进的人工智能相比,JL2P在人体运动建模方面有9%的提升。
据了解,JL2P使用KIT动作语言数据集进行训练。该数据集由德国高性能仿人技术公司(High Performance Humanoid Technologies)于2016年推出,将人体运动与自然语言描述相结合,将长达11小时的人类运动记录映射到大约6200多个以8个单词成一句的英语句子中。