IBM 送给 AI 开发者的礼物:傻萌的入门级 Watson 机器人
扫描二维码
随时随地手机看文章
Watson 开发者大会上,IBM 发布了 TJBot ——能组装出上图所示纸板机器人的 DIY 工具组合。可不要因为傻萌、简陋的外表小看它,它本质上是基于 Watson 的可编程 AI 。早在发布纸箱版本之前,遍布全球的开发者就已创造出激光切割和 3D 打印的 TJBot:包括南非、肯尼亚、意大利、德国、瑞士、巴基斯坦、加拿大和香港。多个开发者团队表示有兴趣与 IBM 合作,为 TJBot 设计新的使用场景:从用于机器人/认知课程的教学,到关怀老年人、开发谈话代理的企业级解决方案。
IBM 发布的如何制作 TJBot、如何对 它编程的指令集(被称为“菜单”),在 Instructables 在线开发者社区广受好评。该项目在社区主要页面都有体现,并已收到 21000 份用户评论。TJBot 被各种层次的开发者所接受,从初学者到专家。大家用它来创建能学习、推理、与人自然交互的认知对象。
简化设计——为开发者而开发
TJBot 项目的初衷,是成为用户体验和试验“具象化认知”的入门素材。“具象化认知”是指把 AI 技术植入到它已经在与之交互的设备、物体、空间里。如果这个过程足够简单,用户们会创造出什么来呢?会产生什么样的设计思路?TJBot 帮助寻找这些问题的答案。作为大家都买得起的 DIY 工具,它把“具象化认知”的创新过程民主化。
为了这一目标, TJBot 项目的一个指导原则是“简单”。这在硬件零件,和编程语言平台的选择上得到体现。从最基本的原型机工具入手,IBM 测试了各种 LED,麦克风、扬声器和伺服电机;最后选择出小巧、功能多样但又容易上手的模型。同样地,控制这些传感器的软件使用 Nodejs 编写,它是一个用 JavaScript 开发软件应用的开源、跨平台的运行环境。
借助传感器和 Watson 实现多种功能:
作为原型机,TJBot 的技能树正在不断扩展:它现在已经能说话、进行语音识别、挥手和跳舞。这些能力由它内置的传感器、以及一系列认知服务来实现。比如,TJBot 的说话功能由 Watson 文字到语音服务在软件层面完成,然后通过扬声器播放出来。同样的, Watson 语音到文字服务,以及 TJBot 的麦克风,组合起来使它能进行语音识别。这些技能可以被进一步组合,创造出新的应用场景,比如说创建虚拟代理或者数字助手。
新增加菜单
目前,TJBot 在 Github 的工具库包含三个基本“菜单”:让 TJBot 对简单语音命令做出回应的代码,分析推文的情绪并回复,还有让 TJBot 作为谈话代理。社区的开发者们由为它加入了两个菜单:TJWave 和 Swifty TJ。TJwave 很有趣,它展示给开发者如何控制 TJBot 的手臂。它还包含额外功能:让 TJBot 随音乐“起舞”:TJBot 会播放一段音乐文件,提取其中的节拍和峰值,然后随之挥手。控制 TJBot 的小短手还能用来使语音交互更生动,以及模仿人类说话时的手部动作。Swifty TJ 展示了如何用 Swift 语言控制 TJBot 上的 LED。随着 TJBot 的菜单目录不断扩大,Swifty TJ 为 Swift 开发者给 TJBot 写代码提供了出发点。
下一步
2017 年,IBM 将专注于在三个领域提升 TJBot:开发,维护和学习。
开发:IBM 会不断对现有菜单进行改进,同时探索纸板机器人的新技能。一个例子是:IBM 刚刚利用 TJBot 的摄像头传感器(配合相关软件应用)实现了它的视觉识别能力。
维护:发展并维护 TJBot 开发者社区,把 TJBot 介绍给新用户,分享新菜单、用户难题和反馈。
学习:或许,这是下一步最重要的事。这包含对开发者使用体验、终端用户使用体验的调查研究,以提供更好的设计思路和对认知应用的设计指导。