怎样才能赋予机器真正的视觉

[导读] 无论是擎天柱、伊娃和瓦力或是今年大火的大白，电影中人类往往把机器想象成无所不能的“超人”，但现实呢？人类一些听、看、触摸、感知世界等最基本的能力，对机器而言都有难度，比如——视觉。或许你会说“摄

无论是擎天柱、伊娃和瓦力或是今年大火的大白，电影中人类往往把机器想象成无所不能的“超人”，但现实呢？人类一些听、看、触摸、感知世界等最基本的能力，对机器而言都有难度，比如——视觉。或许你会说“摄像头”就是机器之眼呀，但过去摄像头的核心作用只有一个：记录影像。李彦宏在2012年KDD（知识发现世界年会）上提出9大待解技术问题之一，“基于内容的的视觉搜索”指的就是这一技术难题。而现在百度率先实现了计算机视觉领域“三维识图”技术的突破，这个难题离彻底解决又迈出了关键一步。

计算机看见的世界与人眼有何不同？

目前的图像识别都用在哪些方面呢？识别二维码、书本、CD、菜单、人脸…这些机器做的都还不错，而且百度、Google等一直在探索的基于这些图像的搜索，识别率已经具备商用条件。但这些物体的共性在于，它们都是平面的。如果换做穿着的服装、行动的动物、周遭的街景、市场的蔬菜这些“非刚体”“非平面”的“三维立体空间”内容，机器的识别率就很难让人满意。核心原因在于，机器看到的世界，是被一个一个色彩像素表征的二维序列，但是对与透视、深浅、近景、远景，这些需要被“三维感知”的世界却没有很好的概念。

无法识别三维世界，导致了图像识别能力十分有限。除了必须面对一些特定的图片类型外，还需要用户稳稳拿着手机对二维码、图书封面等物体进行扫描识别，这也让手机等设备的理解能力大打折扣。识别的目的是为了理解所看到的内容，每一幕都有非常丰富的意思，人工智能识图的能力就像两三岁的孩童，儿童认知世界的过程便是基于三维世界的识别，基于二维世界识别的机器，很难在图像意义理解上取得突破。所以如何让机器知深浅、识远近，三维立体地看见这个世界，一直是科学家们努力的方向。

近日百度展示了一项最新的图像识别技术：三维识图，有望解决这个问题。

这项技术可以对三维图片进行自动的分类和检测，进而可以进行图像识别、智能裁剪、智能模糊等处理。百度与国内知名手机制造商华为合作，通过其独创的仿生学平行双镜头硬件技术平台拍摄出包含景深信息的照片，再通过一系列算法解析照片，大大提升图像识别成功率。此技术即将应用在搜索、解锁诸多方面。

华为荣耀6 Plus采用了双摄像头，与百度合作图像处理技术

三维识别的难点：硬件要求和识别效率

在百度三维识别技术推出之前，业界已有些许案例。在2014年的IntelIDF上，Intel推出了一款3D深度摄像头，它可以更好地追踪眼球、体感、表情等动态图像，会上还展示了与腾讯QQ的合作，可以对视频进行动态的“美化处理”。Google相机具备一个“智能模糊”功能，即一键实现单反相机的远景模糊效果，这说明它已经可以区分远景和深景。

三维识别的第一步是要获取或可以还原成三维图像。单个摄像头的二维属性让这成为难点。Intel与QQ的合作仍旧未能如约落地，专门的3D深度摄像头并未普及。或许是技术不成熟，或许是成本太高。有手机厂商开始采取双摄像头，模拟动物的双眼这个解决方案实现三维图像的获取（3D电影拍摄也是如此）。百度三维识图技术正是基于这一方案获取到的三维图像内容进行，引入了图像分类和检测技术，相似图检索和猜词得分上较之以前有大幅提升。

下一阶段百度三维识图技术还会引入“单目相机深度恢复算法”，即不依赖于双摄像头，而是利用普通的摄像头就可以了，具体方法为持机手臂左右位移一点点，相当于用软件实现，让用户拍摄时轻轻“摇一摇”，成本更低。其原理与光场相机类似，这是“先拍照后对焦”的新一代相机，它在拍摄时捕捉一副图片的整个光场，而不仅仅捕捉到一片光线。光场相机提供一套软件技术对所有图像数据进行处理还原，它已将核心技术进行开放。

相对Google相机的智能模糊功能而言，百度内部测试表明，其App在几款主流Android机上，识别时间效率远超Google。能够实现这一点，在于百度识别的大部分运算应该是在云端进行，百度大脑可能在后面支持。云+端的识别才是机器视觉的未来，眼睛在本地，大脑在云端。在准确率上百度表现也更好。

因此，如果能摆脱对“双摄像头”或者“3D深度摄像头”的依赖，3D图像获取将不是问题。而云+端的架构则可以让识别效率大幅提升，百度的三维识别算法就可以被普及到更多设备和更多应用之中。

三维识别给世界带来什么改变？给机器真正的视觉。

PC、手机、智能摄像头、工业摄像头、治安摄像头、交通摄像，我们周围充满着“机器眼睛”。不过这些机器在过去并没有真正的视觉。想象一下我们的视觉能力，除了可以识别静态图像之外，还可以识别三维世界的深浅、远近、模糊与清晰等等。我们可以动态识别变化的世界，瞬间完成识别过程毫无时延。不依赖特殊设备、可高效率完成的三维识别则有望给机器赋予人类一样的视觉。这是它可能带来的几个典型应用：

1、实时视觉移动搜索。

实时、视觉和移动都是搜索引擎发展的几个趋势。百度2014年改变可以边输入边搜索，就是实时化的开始。比如您可以戴着智能眼镜或者举着智能手机，边走路一边获得百度推送的答案：旁边是店铺介绍和评价、景区的百科和历史、赛事的球员资料推送……这是未来搜索必然会进入的阶段，它非常自然因此听上去有些科幻，要实现第一步就是要让机器可以动态、实时、立体识别世界，三维图像识别可以帮到这一点。百度还具有李彦宏亲子参与申请的“多轮实体识别”的专利，它与三维图像识别结合可以让人机交互更加自然。

2、工业级图像识别检索。

美国金门大桥需要收费，汽车却不需停车，因为摄像头会抓拍并识别车牌号，账单自动寄送，这应该运用了三维图像识别技术，不过有严重的滞后。如果能够做到适时识别生活中的一切物体，交通部门就可以实时发送收费、违章、违规信息给司机，甚至直接从信用卡扣款。政府部门在街上有着星罗棋布的摄像头，不过要做到智能识别通缉犯并定位抓人还是很难，因为识别能力和时间效率的问题，三维识别技术未来可能解决这个问题。总之，就是各种工业、军用、政府摄像头可以更加准确地、快速地识别真实世界的实体，进而产生大量应用。

3、更丰富的虚拟现实体验。

有一款seene的App即3D版的Instagram通过不同角度拍摄4张照片合成一张实现3D取景。百度三维识图未来可以借助这种方式实现一些增强现实应用。比如建模用户的三维生活环境，然后与社交应用结合进行远程聊天；与百度地图结合做3D街景的UGC，三维视图可以智能分类、合成和识别街景实体；基于三维视图的反向3D建模内容，与网络游戏或者电视游戏结合做增强现实的体感游戏；利用虚拟现实做在线教育，三维识图可以帮助生成各种模拟场景让学生带上头盔体验，或者可以智能跟踪识别视频中学生和老师的学习行为并分析汇总。总之，三维视图让虚拟现实建模更容易。

三维识图的成熟对于机器视觉而言将具有里程碑的意义，它让机器真正拥有跟人类相近的视觉，进而在图像信息的获取上可以接近人类。随后便可进行更多的图像意义理解，去理解这个世界，最终让这个世界更美好。李彦宏先后提出过互联网进入读图时代、未来5年50%搜索会来自语音和图像、“基于内容的的视觉搜索”是九大待解技术难题等观点，并且还申请了“多轮图像实体识别专利”。李彦宏如此重视机器视觉这块，百度在三维识图之后应该还会有更多新的成绩，让机器能听能看会思考，是百度未来重中之重。