从学术界走向工业界,AI 需要迈过的两道关卡
扫描二维码
随时随地手机看文章
根据腾讯互娱发布的《2017 Q3 AI 行业全景热度观察》,2017 年第三季度,全球人工智能公司融资总额高达 77.42 亿美元,仅比前两个季度之和低 10 亿美元,而与 2012 年同期相比则增长了 70 余倍。
虽然第四季度还没结束,但 10 月底旷视科技 4.6 亿美元的 C 轮融资额已经刷新了此前由商汤科技所保持的 4.1 亿美元的融资记录,也成为全球人工智能公司迄今为止所获得的最大一笔融资。
不难看出,火遍整个 2017 年的人工智能,到了年末依旧是势头不减,甚至很可能再次打破之前的各项融资记录。
回顾过去,从 1956 年的达特茅斯会议到今天,人工智能已经走过了 60 多年的历史。在这 60 多年中,人工智能经历过高峰,也曾跌落到低谷,但从来没有哪一次像今天这样,成为街头巷尾无人不谈的话题。虽然这一定程度上得益于移动互联网时代信息传播效率的飞速提升使得热点话题的影响力得以成千上万倍的扩大。但另一个更重要的原因是,这一次的人工智能复兴与以往的最大区别在于,它让人们真正看到了人工智能技术改变人类未来生活方式的可能性。
用李开复的话说:“今天的人工智能是‘有用’的人工智能……这一次人工智能复兴的最大特点,就是 AI 在多个相关领域表现出可以被普通人认可的性能或效率,并因此被成熟的商业模式接受,开始在产业界发挥出真正的价值...... 我们说‘人工智能来了’,其实是说,人工智能或深度学习真的可以解决实际问题了。”
可以和李开复这段话相互映证的是,在上周阿里云主办的 2017 云栖大会·北京峰会上,阿里巴巴明确表示人工智能不应仅仅是“概念上的 AI”,更是“产业上的 AI”,同时宣布了阿里云人工智能技术在金融、零售、航空、交通等多个行业的实践成果。
越来越多的迹象表明,今天的人工智能,真的和以往大不一样。
在过去这一年中,无论是互联网公司还是传统企业,无论是在公司内部宣讲战略还是在外部会议上发表报告,都是三句话不离 AI,唯恐自己被抛弃于时代潮流之后。但与之前的几次技术浪潮相比,人工智能对人才和资源的要求显然要高出不少,不是谁都能玩得转的。
那么,对于大多数公司来说,进入人工智能领域有哪些难以跨越的门槛?企业如何利用人工智能技术助力现有业务更上一层楼?还有,在未来的几年里,人工智能在哪些产业领域可以最快得到应用和普及?
近日,InfoQ 记者采访了 IBM 全球杰出工程师、IBM 研究院认知系统全球研究负责人林咏华女士,聊了聊她对上述问题的看法。以下内容根据采访记录整理而成。
如何看待当下的人工智能热潮?
人工智能目前无论在企业还是投资界都是被火爆地追逐着。说实在话,当 IBM 在 2011 年构建出 Watson,并首次在智力竞赛中打败最优秀的人类选手时,能预见人工智能对未来业界发展的重要性,但没有想象到这种人人谈人工智能的火爆局面。
纵观整个信息技术在过去 10 年的发展,无论是 10 年前移动通信的发展热潮,还是 5 年前云计算的风起云涌,都没有今天人工智能被关注的广泛性和火爆性。原因是什么呢?是今天人工智能的可实验性远远高于之前的信息科技。
这个“可实验性”是指一个开发者,一个大学生,甚至会编程的中学生都可以进行人工智能实验性的尝试。它来源于整个开源社区在代码和数据上的整体贡献,得益于整个信息科技领域对开源文化的推动,也得益于几个大的人工智能会议对被录用文章的数据和代码的公开性要求。
在过去几年,围绕深度学习、神经网络等算法的代码以及公开数据集层出不穷。一个开发者,只需要懂 Python,就可以在一天之内构建起一个开发环境,并把开源的代码跑起来。利用开源的数据集,就可以重现别人的结果。一个新的人工智能研究方向出现,就伴随着一些优秀的数据集公开。
例如,当年李飞飞主导的 ImageNet 为今天的图象识别奠定了最大的数据集基础,今年 12 月 MIT IBM Watson Lab 为了推动视频中的动作识别,共同推出的百万量级的视频动作数据集。所有的这些贡献,都是为了降低大家实验的难度,推动业界更快速地解决人工智能中的难题。
在这种人人都可以尝试的氛围下,既推高了大家对这个领域的关注和兴趣,必然也带来了人云亦云的火爆。
学术界和工业界之间的差距
但是,这是否就代表了今天在学术界解决了的问题,相关的技术已经可以大量地使用到工业界呢?我觉得大家需要看到工业界和学术界之间的差距。之前我也看到一些人工智能领域的专家进行了许多分析,我这里就讨论两点:
第一是数据的差异。数据是人工智能必不可少的用于训练机器的输入。而今天能在公开途径获得的数据集绝大多数都是非商业用途数据,大多数都是从互联网上积累的数据。真正用于工业场景的高价值数据是难以放到公开数据集中,也难以让千千万万研究者进行算法研究的。
IBM 研究院在医疗、汽车驾驶、生产制造等重要行业领域与相关企业进行人工智能合作研究。在这些行业和企业中,我们遇到了大量公开数据集所没有的数据分布。在面对行业生产部署的严苛要求时,我们一些已有的研究是不适用的,许多在顶级会议中号称的最佳结果也是不适用的。因此,这里需要我们脚踏实地,深入工业行业进行人工智能的研究和开发。
第二是人工智能系统本身的成本。把人工智能用到工业界,我们需要认真审视它附加到现有产品上的成本开销。
以视频监控为例,在视频监控中使用人工智能是一个很热的话题。今天,使用人脸识别、人或车辆的自动捕捉进行初步的视频分析已经开始广泛使用在城市、公共安全等领域。其实基于计算机视觉的人工智能可以做得更多,它可以检测和识别各种物体(而不仅仅是人或车辆),检测人的各种动作等等。
但基于深度学习的目标检测算法往往需要大量的 GPU 计算资源。基于今年最新的 GPU 硬件能力,一块高性能的 GPU 也就只能支持 3~4 路视频的复杂目标检测(单个模型)。平摊到每路视频,就要大约 1000~2000 美金的硬件成本。相比起目前 4K 摄像头的成本,将近是 10 倍的成本差异。如果我们进一步考虑动作检测,使用光流计算或 3D 深度学习或者更复杂的算法,这个成本的叠加更加难以接受。
所以,在人工智能向前行进时,我们需要更多的研究和创新,去解决全系统的优化问题,而绝对不能只停留在单一的功能或精准度的层面。
对于在 AI 领域技术基础比较薄弱的企业,如何才能享受到 AI 带来的红利?
为什么今天的企业都争先恐后的想要进入 AI 领域?他们是希望成为像 IBM、Google 这样的 AI 公司,每年到 AAAI 或 NIPS 发几篇文章吗?答案当然不是。企业想进入 AI 领域,还是希望在自己的业务领域能获得新的增长点,希望借用 AI 的力量能打造出新的产品赢得更多市场份额,希望通过 AI 能把已有的产品提升一个水平从而更快地击败市场上的竞争对手。
所以,对于这些希望利用 AI 技术的企业而言有两点是重要的。第一,找准 AI 技术在自身业务领域的定位,也就是未来产品的战略思考。这一点是无论如何不能由别的公司代替你去思考的,因为只有企业自己最了解自身的业务领域、发展机遇和企业现状。第二,Time-to Market,时间是十分宝贵的。在目前信息平坦的年代,市场机遇的赛跑就是时间的赛跑。
所以,对于各个行业的企业,如果希望享受到人工智能带来的红利,需要自身花更多时间去思考和策划上面提到的第一点问题(产品战略),而在第二点(Time-to Market)上,需要懂得借助外力。
今天,在与时间赛跑的过程中,企业面临的最大挑战是人才和数据的问题。如何“借助外力”,往往也是企业犹豫的。如果像传统的购买企业服务模式来解决人才问题,对于一些行业会行不通。对于许多行业,他们的数据是具有高度保密的性质,不能把这些数据都交由第三方公司进行数据训练和分析。
此外,企业的生产环境所针对的数据类型也会随着时间有所改变,例如零售业中货架的商品品类,生产线上产品的批次改变等。因此,哪怕企业交由第三方公司开发了一个机器学习的模型,是否之后所有在生产环境中的变化都要依赖第三方公司进行调整呢?所以,在引入 AI 技术的过程中,企业往往会在“人才培养时间过长”和“把控产品”之间犹豫。
正因为看到这种现状,IBM 在为企业市场打造的 AI 平台中引入了 “AI for AI”的概念。我们为企业打造的 AI 开发平台不仅仅是一套工具或方法论,而是真正把一个“AI 大脑”潜入到 AI 开发平台。我们在“AI 大脑”中率先引入了多种深度学习的技术,如迁移学习、自动化机器学习(auto machine learning)、数据增强(data augmentation)等。
一方面我们把 IBM 研究院多年的机器学习研究成果内嵌到系统中,让 AI 开发平台更像一个专家系统;另一方面,我们通过 AI for AI 的技术,让这样的平台可以针对企业自己的数据进行自动化学习和优化。通过这些技术的内嵌,我们希望企业开发团队在没有深度学习的技术背景下,也能很容易地获得好的机器学习准确率。通过“AI for AI”的开发平台,我们希望帮助企业自身拥有 AI 的大脑,应用开发团队很快就能上手,使用企业自己的数据去进行机器学习以及 AI 产品的研发。
在人才的问题之后,另一个困扰企业的问题是数据的问题。过去几年,深度学习的成功是基于海量的互联网开源数据。但这些数据都是互联网的数据,和企业希望解决的问题(如特定病种的医疗影像、产品质量的影像等等)没有直接的关系。所以,当需要使用 AI 技术来赋能自己的业务领域时,企业需要自己准备业务场景的数据集,也需要由具备专业领域知识的人员来标注数据集。因此,准备数据这个过程本身就极耗时间和人力。
另外,企业往往会面临数据不足的问题,尤其是需要高度关注的数据类型。例如,在医疗影像中,往往有着各种症状的数据比健康人群的数据更为重要;在生产制造中,有着各种瑕疵问题的数据比质量正常的产品数据更需要关注;在汽车驾驶中,在各种恶劣天气路况下的数据比正常天气和光照的时候获得的数据更需要我们注意。但这些数据往往是小概率情况下的数据。
因此,如何针对这些数量稀少却又十分重要的数据进行机器学习呢?不解决好这个问题,就难以把 AI 真正用到工业界场景。意识到这个问题的重要性,IBM 研究院确立了一系列针对小数据(Small Dataset)的研究,基于迁移学习、数据增强等课题进行深入研发。这些技术也应用到了 IBM 的 Watson 及企业 AI 开发平台(PowerAI)之上,直接帮助企业解决数据的问题。
未来几年内,哪些 AI 应用可以大规模投入市场?哪些还需要更长时间的研究及验证?
由于业界的你追我赶,AI 俨然是在一个高速跑道上发展。大家对短期的定义是 1~2 年,中长期是 3~5 年。一个新的 AI 技术是否可以大规模投入市场,应该看这个市场对该技术的差错容忍程度的高或低,例如,该技术能有 80% 的准确度就可以被接受,还是需要有 95%,甚至 99% 的准确度才可以?
记得在 2015 年,一个玩具厂商推出了 CogniToys(一个能跟孩子对话的绿色小恐龙),当年还被评为“2015 年度最佳玩具”。其实当年 CogniToys 的对话能力比今天国内好些公司推出的智能音箱要差好些。但因为 CogniToys 只是一个玩具产品,它不需要有很高的准确度。跟孩子的对话对一句错一句也没有多大关系。
所以在 2015 年,哪怕机器对话技术还不成熟,也不能阻挡 CogniToys 在亚马逊上热卖。但是,同样的对话技术,如果我们用于要求严谨的医疗行业,或银行理财行业,就需要有更长的技术成熟期。
又例如,有一些技术今天可能只做到 90% 的准确率,如果我们希望在未来 1~2 年能广泛使用,就需要从应用场景上进行折中。折中的手法可以是多样的,例如加入人为判定。我们在 TOP1 的准确率不够的情形下,可以提供给用户 TOP5 的识别结果,让用户再从 TOP5 人为判断。
通过这样的手法,可以让某些 AI 技术加快在一些领域的使用。当然,可以使用这样折中手法的应用领域,必须不是工业控制领域的。对于需要实时控制的系统领域,包括无人驾驶、自动化控制等,都必须有完全高准确率的要求。而这种对高准确率有完全硬性要求的应用场景,必然需要更长时间的研究和验证。
哪怕同一个技术,同一个工业领域,放在不同的地区使用,也会有时间的先后问题。例如,使用 AI 技术进行无人驾驶,目前多个厂商都先挑选诸如特定场区工程车辆、园区班车等,因为路况相对单一和简单。我们最近到印度参展,看到印度的汽车行业,就连辅助驾驶的研发,也都才刚刚开始。重要原因就是该地区的路况复杂度远高于美国和中国。所以,无人驾驶如果要在印度落地,或许需要 3~5 年的时间。
结语
AI 无论在学术界还是工业界,无疑被大家视为攻克重点。对于移动领域的开发者来说,如何跨越 AI 的高门槛,如何借助 AI 技术使业务更上一层,都是当下必须解决的问题。2018 年 1 月 5 日,北京的移动技术创新大会上林咏华等一众技术大咖,将针对 AI 的应用和实践交流分享,快快报名来切磋吧!