核心算法缺失背后的中国“AI”困局

时间：2020-06-03 14:18:01

关键字：人工智能机器人

手机看文章

扫描二维码
随时随地手机看文章

[导读] 未来，人工智能会区分国籍吗？看似这是个滑稽的问题，在华为事件之后，引发了五矩以及很多技术从业者，在和平时期对“人工智能”极限生存的思考。日前，在《自然》杂志医学版上报道了一则谷歌AI团

未来，人工智能会区分国籍吗？看似这是个滑稽的问题，在华为事件之后，引发了五矩以及很多技术从业者，在和平时期对“人工智能”极限生存的思考。

日前，在《自然》杂志医学版上报道了一则谷歌AI团队的最新人工智能研究成果——预测肺癌。

通过一套卷积神经网络算法，谷歌 AI 部门建立了一种端到端的分析方法，仅从CT图像就可以预测肺癌的风险。

在 6716个测试病例中，这套人工智能系统能够以 94% 的准确率发现极小的恶性肺结节，打败了6名放射专家（并非普通医生）。

在无先前 CT 扫描图像的情况下，该系统的表现超越所有 6 位放射医学专家。而在有先前 CT 扫描图像的情况下，两者表现不相上下。

而参与测试的 6 位放射专家，有平均 8 年（ 4 年到 20 年）的读片经验。

相比“传统”射科医生的行医方法，医生必须审查数百个单独的2D 扫描切片以发现问题，而肿瘤可能会很微小导致难以察觉，这种新的机器学习算法则可以分析高通量的 3D 肺部图像，不仅可以对整体肿瘤进行预测，还可以通过肺结节识别细微的恶性组织。再加上先前的扫描数据对比，就可以用来评估肺结节的生长速度。

相关论文共同作者，美国西北大学医学院 Mozziyar Etemadi 博士表示，3D 检测早期肺癌的能力比人眼检测 2D 图像要敏感得多。事实上，新系统在技术上可以纳入 4D 范畴，因为它不仅仅是一次 CT 扫描，而是包括了当前和先前共计两次的扫描，所以可以检测出肺结节随时间的生长变化。

2019 年 5 月 7 日，Lily Peng 在 2019 年开发者大会上称，他们研发的人工智能技术可以比医生早一年查出肺癌，使患者存活的概率提升 40% 。

毫无疑问，通过谷歌的这项技术，可以造福更很多人。在 2015 年，中国肺癌的发病和死亡例数分别达 73万和 61 万，发病率和死亡率非常接近，其主要原因是临床诊断病例多已为晚期，失去了手术机会。

然而，或许有一天我们分享不到这份成果。对于华为中兴事件的反思，面对美国接下来可能在各方面实施的技术封锁，中国人工智能的发展还需要再加把劲。

我国AI进展——算法的错位缺失

我们以前讨论电脑或者移动终端时，离不开硬件、软件和应用的范畴。讨论人工智能时，同样离不开硬件、算法和数据这三个要素。

简单来说，中美人工智能发展在硬件上的差距，远没有在算法的差距来得大。

计算机硬件技术的发展一直伴随着通用性和专用性的矛盾，通用的设计普适性强，但对于某一类特殊计算，性能就会打折扣，如果做个比喻的话，就是瑞士军刀和菜刀的区别，也可谓术业有专攻。

在这样的背景下，人们开始研发用于神经网络算法和机器学习的专用芯片。

如今，以通用图形处理器（GPGPU）为基础的NVIDA在深度学习市场占有一席之地，谷歌凭借16年发布的张量处理器（TPU）成为后起之秀。

通过与自家的人工智能开发系统TensorFlow相结合，谷歌也形成了一套完整的人工智能开发环境。

国内人工智能芯片创新同样非常活跃，在人工智能芯片的竞赛中与国外不相上下。其中的明星企业就是最近两年来被反复提及的独角兽公司“寒武纪”，取名借用地质学“寒武纪”时代的概念，比喻即将到来的人工智能大爆发时代。

此外，百度深度学习实验室前主任余凯创立的地平线也同样值得关注。一年多时间就完成了Intel和SK领投的两轮过亿融资。

但是无论是寒武纪还是地平线，都还无法和美国企业完全抗衡，美国不仅有NVIDIA和谷歌，还有英特尔、微软和IBM等一批大企业每年将巨资投向人工智能领域。

至于另一大要素——数据，鉴于中国庞大的互联网人口，深度学习所需要的大数据则可以由国内用户提供。

人工智能发展所需的三个要素中，算法是目前我们最薄弱的一环。不论是前面提到的谷歌AI卷积神经网络测癌算法，或是NVIDIA此前大火的GauGAN画图，都证明了美国企业的领先，而我国在这方面的发展属于相对滞后的。

在2019年长江商学院和清华大学公布的两份报告中，均指出了中国人工智能发展基础薄弱。

长江商学院人工智能与制度研究中心主任许成钢教授对记者表示，在人工智能领域，中国发表的论文总数虽然超过了美国，却在深度学习、机器人流程自动化、以及包括推理学习等在内的其他领域，从发表总数和引用率方面，与美国的差距显著。

对有高质量、高影响力的千级论文（是指每一篇论文被引用的数字超过了1000次），中国与美国差距巨大，中国只有个别的论文影响力能达到这个水平。

为什么中国很多论文从来不被引用？许成刚认为的症结之一在于我国科研机构只注重数量，不注重深度。 “我个人分析，在中国体制内大学有一个SCI现象，即就是教授的水平高低，或者职称评定，就是看教授发了多少篇SCI文章（美国科学资讯研究所采用的期刊文献检索工具），不管你这篇文章到底有多大的影响力。”

知乎一篇相关问答下也不难看到，论文换汤不换药的做法几乎已成为除顶级机构之外相当普遍的做法。

这也导致了我国空有4倍于英国的论文发表数量，然而论文影响力竟反而不如英国的结果。

同时，几乎93%的中国研究者使用人工智能开源软件包，这也是美国的机构开发提供的。中美两国人工智能研究者使用最多的软件库就是前面提到的Google TensorFlow。在2018年初，中美研究人员对此的关注人数，分别达到将近9000人和约7000人。

整体上中、美AI研究者关注美国机构开发的开源AI软件包的数字，相当于他们关注中国机构开放的软件包数字的20几倍。这表明中国研究者在基本算法方面，对美国开源软件包的严重依赖。

新智元创始人杨静18年曾对《环球时报》记者表示，人工智能平台分硬件和软件，核心技术一直掌握在西方手里，比如芯片技术。此外，中国没有主流开源框架也是很可怕的，深度学习、强化学习等算法的研究也落后于西方。

在牛津大学最新完成的一份报告《解码中国AI梦》里，作者也得出了相同的结论。除了数据，中国在硬件、人才、算法和产业等方面，仍然落后于美国。但编写这份报告的Jeffery Ding仍表示，“我认为AI是中国第一个真正有机会制定游戏规则的技术领域。”

实际上，正是由于中国庞大的互联网人口，提供了强大的数据基础，在市场的导向之下才使得我国的人工智能更偏重具体应用。对此，IDC公司在一份报告中称：“数据或许不会出现在资产负债表上，但数据是一个公司最宝贵的无形资产。中国初创企业尤其懂得如何利用海量数据打造双赢的商业生态。”

人工智能竞赛终将走向人才竞争

科技竞争的本质最终还是人才的竞争，美国人工智能相关的从业人员和公司数量现在也遥遥领先。

2012年前，中国活跃的人工智能创业公司还要多于美国，但是在2012年却被美国反超，美国与人工智能有关的企业数量远超中国。

据《中国人工智能指数2018》分析，美国的人工智能工程师远比中国多。

据领英（LinkedIn）人才数据库显示，中国的AI人才总数为5万人，而美国的AI人才总数为83万人。美国AI人才总数是中国的16.5倍之多。并且，中国人工智能领域工作10年以上的人才不到39%，相比之下，美国超过71%的人工智能领域的人工作了10年以上。

“在中国，人工智能是更年轻的行业，而在美国虽然领域是年轻的，但是里面的多数人并不年轻，是有充分经验的。”许成刚说。

人才分布方面，中国在智能交通/自动驾驶，智能/精准营销, 硬件/GPU/智能芯片需求比例要多于美国，但美国在算法、机器学习的方面，美国不但人才的比例比中国大，人才总数也是中国的20多倍。

但随着美国对外开放的收缩，也给了很多海外的技术型人才回国发展的机会。

实际上，早在2017 年 12 月美国发表的“国家安全战略”中便公开表示：将限制世界上所有去美国学习STEM 专业（科学、技术、工程、数学）的留学生签证。根据南华早报的说法，在美国 363341 名中国学生中，约有 36％在 STEM 领域学习。

这次美方设置的障碍，可能将会给更多在美国的中国留学生，在美寻求工作的中国人带来危机和恐惧。站在人工智能角逐的角度来看，美国反而在这方面有点自缚手脚的意思。但五矩认为，最为关键的一环还是在于国内要加强对于基础教育的重视和投入。

“我关心教育不是关心华为，是关心我们国家。如果不重视教育，实际上我们会重返贫穷的。”5月26日晚间，华为创始人、CEO任正非在央视《面对面》节目中说道，因为这个社会最终要走向人工智能的。在任正非看来，能与基础研究相提并论的是基础教育。他认为，我国目前基础研究方面水平不够，和基础教育跟不上直接相关。为此，他曾自费请权威机构的专家进行中国基础教育状况的调查研究。

假设美国因为“数据隐私保护”等原因禁止了微软GitHub或者谷歌TensorFlow，届时，哪家公司有底气，成为第二家有“备胎”的公司呢？