核心算法缺失背后的中国“AI”困局
扫描二维码
随时随地手机看文章
未来,人工智能会区分国籍吗?看似这是个滑稽的问题,在华为事件之后,引发了五矩以及很多技术从业者,在和平时期对“人工智能”极限生存的思考。
日前,在《自然》杂志医学版上报道了一则谷歌AI团队的最新人工智能研究成果——预测肺癌。
通过一套卷积神经网络算法,谷歌 AI 部门建立了一种端到端的分析方法,仅从CT图像就可以预测肺癌的风险。
在 6716个测试病例中,这套人工智能系统能够以 94% 的准确率发现极小的恶性肺结节,打败了6名放射专家(并非普通医生)。
在无先前 CT 扫描图像的情况下,该系统的表现超越所有 6 位放射医学专家。而在有先前 CT 扫描图像的情况下,两者表现不相上下。
而参与测试的 6 位放射专家,有平均 8 年( 4 年到 20 年)的读片经验。
相比“传统”射科医生的行医方法,医生必须审查数百个单独的2D 扫描切片以发现问题,而肿瘤可能会很微小导致难以察觉,这种新的机器学习算法则可以分析高通量的 3D 肺部图像,不仅可以对整体肿瘤进行预测,还可以通过肺结节识别细微的恶性组织。再加上先前的扫描数据对比,就可以用来评估肺结节的生长速度。
相关论文共同作者,美国西北大学医学院 Mozziyar Etemadi 博士表示,3D 检测早期肺癌的能力比人眼检测 2D 图像要敏感得多。事实上,新系统在技术上可以纳入 4D 范畴,因为它不仅仅是一次 CT 扫描,而是包括了当前和先前共计两次的扫描,所以可以检测出肺结节随时间的生长变化。
2019 年 5 月 7 日,Lily Peng 在 2019 年开发者大会上称,他们研发的人工智能技术可以比医生早一年查出肺癌,使患者存活的概率提升 40% 。
毫无疑问,通过谷歌的这项技术,可以造福更很多人。在 2015 年,中国肺癌的发病和死亡例数分别达 73万 和 61 万,发病率和死亡率非常接近,其主要原因是临床诊断病例多已为晚期,失去了手术机会。
然而,或许有一天我们分享不到这份成果。对于华为中兴事件的反思,面对美国接下来可能在各方面实施的技术封锁,中国人工智能的发展还需要再加把劲。
我国AI进展——算法的错位缺失
我们以前讨论电脑或者移动终端时,离不开硬件、软件和应用的范畴。讨论人工智能时,同样离不开硬件、算法和数据这三个要素。
简单来说,中美人工智能发展在硬件上的差距,远没有在算法的差距来得大。
计算机硬件技术的发展一直伴随着通用性和专用性的矛盾,通用的设计普适性强,但对于某一类特殊计算,性能就会打折扣,如果做个比喻的话,就是瑞士军刀和菜刀的区别,也可谓术业有专攻。
在这样的背景下,人们开始研发用于神经网络算法和机器学习的专用芯片。
如今,以通用图形处理器(GPGPU)为基础的NVIDA在深度学习市场占有一席之地,谷歌凭借16年发布的张量处理器(TPU)成为后起之秀。
通过与自家的人工智能开发系统TensorFlow相结合,谷歌也形成了一套完整的人工智能开发环境。
国内人工智能芯片创新同样非常活跃,在人工智能芯片的竞赛中与国外不相上下。其中的明星企业就是最近两年来被反复提及的独角兽公司“寒武纪”,取名借用地质学“寒武纪”时代的概念,比喻即将到来的人工智能大爆发时代。
此外,百度深度学习实验室前主任余凯创立的地平线也同样值得关注。一年多时间就完成了Intel和SK领投的两轮过亿融资。
但是无论是寒武纪还是地平线,都还无法和美国企业完全抗衡,美国不仅有NVIDIA和谷歌,还有英特尔、微软和IBM等一批大企业每年将巨资投向人工智能领域。
至于另一大要素——数据,鉴于中国庞大的互联网人口,深度学习所需要的大数据则可以由国内用户提供。
人工智能发展所需的三个要素中,算法是目前我们最薄弱的一环。不论是前面提到的谷歌AI卷积神经网络测癌算法,或是NVIDIA此前大火的GauGAN画图,都证明了美国企业的领先,而我国在这方面的发展属于相对滞后的。
在2019年长江商学院和清华大学公布的两份报告中,均指出了中国人工智能发展基础薄弱。
长江商学院人工智能与制度研究中心主任许成钢教授对记者表示,在人工智能领域,中国发表的论文总数虽然超过了美国,却在深度学习、机器人流程自动化、以及包括推理学习等在内的其他领域,从发表总数和引用率方面,与美国的差距显著。
对有高质量、高影响力的千级论文(是指每一篇论文被引用的数字超过了1000次),中国与美国差距巨大,中国只有个别的论文影响力能达到这个水平。
为什么中国很多论文从来不被引用?许成刚认为的症结之一在于我国科研机构只注重数量,不注重深度。 “我个人分析,在中国体制内大学有一个SCI现象,即就是教授的水平高低,或者职称评定,就是看教授发了多少篇SCI文章(美国科学资讯研究所采用的期刊文献检索工具),不管你这篇文章到底有多大的影响力。”
知乎一篇相关问答下也不难看到,论文换汤不换药的做法几乎已成为除顶级机构之外相当普遍的做法。
这也导致了我国空有4倍于英国的论文发表数量,然而论文影响力竟反而不如英国的结果。
同时,几乎93%的中国研究者使用人工智能开源软件包,这也是美国的机构开发提供的。中美两国人工智能研究者使用最多的软件库就是前面提到的Google TensorFlow。在2018年初,中美研究人员对此的关注人数,分别达到将近9000人和约7000人。
整体上中、美AI研究者关注美国机构开发的开源AI软件包的数字,相当于他们关注中国机构开放的软件包数字的20几倍。这表明中国研究者在基本算法方面,对美国开源软件包的严重依赖。
新智元创始人杨静18年曾对《环球时报》记者表示,人工智能平台分硬件和软件,核心技术一直掌握在西方手里,比如芯片技术。此外,中国没有主流开源框架也是很可怕的,深度学习、强化学习等算法的研究也落后于西方。
在牛津大学最新完成的一份报告《解码中国AI梦》里,作者也得出了相同的结论。除了数据,中国在硬件、人才、算法和产业等方面,仍然落后于美国。但编写这份报告的Jeffery Ding仍表示,“我认为AI是中国第一个真正有机会制定游戏规则的技术领域。”
实际上,正是由于中国庞大的互联网人口,提供了强大的数据基础,在市场的导向之下才使得我国的人工智能更偏重具体应用。对此,IDC公司在一份报告中称:“数据或许不会出现在资产负债表上,但数据是一个公司最宝贵的无形资产。中国初创企业尤其懂得如何利用海量数据打造双赢的商业生态。”
人工智能竞赛终将走向人才竞争
科技竞争的本质最终还是人才的竞争,美国人工智能相关的从业人员和公司数量现在也遥遥领先。
2012年前,中国活跃的人工智能创业公司还要多于美国,但是在2012年却被美国反超,美国与人工智能有关的企业数量远超中国。
据《中国人工智能指数2018》分析,美国的人工智能工程师远比中国多。
据领英(LinkedIn)人才数据库显示,中国的AI人才总数为5万人,而美国的AI人才总数为83万人。美国AI人才总数是中国的16.5倍之多。并且,中国人工智能领域工作10年以上的人才不到39%,相比之下,美国超过71%的人工智能领域的人工作了10年以上。
“在中国,人工智能是更年轻的行业,而在美国虽然领域是年轻的,但是里面的多数人并不年轻,是有充分经验的。”许成刚说。
人才分布方面,中国在智能交通/自动驾驶,智能/精准营销, 硬件/GPU/智能芯片需求比例要多于美国,但美国在算法、机器学习的方面,美国不但人才的比例比中国大,人才总数也是中国的20多倍。
但随着美国对外开放的收缩,也给了很多海外的技术型人才回国发展的机会。
实际上,早在2017 年 12 月美国发表的“国家安全战略”中便公开表示:将限制 世界上所有去美国学习STEM 专业(科学、技术、工程、数学)的留学生签证。根据南华早报的说法,在美国 363341 名中国学生中,约有 36% 在 STEM 领域学习。
这次美方设置的障碍,可能将会给更多在美国的中国留学生,在美寻求工作的中国人带来危机和恐惧。站在人工智能角逐的角度来看,美国反而在这方面有点自缚手脚的意思。但五矩认为,最为关键的一环还是在于国内要加强对于基础教育的重视和投入。
“我关心教育不是关心华为,是关心我们国家。如果不重视教育,实际上我们会重返贫穷的。”5月26日晚间,华为创始人、CEO任正非在央视《面对面》节目中说道,因为这个社会最终要走向人工智能的。在任正非看来,能与基础研究相提并论的是基础教育。他认为,我国目前基础研究方面水平不够,和基础教育跟不上直接相关。为此,他曾自费请权威机构的专家进行中国基础教育状况的调查研究。
假设美国因为“数据隐私保护”等原因禁止了微软GitHub或者谷歌TensorFlow,届时,哪家公司有底气,成为第二家有“备胎”的公司呢?