深陷信息安全漏洞丑闻的脸书能否靠AI破局?
扫描二维码
随时随地手机看文章
脸书最近真可谓麻烦缠身,假新闻、恐怖主义、泄露用户数据等等一系列丑闻全都主动找上门来,让这个即使有着最庞大用户基础的社交软件也有点吃不消。面对公众的诸多质疑,脸书给出的答案似乎也很简单,那就是利用人工智能(AI)来解决眼前的这些烦恼。
观看上个月的两场听证会时你会发现,公司CEO扎格伯格在向记者和议员们解释未来将如何管制平台内容时,“AI”这个词在他的谈话中居然出现了30多次。脸书CTO迈克·斯科洛普夫,这个负责将扎克伯克对公众的允诺变为现实的男人,在一场记者发布会上又再次接过这个话题,进一步向人们展示公司有能力利用AI技术帮助自己走出眼下的困境。“AI是保护社区安全的最好办法”。不过,有些人显然并不买账,一些批评人士就指出,脸书此举是在混淆视听,让人们误以为这家公司面临的挑战仅仅是技术方面的。斯科洛普夫对此表示,即使公司有能力雇佣人力来挨个检查每一条消息,我们也不会这么做。“如果我告诉你你要发送的每条消息在发布之前都会有一个人对它们进行检查,你可能就会考虑一下是不是要修改一下原文内容,这正是我们不愿看到的”。
脸书对AI技术的早期布局:“照片DNA”
事实上,脸书早在2011年的时候就已经开始使用AI技术管理平台了。当时的脸书使用了一种被称为“照片DNA”的软件技术,用来检测平台上出现的诸如儿童色情图片等不良内容。根据斯科洛普夫的表述,这款软件的算法已经有了稳步的提升,能够对那些平台想驱逐的内容进行标记。裸露和色情图像比较容易识别,充满血腥和暴力的图像,比如IS斩首俘虏的画面,由于是逐像素的级别,所以一开始比较难识别,但现在这个问题已经被我们解决了。
“照片DNA”最初是由微软公司开发的一款信息筛选软件,后来达特茅斯学院一个名为Hany Farid的教授对其做了进一步改进,才逐渐被投入使用。该技术会对图片、视频和音频文件的哈希值进行计算,最终会得出一个数字签名。类似人手的指纹,每个签名都是独一无二的。这样只需要将违规图片的哈希值和平台上传的图片的哈希值进行比对,一旦结果匹配基本就能断定平台图片是违规图片的复制品了,这样就能有效的防止色情图片的多次传播。很多科技巨头都已经采用了这一技术,包括谷歌、推特、Adobe等。当然,技术都有两面性,这项功能强大的技术收获一番好评的同时也为自身惹来了非议。
2014年,谷歌曾利用“照片DNA”技术检测出某个用户的邮箱含有儿童色请图片,该名用户也为此进了监狱。就在周围人群一片掌声,纷纷庆祝正义得到维护的时候,也有人表达了对谷歌利用这一技术侵犯用户隐私的担忧。谷歌对此回应称,未来只会用该技术打击儿童性虐待事件,至于谷歌是否会信守承诺我们也不得而知了。
脸书的困境之一:如何正确识别语言
利用AI定位色情图片对脸书来讲可能已经是小菜一碟,然而打击假新闻、网络骚扰和各种虚假宣传活动要面临的困难要大得多。毕竟前者是用看的,而后者是需要读的,机器识别语言的能力是否能够满足需求还是一个很大的未知数。斯科洛普夫对此表示,脸书在最近的几个月中已经投入了大量的人力物力来解决假广告和假新闻问题。扎克伯格也曾告诉记者,他计划花三年的时间来打造更好的系统,以期肃清那些人们不想看到的内容。
尽管网络搜索和自动翻译技术已经取得重大突破,但在识别语言情景和细小差别上,各种软件的短板依然十分突出,很难投入使用。毕竟,AI本质上只是一种技术,再怎么进化似乎也很难和人脑比肩。在周三举行的一次主旨演讲中,负责脸书AI业务的部门主管Srinivas Narayanan,在向人们解释AI和机器学习遭遇的困难时就曾用到“看看那只猪!”这样的表述。
不过,脸书的算法在阅读方面也确实取得一些进步。前不久,公司发言人曾对外透露,脸书去年部署的一项搜寻自残行为的软件已经取得显著成效,第一目击者总共收到1000多个电话。仅今年第一季度,语言算法就为脸书发现并删除200万份与恐怖分子有关的内容。
Schroepfer称脸书已经对欺凌检测软件做了改进,未来它们的功能会更加强大。据悉,一些专门软件会自动生成辱骂性的语言,工作人员会使用这些虚假的语言数据训练欺凌检测软件。两者之间的对抗性训练使彼此的功能愈发完善,最终真正收到一加一大于二的效果。
脸书的困境之二:如何克服多语言的工作环境
脸书的语言技术在英语的环境下效果最佳,这并不仅仅是因为这家公司的总部位于美国,更大一部分原因在于脸书训练技术软件的文本基本上都是从网上直接抓取的,而互联网的参与者绝大多数都是说英语的。统计数据显示,超过一半的脸书用户来自非英语国家,这样形势就显得很严峻了。对于一些高度依赖脸书作为社交工具的国家来讲,其代价有可能是致命的。
2017年,缅甸发生罗兴亚穆斯林种族清洗事件,联合国官员经调查后,认为脸书在散播仇恨罗兴亚人言论的活动中起到了推波助澜的作用。脸书方面对此回应称,承认擅长缅甸语的内容审查者数量不多并对此表示深深的歉意。据悉,脸书目前正在开展一项代号为“缪斯”的计划,未来将有可能使该公司的语言技术在不增加训练数据的基础上实现多语言服务。但在这项计划尚未具备实用价值之前,脸书只能不断收集新数据来改善它在其他语言环境下的工作能力。
目前来看,脸书的进度似乎仍然停留在十分缓慢的状态,仅从缅甸这件事上就能看出,这家科技巨头并未在世界各国分配自己的语言资源。在周二举行的会议上,脸书的产品经理Tessa Lyons-Laing发言称,脸书的机器学习软件正在向事实检查人员学习标记错误信息,不过这要建立在脸书已经与当地的事实检查组织建立合作关系而且他们收集了丰富的数据的基础之上。除此之外的地区,脸书还没有办法部署语言技术软件。
写在最后
Schroepfer曾向人们坦言,在不增加人力的基础上推动AI的发展一直都是脸书的主要策略。就在周三的时候,脸书的研究人员向人们展示,数十亿个“电报”标签是如何为其提供免费的数据源的,这在图像识别领域还创下了新的记录。
不过要想解决脸书面临的诸多难题,没有人为判断是万万不可的。当人们想预先判断什么可为什么不可为的时候,AI是绝对不可以替代人类的位置的。它只是个工具而已,决定权依然要归它的主人——也就是人类。