AI时代来临,真实已经是易碎品了吗?
扫描二维码
随时随地手机看文章
这几天,科技新闻的头条大事是:Facebook发布了名为Libra的加密货币白皮书,这是一套基于加密货币理念设计的,且Facebook不能完全控制的数字货币。当然,它仍然是几家巨头控制的中心化较强的货币,而不是真正的去中心加密货币。这不是Facebook第一次尝试这个方向,这一次它的准备比以往的方案完善很多。虽然和真正的“区块链去中心货币”还有很多区别,但是好歹巨头们总算冲进了这个市场。
不过我这篇文章并不是专门讨论FB的加密货币,区块链和加密货币这两个东西紧密关联,有的项目看重链多一些,有的看重币多一些,Facebook的Libra是看重币多一些,更着重强调它的支付功能,和更低成本的跨国支付结算。而非常巧合的是,同样在这几天,Stephen Wolfram也写了一篇关于区块链的文章,这篇文章讲到了区块链的一个重要应用,但是在FB发币新闻的热潮下,它获得关注少了很多。但在我看来,这篇文章讨论了的东西更值得思考。
Stephen Wolfram知名度在中文世界似乎并没有特别高,这和他的实际业界地位差距很大。如果让我评价,他是整个行业内最天才的人之一。此人无论是科研还是商业,都有超乎寻常的成就。他15岁就开始发表物理学论文,一心想做物理学家,20岁在加州理工拿到了物理学博士学位之后,开始研究复杂性理论,之后为了他的研究需要,决定自己做一些工具,最终发明了Mathematica。Mathematica算的上是历史上最重要的软件之一。除了数学和物理研究,他也是最早研究人工智能的科学家之一。 为什么他会写这篇文章呢,要从基于深度学习的视频换脸术DeepFake谈起,如果你常看科技新闻,应该记得去年这时候热门的换脸黑科技DeepFake。一年之后,基于它的各种奇怪应用层出不穷,起初人们也就是拿来换换明星的脸玩,但很快人们发现,这种技术如果用来做假新闻,就会造成极大破坏性和难以预料的后果。随着2020美国大选越来越近,这种担心也随之增加。
六月初,美国众议院情报委员会召开了一个听证会,希望了解DeepFake和AI相关的一些问题,Stephen Wolfram是被邀请参加听证会的人之一。但是他没空去,于是把想法写成了这篇文章放在了自己Blog上。这对于我这样的读者倒是个好事,这可以让他更从容的写下他的想法,而不是被听证会的节奏干扰。
众所周知,伪造照片是一个历史悠久的技术,从有PhotoShop之前的年代使用传统胶片人们就一直在做,Stephen Wolfram说照片伪造技术和照相技术历史几乎一样长。而今天我们的问题是,当AI可以用来参与伪造照片的时候,我们有没有简单的办法分辨出哪些照片是真的?毕竟之前大家说“无图无真相”,现在是“有图有视频它也未必是真的”。
要讨论这个问题,我们先要隐藏技术细节来简单介绍一下伪造照片和视频使用的人工智能技术:GAN(生成对抗网络),用最容易理解的方式,可以看作两个系统互相对抗,一个系统生成假数据集叫做生成器,另外一个系统叫做判别器,它用真实数据集来判别生成的假数据集的真伪。然后两个系统互相对抗,最终目的就是让判别器无法判断真假,所以这类系统的目标就是生成机器无法判别真假的数据集。GAN网络当然不是万能的,说它有智能也是一种美化的说法,它当然没有真正的智能,也理解不了逻辑本身,但是用在伪造视频和照片上,它目前的能力已经足够给人类带来麻烦了。因为如果生成器生成的内容足够多,并且利用社交网络传播和转发,那么要鉴别真假,就成了一个工作量巨大的事情。相信在这个时代,大部分人都对各种群里面千奇百怪的谣言有深刻体验,那么考虑一下,这些文字谣言都配上了很真实的照片和视频的时候,要鉴别真假的劳动力会增加多少?
已经无法阻止人们使用机器源源不断产生假图片和视频了。对于某些关键性内容,人类应该还可以花费巨大的成本,由类似鉴证小组这样的专家组织来判别真伪,但是对于日常生活中,尤其是社交网络流行的海量内容,限于效率和人力成本,可以说是无能为力的。假视频生成的速度会远远大于鉴定的速度,即使能鉴定出来真伪也没意义了。
要高效率的鉴别真假,那就只能依靠机器,使用AI来鉴别假视频的创业公司也出现了不少。但是如果思考这个问题:机器有没有能力鉴别图片和视频是否是伪造的?很遗憾,答案应该是悲观的。悲观的原因在介绍GAN的原理时候已经包含了,既然生成器的目的就是挑战判别器使之无法分辨,就意味着这样的图片和视频,机器已经分辨不出了。虽然人类能找到一些图片生成的不足,做出更好的判别器来,但这些不足一样会被生成器补上。Stephen Wolfram的说法是“这是一场军备竞赛”,两者博弈,最终结果只能是让假数据达到更高的高度。所以想用机器来帮助区分真假的想法,可能会在短期内有效,但长期看来,这些挣扎都是无力的,最终一定是生成器强于判别器,即无法判断的假图片和假视频会取胜。
按照这个推论,我们今天定义“真实”的方式会发生彻底的变化。目前我们做为事件真实发生的证据都不再可信,比如说,现在你可以拿行车记录仪的视频证明自己在交通事故中是无责一方,但是未来,这种证据可能就无效了,因为谁也不知道视频是不是被AI重新处理过的。甚至社会上流行的照片和视频,假的会比真的还多,因为一个真正的视频,经过AI处理可以变成不同的假视频,用在不同场合。目前社会的很多锚点都会消失,而我们对此毫无办法。
所以,我们需要一套完全不同的思路来处理真实性问题,即:从目前的“默认照片和视频真实,除非找到证据证伪“,转变成“默认照片和视频是不真实的,除非找到证据证真”。为了满足这种需求,就需要一种系统,可以公正,中立的存放所有证据,并且让机器容易读取这种证据,给出“可证真概率很高”之类的结论。Stephen Wolfram认为,这种系统就是区块链。区块链的去中心,不可篡改,以及比较好的程序可读写特性,都完美符合以上需求。
使用区块链技术不能直接判断真实,但是如果每一个视频创建出来,每一个照片拍摄完成,就在区块链上存证,将来就有可能让机器利用这些证据来帮助人判断真假。而且,今天我们还不能完全预知未来世界的变化,也不知道AI和伪造技术会发展到什么程度。所以我们只能尽量保存更多的元数据。包括拍摄时候的场景数据,比如GPS信息,时间,温度,天气…各种相关和不相关的信息,都应该保存起来,越多的元数据,将来用来判断真假的数据越充足。具体做法就是把所有这些元数据打包到媒体文件中,然后计算hash,把hash记录到一个去中心的区块链上。等到将来有一天,机器会有办法读取今天保存的信息,用来确定信息真实性。目前的“无图没真相”,就会变成“不在链上没真相“。
这里特别需要注意的是,要实现这个系统还有无数技术细节需要处理。比如并不是存放在链上的数据一定是真的。同样可能出现第一个作者拍摄视频之后先进行伪造,再签名往区块链上存放,这时候要判断真伪就变得更加困难。所以最终判断真伪的结果仍然只是一个概率,而不是放在链上100%就是真实的。但是公开存放了尽量多的元数据之后,人们可以利用这些元数据来进行更多的分析和交叉对比,进一步降低伪造的可能性。如前面这个例子,如果伪造的视频中出现了的人,在相近的时间段内,在区块链上找到了另外一个不同地理位置的视频也包含了他形象,那么就可以认为这两个视频中至少有一个是伪造的。并且,这种伪造的证据在链上无法被消除,最终会使得上传者的可信度降低。总之,这样的系统可以提供更多的正经,使用更自动化的手段解决问题,它仍然不是完美的解决方案,但是比没有这个系统还是好很多。未来人们会越来越体验到概率的无处不在,人们只能说“有很大概率是真的”,很难说“绝对是真的”。
这个推论过程非常清晰简单,而且也确实想不到其他解决方案了。实际上Stephen Wolfram一直是记录全部个人数据的推崇者,他在长达二十多年的时间里,尽可能的记录了自己周围的一切数据,从工作时间到使用的文档类型,邮件发送频率,所有数据只要能记录的都记录,并且会写程序分析这些数据。唯一的区别是,过去这些数据他自己存放,供自己使用,但在未来,做为信息创建者,一部分数据记录应该被公开出来,供更多人使用,这是一个有意思的变化。
让我比较惊喜的时候,这和我们的思路是一致的。我之前曾经写过我们做PRESSone的目标是帮助完成“确权”,而且我还经常试图解释“确权”不是“版权”,虽然确权之后下一步可以完成版权相关应用,但是这两个概念是不一样的。但是我一直没找到特别好的例子来说明,为什么不一样,以及为什么要使用区块链这么复杂的系统来完成确权,所以PRESSone总是被人们归类为“内容版权“类应用,说它是内容版权当然也不是不可以,但确权才是更重要的基础。区块链相比中心数据库是一种昂贵得多的存储系统,既然使用了这种昂贵的方案,那么就需要有昂贵的理由。人们最容易问的问题就是:“为什么我需要使用它”。
很有意思的是,随着时间的推移,这种答案正在越来越多的冒出来,科技的发展使得人类在很多场景下不得不需要这样的系统。而且科技的发展正在把越来越多的人卷入这个领域,过去只是科技行业从业者,现在创作者也不得不关心这个领域。谁也不想让自己的作品将来变成创造用途不明的假视频的素材,那么现在需要做的就是,保留不可篡改的数据,然后等着未来到来。
所以,即使Facebook的目的达不到,对于整个行业仍然意义重大。