数据投毒对于AI造成了什么影响

时间：2020-05-23 18:03:01

关键字： AI 模型数据安全人工智能技术

手机看文章

扫描二维码
随时随地手机看文章

[导读] 近日，信通院发布《人工智能数据安全白皮书（2019）》，其中提到“数据投毒”，这是人工智能自身数据安全风险，即通过在训练数据里加入伪装数据、恶意样本等行为可破坏数据的完整性，进而导致训练的算法模

近日，信通院发布《人工智能数据安全白皮书（2019）》，其中提到“数据投毒”，这是人工智能自身数据安全风险，即通过在训练数据里加入伪装数据、恶意样本等行为可破坏数据的完整性，进而导致训练的算法模型决策出现偏差。

随着人工智能技术的不断发展，尤其是各类人工智能应用在各行各业落地，人工智能的安全风险问题也开始受到全社会的关注。人工智能究竟会带来哪些安全风险？中国信息通信研究院近日发布了《人工智能数据安全白皮书（2019）》（以下简称“白皮书”），指出了人工智能面临的几大数据安全风险。

“数据投毒”不容忽视

白皮书认为，人工智能训练数据污染可导致人工智能决策错误。“数据投毒”通过在训练数据里加入伪装数据、恶意样本等行为可破坏数据的完整性，进而导致训练的算法模型决策出现偏差。

“数据投毒”主要有两种攻击方式：

一种是采用模型偏斜方式，主要攻击目标是训练数据样本，通过污染训练数据达到改变分类器分类边界的目的;

另一种则是采用反馈误导方式，主要攻击目标是人工智能的学习模型本身，利用模型的用户反馈机制发起攻击，直接向模型“注入”伪装的数据或信息，误导人工智能做出错误判断。

“数据投毒”危害巨大。在自动驾驶领域，“数据投毒”可导致车辆违反交通规则甚至造成交通事故;在军事领域，通过信息伪装的方式可诱导自主性武器启动或攻击，从而带来毁灭性风险。

运行阶段的数据异常可导致智能系统运行错误。

指出，运行阶段的数据异常可导致智能系统运行错误，同时，模型窃取攻击可对算法模型的数据进行逆向还原。此外，开源学习框架存在安全风险，也可导致人工智能系统数据泄露。

AI应用催生新风险

在分析了人工智能自身数据安全风险之后，白皮书对于人工智能应用导致的数据安全风险也进行了解读。

白皮书指出，人工智能应用可导致个人数据过度采集，加剧隐私泄露风险。随着各类智能设备（如智能手环、智能音箱）和智能系统（如生物特征识别系统、智能医疗系统）的应用普及，人工智能设备和系统对个人信息采集更加直接与全面。相较于互联网对用户上网习惯、消费记录等信息采集，人工智能应用可采集用户人脸、指纹、声纹、虹膜、心跳、基因等具有强个人属性的生物特征信息。这些信息具有唯一性和不变性，一旦被泄露或者滥用会对公民权益将造成严重影响。

虽然人工智能的普及，给人们带来了更多的便利;但是白皮书认为，人工智能放大数据偏见歧视影响，威胁社会公平正义，人工智能技术的数据深度挖掘分析也将加剧数据资源滥用现象的发生，将加大社会治理和国家安全挑战。具体而言，一是在社会消费领域，可带来差异化定价;二是在信息传播领域，可引发“信息茧房”效应。

与此同时，人工智能技术也能够提升网络攻击的智能化水平，进而进行数据智能窃取。白皮书认为，一是人工智能可用来自动锁定目标，进行数据勒索攻击。人工智能技术可通过对特征库学习自动查找系统漏洞和识别关键目标，提高攻击效率。二是人工智能可自动生成大量虚假威胁情报，对分析系统实施攻击。人工智能通过使用机器学习、数据挖掘和自然语言处理等技术处理安全大数据，能自动生产威胁性情报，攻击者也可利用相关技术生成大量错误情报以混淆判断。三是人工智能可自动识别图像验证码，能够窃取系统数据。图像验证码是一种防止机器人账户滥用网站或服务的常用验证措施，通过解决视觉难题来验证人类用户，以有效区分拦截恶意程序，保护系统数据安全。

数据治理挑战加剧

白皮书指出，人工智能提升了数据资源价值，使得数据权属问题更为突出。从个人层面上看，数据权属体现为公民的数据权利，个人隐私保护面临挑战。用户个人隐私信息含金量高，是人工智能技术与产业发展的重要驱动，然而相关机构在利用用户数据时往往忽视用户个人隐私权益。从行业层面上看，数据权属体现为企业的数据产权，数据垄断损害行业整体发展。人工智能技术使数据经济价值越发凸显，数据已成为企业的核心资产，相关企业积极储备数据资源，并阻止竞争对手获得数据，力图垄断数据资源来使企业利益最大化。

白皮书认为，数据产权之争将加剧数据垄断。一方面，科技巨头依托网络覆盖和用户规模，加强数据汇聚;另一方面，人工智能中小企业获取数据的渠道受限，数据资源匮乏。企业在数据产权没有被广泛认可、以及数据流动环节存在安全风险的前提下，无论是从维护自身利益角度还是从遵守法律法规角度出发，都不愿将自身数据进行共享，这将导致初创企业和研究机构在算法设计和优化过程中无数据可用，损害我国人工智能行业整体发展。

当前，随着人工智能在科技竞争中的战略地位日渐凸显，数据的违规跨境将直接影响国家安全。白皮书显示，目前，世界主要国家都制定了人工智能发展战略，对数据的依赖度快速提升，数据作为国家基础性战略资源的地位更加突出。为快速积累数据，科技企业通过向消费者提供特定领域免费应用、使用政府公开数据以及进行产业上下游数据协同等方式获取尽可能多的数据。以Facebook、谷歌为代表的美国科技巨头，依托其庞大用户规模和强大数据抓取工具，在全球范围内进行数据收集，强化数据资源优势，推进自身人工智能发展，这无疑将加剧数据违规跨境流动风险。

来源：人民邮电报