英国人工智能安全研究所发布最新 LLM 安全评估等公告
扫描二维码
随时随地手机看文章
5 月 20 日,英国政府下属人工智能安全研究所(AISI)发布三则公告,包括一篇研究报告与两则组织公告。组织公告中表示,今年夏天 AISI 将在美国旧金山开设其首个海外办公室。它将作为研究所伦敦总部的补充分支机构运行,使英国能够利用湾区丰富的科技人才,与总部位于伦敦和旧金山的全球最大的人工智能实验室合作,并巩固与美国的关系,为公共利益推进人工智能安全研究。
研究报告《AISI 高级人工智能评估:五月更新》中,AISI 评估了目前向公众开放使用的五款大语言模型(LLM)的安全性,包括模型是否可以用于实施网络攻击、是否能提供化学与生物学上可用于积极和有害方向的专家级的知识、是否能以人类难以控制的形式自主运行一系列行动、是否易「越狱」或易于绕过保护机制以引出有害内容等。
现有结果中,多个 LLM 展示了化学与生物学方向的专家级知识,水平与受过博士等级培训的人类相近;多个 LLM 完成了高中生水平的简单网络挑战,但应对大学生水平挑战时吃力;两款 LLM 完成了简单的代理任务,但无法规划与执行更复杂任务的行动序列;所有受测的 LLM 面对最低等级的越狱操作时都易被突破,有些 LLM 甚至无需绕过保护机制就会提供有害输出。
(少数派)