如何衡量人工智能应用程序中的“邪恶”?
扫描二维码
随时随地手机看文章
随着越来越多的个人、政府、企业将人工智能技术视为一种邪恶,很明显人们需要指标来确保人工智能是一个良好“公民”。
那么如何衡量人工智能应用程序中的“邪恶”?
这可能听起来像一个滑稽的问题,但人们应该问一下自己,将“邪恶”这个词应用于任何一个应用程序意味着什么。而且,如果“邪恶的人工智能”是应该避免的结果,那么可以了解一下如何对其进行衡量,以便能够证明它不存在于交付的工作产品中。
显然,这对人们来说纯粹是一个实验,但只要仔细阅读人工智能行业最近的新闻,就会感觉这个话题的严肃性。具体来说,人们注意到MLPerf公司最近发布了用于人工智能推理和培训的最新版本的基准测试套件。MLPerf公司是由40个人工智能平台供应商组成的集团,其中包括硬件、软件、云计算服务提供商。
作为一个明确的标志,其标准基准测试正在人工智能供应商中获得相当大的吸引力,一些厂商开始公布他们的平台技术在这些套件下的比较情况。例如,谷歌云声称其用于自然语言处理和目标检测的TPUPod在最新的MLPerf基准测试赛中打破了人工智能模型训练的记录。尽管只是在速度上发布基准数字,换句话说,缩短训练特定人工智能模型以获得特定结果所需的时间,但在未来某个不确定的时刻,可以记录TPUPod技术在支持这些工作负载方面所带来的规模提升和成本降低。
这其中没有什么本质上的“邪恶”,但它更多的是人工智能运行时执行的基准,而不是人工智能的潜在疯狂。考虑到这项技术目前在社会上所面临的疑惑,有必要衡量任何特定的人工智能举措可能侵犯隐私、对弱势群体造成社会经济偏见以及从事其他不利行为的可能性。
这些“邪恶的人工智能”指标将更多地应用于整个人工智能DevOps管道,而不是任何特定的可交付应用程序。将人工智能中的“邪恶”值进行基准测试应该归结为按照以下方式对相关的DevOps进程进行评分:
数据敏感性:人工智能倡议是否在人工智能应用程序中对个人身份信息的访问、使用和建模采用了一系列符合法规的控制措施?
模型可变性:人工智能开发人员是否考虑了依赖特定人工智能算法或模型(如面部识别)的下游风险,这些算法或模型的预期良性使用(如验证用户登录)也可能在“双重用途”场景中得到滥用。
算法问责制:AIDevOps流程是否使用不可变审计日志进行检测,以确保能够查看用于构建、培训、部署、管理符合道德标准的应用程序的每个数据元素、模型变量、开发任务和操作流程?开发人员是否制定了程序,以确保每个AIDevOps任务、中间工作产品和可交付应用程序在与相关道德约束或目标的相关性方面都能以简单语言进行解释?
质量保证检查点:AIDevOps流程中是否有质量控制检查点,在这些流程中进行进一步的审查,以验证是否存在可能破坏道德目标的隐藏漏洞,如有偏见的二阶特征相关性。
开发人员的同理心:人工智能开发者如何彻底地将主题专家、用户和利益相关者的道德相关反馈考虑到围绕人工智能应用程序迭代开发的协作、测试和评估过程中?
如果这些基准定期发布,人工智能社区将大大减少该技术对社会潜在不利影响的数量。如果没有对人工智能的DevOps过程中可能蔓延的“邪恶”数量进行基准测试,可能会加剧以下趋势:
监管范围过大:人工智能经常作为一种必要的邪恶进入公共政策讨论。以这种方式接近这一主题往往会增加政府制定严厉规定的可能性,从而影响许多其他有前途的“双重用途”人工智能举措。拥有明确的清单或人工智能实践记分卡可能正是监管机构需要知道推荐或禁止的内容。如果不存在这样的基准框架,那么从社会角度来看,当行业认证计划等替代方法可能成为最有效的人工智能风险缓解制度时,纳税人可能不得不承担大量减少人工智能应用程序的责任和代价。
企业变得虚伪:许多企业设立了“人工智能道德”委员会,向开发人员和其他业务职能部门提供高级指导。对于人工智能开发者来说,忽视这类指导并不罕见,尤其是如果人工智能是企业展示营销、客户服务、销售和其他数字业务流程结果的秘诀。那么这种状况可能会影响企业致力于减轻人工智能负面影响的诚意。拥有人工智能道德优化基准可能正是企业在其人工智能开发实践中建立有效的道德护栏所需要的措施。
员工感到沮丧:一些才华横溢的开发人员如果认为人工智能将可能导致社会道德滑坡,他们可能不愿意参与人工智能项目。如果企业中有一种人工智能持不同意见的文化,它可能会削弱其维持卓越中心和探索技术创新应用的能力。将人工智能实践计分卡与广为接受的企业公民计划相结合,可能有助于缓解这种担忧,从而鼓励新一代开发人员贡献他们的最佳工作,而不感到他们在为邪恶的目标服务。