机器学习的知识产权问题
扫描二维码
随时随地手机看文章
作者: Wil Michiels 教授(博士),恩智浦半导体安全架构师
机器学习的知识产权问题
假设一家公司主要生产对于客户的业务运营至关重要的设备。为了避免发生故障而对这些客户产生重大影响,这家公司使用机器学习模型来做出预防性维护决策。为了构建这种模型,公司花费了大量时间、金钱和精力。但是,客户可以复制这个知识产权来自行进行维护,这样就不必继续支付维护合同的费用。同时,竞争对手也可能会直接复制模型来获取利益,而不是投资构建自己的模型。本白皮书探讨了机器学习模型的哪些方面将受到知识产权法律的保护。
要构建用于维护的机器学习(ML)模型,必须收集并标记正确的训练集,选择正确的架构和训练参数以实现算法精度和速度的优化平衡,并投入计算时间来训练模型。但是,如果这个维护专用的机器学习模型的知识产权没有得到妥善保护,竞争对手只需花费很少的时间和精力就能复制和窃取机器学习模型,稍加调整以免被发现,然后即可直接部署到自己的产品中。这仅仅是一个例子而已。在很多情况中,公司都希望保护其投资和知识产权,但是现在和将来,应该如何保护机器学习领域的知识产权呢?
对于任何公司而言,机器学习模型都意味着一笔可观的投资,同时也是一项宝贵的资产。尽管由机器学习驱动的业务越来越受到青睐,但一些公司可能不愿意在数据收集和模型构建方面进行必要投资,因为他们担心竞争对手会窃取劳动果实。一直以来,非实物资产创作方面都有专利或版权之类的知识产权保护。但是,在法律领域中,关于知识产权如何保护机器学习以及具体涵盖哪些方面,仍然是一个颇具争议的问题。本白皮书阐述了机器学习知识产权(IP)方面的法律背景和挑战。
术语
在我们深入探讨机器学习的知识产权问题之前,必须先要正确理解术语。广义上讲,机器学习是针对算法和统计模型的科学研究。电脑系统使用这些算法和统计模型,依靠模式和推理来高效地执行特定任务,而无需使用手动编程的指令。
在机器学习中,通常使用一系列“训练数据”推导统计模型的权重。然后在新情况中运用这些权重,从适用于新情况的模型中获得答案。一种流行的机器学习模型是神经网络。为了阐明使用神经网络的过程,请参考下图:
用于将图片标记为猫或狗的机器学习模型
这类机器学习分为两步。首先,在训练阶段,推导架构参数以赋予模型特定的功能。我们将这个阶段称为训练模型。模型完成训练后,通过测试数据测量模型质量。第二步,在推理阶段,利用经过训练的模型进行预测,例如对新数据进行分类。虽然所有这些概念在不同文献中有不同的说法,但在本白皮书中,我们使用以下术语:
架构
神经网络中的神经元、神经元之间的连接以及所用激活函数的集合。架构可以有向图的形式呈现。
训练集
一组用于训练架构的数据,帮助架构确定合适的权重。
测试集
另外一组数据,用于测试和验证模型是否提供预期的结果。
机器学习系统
实现机器学习(训练和/或推理)的软件和硬件。
模型
对于神经网络,模型是指与神经网络架构连接相关联的权重的集合。这些权重是在训练期间收集的。
训练参数
用于控制训练算法的参数。例如:训练集应该迭代几次?在更新权重之前,要处理多少个数据项?在每次更新中,应对权重应用多大幅度的更改?使用什么成本函数进行优化?
如今,机器学习用于处理各种各样的任务。一种主流应用是分类,例如识别图像或视频中的特定物体,将文本分类为特定类别,以及检测伪劣品或异常尺寸。
其他应用还包括自动驾驶汽车中使用的预测和物体检测。对于许多使用机器学习的公司而言,用于机器学习应用的训练集和模型是不应被竞争对手接触到的宝贵信息。这就引出了如何通过法律手段保护这些信息和其他机器学习要素的问题,即知识产权。
知识产权
知识产权(IPR)是指保护非有形商业资产免遭第三方盗用的法定权利。通过法院发布的法律禁令以及常见的经济损失赔偿和/或侵权产品没收处罚,可以制止这一类盗用行为。但是,每种类型的知识产权都有其特定要求和局限性。在本白皮书中,我们将探讨版权、专利、数据库权利和商业秘密。
版权
版权是最广为人知的知识产权类型。版权是指禁止复制和传播受保护作品的权利。这项权利一直广泛运用于创造艺术领域,例如音乐、书籍和照片。但是,版权同样适用于软件、手册、白皮书(甚至是本白皮书!)、公司视频等商业作品。
这类权利的相关法律在世界范围内已经达到非常高的标准化程度。作品在创作后即自动受到保护,无需申请或注册。甚至不需要版权声明,但通常会声明版权以震慑潜在的抄袭者。唯一的真实要求是作品中必须存在某种形式的创造性。例如,仅仅列出一串日期不受版权保护,但巧妙地用句子来表述将受版权保护。
版权的局限性在于只针对实际复制行为。独立再创作同一作品并不算侵犯版权。再创作的独立性可以通过创作过程的相关记录或日志进行证明。
专利
专利是知识产权领域的重要组成部分。当某项创新受到专利保护时,任何人都不得制造、使用或出售任何包含该创新的设备。与版权不同,专利甚至可以保护并非通过复制进行的独立再创作。专利持有人可以要求他人支付版税,或者直接终止他人对其创新成果的商业使用。
专利的主要缺点是必须申请,这会经过长达数年的漫长审查和高达数万欧元的申请费用,并且结果还不确定。在软件方面,一个非常复杂的问题是法律对所谓的“软件专利”有非常严格的规定,而这在世界范围内都是令人诟病的问题。因此而出现了非常严格的判例法,从而很难针对大量依赖软件或自动化的创新执行专利权。
获得软件专利的基本准则是发明必须提供真实世界中的改进,而不能仅仅是提高软件性能。例如,压缩算法通常被认为是专利技术,内存效率更高的矩阵乘法技术也算专利。但是用于准确预测下一届足球世界杯冠军的算法则不符合申请专利的条件。
数据库权利
数据库权利是知识产权领域中一个相对较新的概念。数据库权利于上世纪九十年代末在欧洲提出,旨在保护信息集合,防止被复制和重复使用。数据库权利的主要要求是在创建或维护数据库中的数据方面进行了大量投资。与版权一样,数据库权利无需进行正式注册或申请。
受保护数据库包括在线词典、带标记的图像集合和地图制图的源数据。关键在于以某种便于搜索和浏览的方式组织数据。
数据库权利的复杂之处在于,该项权利在欧盟以外的地区不受认可。特别是在拥有着悠久法律传统的美国,数据集合不受知识产权保护,只有创意作品才能受到版权保护。
商业机密
在知识产权世界中,商业机密的现状在全球范围内不一而同。但总体而言,可以通过法律针对盗用受良好保护信息的行为采取行动。这要求此类信息的所有者表明已采取适当的安全措施来防止未经授权的访问。同时,窃取商业秘密的“嫌疑人”可以通过证明该信息已经在公共领域中披露进行反驳。
公司通常会通过与客户或其他第三方签署保密协议(NDA)来保护其商业机密。在某些支持违约罚款或其他法律措施的司法管辖区中,可通过严格的契约义务禁止复制或复用。其他协议中也可能包含NDA条款。但是,即使使用反向工程等特殊技术,从合法购买产品中挖掘机密数据的个人也不受此类条款的约束。这就限制了商业机密法的作用。
面向机器学习的知识产权保护
竞争对手或其他意图不轨的实体会通过多种方法,企图从机器学习系统创造者的成果或投资中分一杯羹。机器学习的独特性引起这样一个问题:如何利用知识产权法律保护这项新技术的各个方面。
训练集保护
为特定的机器学习应用创建出色的训练集是一项耗时耗财的工作。尽管在典型环境中,侵权人无法直接访问此训练集,但是如果通过某些方式获得了访问权限,那么复制训练集轻而易举。知识产权法律的作用正在于此。
如果训练集所有者的主要营业地点位于欧盟地区,那么训练集将受到数据库权利的保护。但是,这一权利仅对同样位于该司法管辖区的侵权者具有法律效力。
而更加困难的是能否针对机器学习训练集主张版权。训练集并不是一件艺术作品。其目的通常是确保数据适合用例。根据版权法的规定,针对主题创建合适的数据集并不是一项创造性活动。但是,仍然可以主张版权的一个方面是对数据进行分类的方式。如果类别是通过创造性过程(例如,“美丽/丑陋”、“强/弱”、“大/小”)进行筛选的,那么就可以认为通过创造性标记方式创造的训练集受到版权保护。基于事实要素(例如“猫/狗”、“交通信号灯/路灯/停车标志”)的分类不具备创造性,因此不受版权保护。
在某些应用领域,训练集是通过模拟或其他人工手段生成的。有另一种观点认为,这样的训练集可以受到版权保护,因为所选的模拟或生成方式可以看作是一种创造性选择。但是,这一观点从未在法庭上得到检验。
通常,公司会对其训练集严格保密。这种做法十分合理,因为使用机器学习模型无需共享训练集。避免训练集被恶意复制,并对需要拥有训练集的各方施加严格的契约约束似乎是最好的方法。
训练参数保护
训练集和模型只是机器学习系统宝贵价值的一部分。驱动训练算法的参数也同样十分宝贵:选择正确的训练参数需要经验丰富的工程师花费大量时间和精力。
对于创建机器学习系统所用的训练参数集,版权保护是最有用的。如果数据科学家通过创造性工作来选择合适的训练参数,从而确定这些参数,那么最终得到的参数集就很有可能受到版权保护。但是,如果是通过详尽搜索(例如评估文献中提出的许多选项)或算法过程发现的训练参数,则不受版权保护。这一原则同样适用于使用这些训练参数和指定训练集生成的模型。
数据库权利可能不太适用于参数集,因为数据库权利的一个标准是集合中的各个元素必须系统地或有条理地排列。参数集很难符合这个标准。
架构保护
系统架构是机器学习系统的基础。其设计是确保系统正常运行的关键要素。在完成训练后,架构就将投入使用。
这类系统包含两部分:定义架构的图形和实现架构的软件。图形符合保护的条件与模型参数相同。从理论上讲,架构的创新硬件层面可以申请专利;但是由于这一领域的大多数创新基本只与软件有关,因此硬件专利不太现实。实施训练和/或推理的软件通常会受到版权保护,因为软件主要是通过创造性工作设计而成的。
机器学习系统保护
理论上,使用精心选择的参数集编程并基于特定训练集训练的电脑系统属于可获专利的主题范围。但是,欧洲和美国的现行判例法要求系统的设计目标是执行现实世界中的任务,例如驾驶汽车或识别现实世界中的图像。对于以更抽象的方式运行的机器学习系统(例如,在现实世界中缺少特定用例的情况下,进行识别和/或分类),能否获得专利仍未可知。
就像任何其他软件一样,机器学习系统的软件一定可以受到版权保护。
机器学习系统的数据库权利在理论上是有争议的:争议点在于数据集可通过模型和执行该模型的软件进行搜索。但是,这一观点从未在法庭上或法律文献中得到检验。
举证责任
发现侵权者和在法庭上证明侵权是两件截然不同的事情。在知识产权诉讼案件中,举证责任可能难以实现。一般而言,法院需要得到充分的证据来确信很有可能存在侵权。被指控的侵权人没有义务提供相关证据。因此,如果需要的证据在侵权人的掌握之下,那么知识产权权利所有者就可能会遇到问题。一些司法管辖区允许扣押证据或要求当事方进行所谓的“透露”,但这并不能确保权利所有者得到所需证据。
根据版权法的规定,如果两个物品非常相似,那么法院可以反转举证责任:侵权人必须证明其作品是独立创作的。但是,这是法院针对特定事实分析的结果,权利所有者不应依赖于这一机制。
根据商业机密法的规定,权利所有者有时可以选择要求法院对证据保密,或者让独立的一方(例如公证人)将证据与机密信息进行比较,而不必使机密成为公开法院记录的一部分。
模型防复制保护
当机器学习系统在对公众没有契约或使用限制的情况下推出时,就可以使用某种独特的方法来复制其功能。本质上,抄袭者使用一个未分类项目数据集,并将每个项目提交到机器学习系统。每个答案都仔细地记录为抄袭者的数据集分类。从而获得一个带有标签的数据集,用来训练相似质量的模型。事实证明,即使数据集包含非问题域数据,并且目标系统和克隆系统的架构与模型参数不匹配,这一方法仍然有效。根据版权或数据库法律的规定,暂时无法界定这种行为是否合法。原始机器学习系统中的数据集未被复制;只是利用了系统输出,而且只用来标记另一个数据集。
如果数据集分类本身具有创造性,那么抄袭者可能会因为重复使用标签而侵犯版权。即使只是复制和复用标签以对完全独立的数据集进行分类,也有可能侵犯版权。但是,这一观点从未在法庭上得到检验。
机器学习中的水印
知识产权法律的一个实际问题是权利所有者必须证明其权利受到侵犯。
当机器学习模型或训练集遭到复制时,证明侵权会异常困难,尤其是数据涉及现实世界的元素时。抄袭者可以轻松地辩称,他只不过是从原始来源或位置收集了相同或高度相似的数据而已。如果没有办法反驳这一论点,权利所有者就会遭到冷落。
水印是指在内容中嵌入信息的过程,在正常观察时可能无法轻易发现嵌入的信息。数字水印诞生于1992年12月,自90年代末以来一直为权利所有者广泛运用,以察觉和追踪可能发生的电影和歌曲泄漏。例如,嵌入的信息可以揭露泄漏源头,或是最初传播该内容的网络。
水印在机器学习中也找到了用武之地,但是运用方式略有不同。这里的水印是指对原始训练数据和/或模型稍作修改以创建某些唯一的模型属性。例如,可以修改图像以在特定位置添加标志。要检测这些水印,需要向机器学习系统提供精心制作的秘密图像,其中包含相同的唯一输入。独立训练的系统会将该图像归为普通类别,但是最初训练的系统以及抄袭带水印机器学习系统的系统都将提供由修改触发的唯一输出。这就可以表明该系统抄袭了原始系统。
这种方法的另一个优势是,水印可以用作创意元素,从而为机器学习系统增加了受版权保护的信息。这有助于加强针对抄袭者的版权主张。
抄袭者可能会反驳他独立使用了相同的水印,或者实际上是自己创建的水印。这样将扭转关于抄袭的指控。为了解决此类争论,必须清晰地记录选择和插入水印时的日期和时间。如果没有有力的证据,版权所有者将无法提出侵权主张。
机器学习和知识产权的未来
由机器学习驱动的业务越来越受到青睐。因此,为了保护该领域中的投资,对于知识产权的兴趣也在日益增加:从训练集的版权到分类系统的专利。但是,当前这一领域的知识产权法律和实践仍处于发展阶段,判例法也非常稀少。因此很难确定面向机器学习系统和机器学习驱动型产品的法律保护将发展到何种程度。
话虽如此,但仍有一些通用说明可供参考,如下表所示:
结论
在本白皮书中,我们阐述了未来哪些机器学习知识产权将受到哪些知识产权法律的保护。那么对于本文开篇的资本设备示例而言,这意味着什么呢?尽管用于维护的机器学习模型本身无法获得专利,但是这一模型的实施可能是符合专利要求的,因为其目的是执行现实世界中的任务。此外,还可以对实现机器学习算法的软件提出版权主张。但是,如果抄袭者仅仅是复制模型(权重)并在自己的实现中使用,或者如果通过标记自己的训练集来创建克隆模型,那么能否进行版权保护就难以确定。开发人员必须证明在架构设计、训练参数、训练集组成或数据标记方面做出了创造性选择,并且这些选择不仅仅是出于技术考虑。即使能证明这一点,也无法确定这种创造性是否充分地存在于模型的克隆/副本中,从而在法庭上得到认可。因此,制定应对策略来防止克隆或复制(例如平台安全)或者融入创造性(例如水印)对于机器学习知识产权的保护来说至关重要。最后,我们要指出,在法庭没有判例之前,侵权案件的审判结果以及法律是否将在这些问题上作出改变只能是推测。尽管如此,公司现在也应该开始考虑如何保护其机器学习知识产权。
恩智浦半导体致力于通过先进的解决方案为人们更智慧安全、便捷的生活保驾护航。作为全球领先的嵌入式应用安全连结解决方案领导者,恩智浦不断推动着安全互联汽车、工业与物联网、移动设备及通信基础设施市场的创新。除了嵌入式平台安全之外,恩智浦还提供机器学习模型保护功能。
机器学习模型完成训练后,将被部署到指定用途的系统中。借助恩智浦® eIQ™机器学习软件开发环境,您就可以在恩智浦i.MX RT交叉处理器和i.MX系列SoC上使用机器学习算法。eIQ™提供推理引擎、神经网络编译器和优化库。其中还包含提高机器学习网络安全性的方法,能够解决本文所述的克隆和对抗攻击等问题。其他机器学习安全措施也已纳入发展计划。
eIQ软件已完全集成到我们的MCUXpresso SDK和Yocto开发环境中,使您可以轻松开发完整的系统级应用。