当前位置:首页 > 物联网 > 智能应用
[导读]随着最近法学硕士 (LLM)的成就和关注,以及随之而来的人工智能“夏季”,模型训练方法开始复兴,旨在尽快获得最优、性能最佳的模型。其中大部分是通过大规模实现的——更多芯片、更多数据、更多训练步骤。然而,许多团队一直专注于如何更高效、更智能地训练这些模型,以实现预期结果。

随着最近LLM的成就和关注,以及随之而来的人工智能“夏季”,模型训练方法开始复兴,旨在尽快获得最优、性能最佳的模型。其中大部分是通过大规模实现的——更多芯片、更多数据、更多训练步骤。然而,许多团队一直专注于如何更高效、更智能地训练这些模型,以实现预期结果。

法学硕士培养通常包括以下阶段:

· 预训练:这个初始阶段奠定了基础,将模型从一组惰性神经元转变为基本的语言生成器。虽然模型会吸收大量数据(例如整个互联网),但此阶段的输出通常是无意义的,尽管并非完全是胡言乱语。

· 监督式微调 (SFT):此阶段将模型从难以理解的状态提升,使其能够生成更连贯、更有用的输出。SFT 涉及为模型提供所需行为的具体示例,并教会它什么是“有帮助、有用和合理的”。在此阶段之后,模型可以部署并用于生产。

· 强化学习 (RL):强化学习将模型从“有效”提升到“良好”,超越了明确的指令,允许模型通过标记的偏好数据学习用户的隐性偏好和愿望。这使开发人员能够鼓励期望的行为,而无需明确定义为什么这些行为是首选。

· 情境学习:这种技术也称为即时工程,允许用户在推理时直接影响模型行为。通过采用约束和 N 次学习等方法,用户可以微调模型的输出以适应特定需求和情境。

请注意,这不是一个详尽的列表,还有许多其他方法和阶段可以纳入特殊的训练流程

引入奖励和强化学习

人类擅长模式识别,通常无需刻意努力就能学习和适应。我们的智力发展可以看作是一个不断增加的复杂模式识别过程。孩子在经历负面后果后学会不跳进水坑,就像法学硕士经历 SFT 一样。同样,观察社交互动的青少年学会根据正面和负面反馈调整自己的行为——强化学习的本质。

强化学习实践:关键组成部分

· 偏好数据: LLM 中的强化学习通常需要多个(通常是 2 个)示例输出和一个提示/输入,以展示“梯度”。这旨在表明某些行为相对于其他行为更受青睐。例如,在 RLHF 中,可能会向人类用户提供提示和两个示例,并要求他们选择他们喜欢哪个,或者在其他方法中,可能会向他们提供输出并要求他们以某种方式对其进行改进(其中改进的版本将被视为“首选”选项)。

· 奖励模型:奖励模型直接在偏好数据上进行训练。对于给定输入的一组响应,每个响应都可以分配一个标量值,表示其在集合中的“排名”(对于二进制示例,这可以是 0 和 1)。然后训练奖励模型以在给定新的输入和输出对的情况下预测这些标量值。也就是说,RM 能够重现或预测用户的偏好

· 生成器模型:这是最终预期的产物。简而言之,在强化训练过程中,生成器模型会生成一个输出,然后由奖励模型对其进行评分,并将得到的奖励反馈给算法,该算法决定如何改变生成器模型。例如,当提供正奖励时,算法将更新模型以增加生成给定输出的几率,而在提供负奖励的情况下则执行相反的操作。

在 LLM 领域,RLHF 一直是一股主导力量。通过收集大量人类偏好数据,RLHF 显著提高了 LLM 的表现。然而,这种方法成本高昂、耗时长,而且容易受到偏见和漏洞的影响。

这一限制促使人们探索大规模获取奖励信息的替代方法,为 RLAIF 的出现铺平了道路——一种有望重新定义人工智能发展未来的革命性方法。

了解 RLAIF:使用 AI 反馈扩展 LLM 对齐的技术概述

RLAIF 背后的核心思想既简单又深刻:如果 LLM 可以生成诗歌、脚本甚至代码等创意文本格式,为什么他们不能自学?这种自我完善的概念有望实现前所未有的质量和效率水平,超越 RLHF 的局限性。这正是研究人员通过 RLAIF 取得的成就。

与任何形式的强化学习一样,关键在于为输出分配价值并训练奖励模型来预测这些价值。RLAIF 的创新之处在于能够自动大规模生成这些偏好标签,而无需依赖人工输入。虽然所有 LLM 最终都以某种形式源自人工生成的数据,但 RLAIF 利用现有的 LLM 作为“老师”来指导训练过程,从而无需持续进行人工标记。

使用这种方法,作者能够从 RLAIF 获得与 RLHF 相当甚至更好的结果。请参见下面的“无害响应率”图表,比较各种方法:

为了实现这一目标,作者开发了许多方法创新。

· 情境学习和提示工程: RLAIF 利用情境学习和精心设计的提示来从教师 LLM 那里获取偏好信息。这些提示提供背景、示例(用于小样本学习)和要评估的样本。教师 LLM 的输出然后作为奖励信号。

· 思路链推理:为了提高教师法学硕士的推理能力,RLAIF 采用思路链 (CoT) 提示。虽然推理过程本身不直接使用,但它可以让教师法学硕士做出更明智、更细致的偏好判断。

· 解决位置偏见:为了减轻响应顺序对教师偏好的影响,RLAIF 对从具有不同响应顺序的多个提示中获得的偏好进行平均。

为了更直接地理解这一点,想象一下你试图训练的人工智能是一个学生,通过连续的反馈循环学习和改进。然后想象一个已经经过大量训练的现成人工智能作为老师。老师奖励学生采取某些行动、提出某些反应等,否则惩罚学生。它这样做的方式是通过“测试”学生,通过给学生测验,学生必须选择最佳答案。这些测试是通过“对比”提示生成的,其中老师通过略微改变提示来生成略有不同的答案。

例如,在代码生成方面,一个提示可能会鼓励 LLM 生成高效的代码,但可能会牺牲可读性,而另一个提示则强调代码清晰度和文档。然后,老师将自己的偏好指定为“基本事实”,并要求学生指出其认为的首选输出是什么。通过比较学生在这些对比提示下的回答,RLAIF 可以评估哪个回答更符合所需属性。

同时,学生的目标是最大化累积奖励。因此,每次受到惩罚时,它都会决定改变自己,以免再次犯错并再次受到惩罚。当它得到奖励时,它的目标是强化这种行为,以便将来更有可能重现相同的反应。这样,在连续的测验中,学生会变得越来越好,受到的惩罚越来越少。虽然惩罚永远不会降为零,但学生确实会收敛到某个最小值,这代表了它能够实现的最佳表现。从那里开始,学生做出的未来推理可能比不使用 RLAIF 时质量高得多。

评估合成(LLM 生成的)偏好数据对于有效对齐至关重要。RLAIF 使用“自我奖励”分数,该分数比较对比提示下两个响应的生成概率。该分数反映了每个响应与所需属性的相对对齐程度。最后,直接偏好优化 (DPO) 是一种高效的 RL 算法,它利用这些自我奖励分数来优化学生模型,鼓励其生成符合人类价值观的响应。DPO 直接优化 LLM 以获得首选响应,而无需明确训练单独的奖励模型。

RLAIF 实际应用:应用和优势

RLAIF 的多功能性扩展到各种任务,包括摘要、对话生成和代码生成。研究表明,RLAIF 可以实现与 RLHF 相当甚至更好的性能,同时显著减少对人工注释的依赖。这意味着可以大幅节省成本并缩短迭代周期,这使得 RLAIF 对于快速发展的 LLM 开发特别有吸引力。

此外,RLAIF 为未来“闭环”法学硕士改进打开了大门。随着学生模型通过 RLAIF 变得更加一致,反过来,它可以用作后续 RLAIF 迭代的更可靠的教师模型。这形成了一个正反馈循环,有可能在无需额外人工干预的情况下持续改进法学硕士的一致性。

那么如何利用 RLAIF?如果你已经有了 RL 管道,这其实很简单:

1. 提示集:从一组旨在引发所需行为的提示开始。或者,您可以利用现成的 LLM 来生成这些提示。

2. 对比提示:对于每个提示,创建两个略有不同的版本,强调目标行为的不同方面(例如,有用性与安全性)。 LLM 也可以自动执行此过程。

3. 响应生成:捕获学生 LLM 对每个提示变化的响应。

4. 偏好引出:创建元提示,以针对每个提示-响应对从老师 LLM 处获取偏好信息。

5. RL 管道集成:利用现有 RL 管道中生成的偏好数据来指导学生模型的学习和优化。

挑战与限制

尽管 RLAIF 潜力巨大,但它仍面临需要进一步研究的挑战。人工智能注释的准确性仍然令人担忧,因为教师 LLM 的偏见可能会传播到学生模型中。此外,这些偏好数据中包含的偏见最终可能会在教师 LLM 中“结晶”,这使得事后很难消除。此外,研究表明,与 RLAIF 一致的模型有时会生成事实不一致或连贯性降低的响应。这需要探索技术来改善生成文本的事实基础和整体质量。

解决这些问题需要探索提高人工智能反馈的可靠性、质量和客观性的技术。

此外,RLAIF 的理论基础需要仔细研究。虽然自我奖励分数的有效性已被证实,但仍需要进一步分析以了解其局限性并完善其基本假设。

新兴趋势和未来研究

RLAIF 的出现引发了令人兴奋的研究方向。将其与其他 RL 方法(如执行反馈强化学习 (RLEF))进行比较,可以深入了解它们各自的优缺点。

一个方向涉及研究细粒度反馈机制,该机制在单个 token 级别提供更细粒度的奖励,从而可能带来更精确和更细微的对齐结果。另一个有希望的途径是探索多模态信息的集成,结合来自图像和视频的数据来丰富对齐过程并促进对 LLM 的更全面理解。从人类学习中汲取灵感,研究人员也在探索课程学习原则在 RLAIF 中的应用,逐步增加任务的复杂性以提高对齐过程的效率和有效性。

此外,研究 RLAIF 中正反馈循环的潜力,从而实现无需人工干预的 LLM 持续改进,这代表着朝着更加自主和自我完善的 AI 生态系统迈出了重要一步。

此外,通过将反馈融入现实世界,可能有机会提高这种方法的质量。例如,如果代理能够执行代码、进行现实世界的实验或与机器人系统集成以在现实世界中“实例化”反馈以捕获更客观的反馈,它将能够捕获更准确、更可靠的偏好信息,而不会失去扩展优势。

然而,道德考量仍然至关重要。由于 RLAIF 使 LLM 能够塑造自己的定位,因此确保负责任的开发和部署至关重要。建立强有力的保障措施以防止潜在的滥用并减轻从教师模型中继承的偏见对于建立信任和确保这项技术的道德进步至关重要。如前所述,RLAIF 有可能传播和放大源数据中存在的偏见,在扩展这种方法之前必须仔细检查这些偏见。

结论:RLAIF 是实现 AI 协调发展的垫脚石

RLAIF 提供了一种强大而有效的 LLM 对齐方法,与传统的 RLHF 方法相比具有显著的优势。它的可扩展性、成本效益和自我改进潜力为人工智能发展的未来带来了巨大的希望。在承认当前挑战和局限性的同时,正在进行的研究工作正在积极为更可靠、客观和合乎道德的 RLAIF 框架铺平道路。随着我们继续探索这一令人兴奋的前沿,RLAIF 将成为迈向未来的垫脚石,在未来,LLM 将与人类价值观和期望无缝融合,充分释放人工智能的潜力,造福社会。


本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭