游戏源码部署-10行代码与RLHF竞争并用社交游戏数据训练社交对齐模型

机器之心专栏

机器之心编辑部

人脑中真的有一个评分模型负责价值确定吗?

使语言模型的行为符合人类社会价值观是当前语言模型发展的重要组成部分。 相应的训练也称为价值对齐。

目前主流的解决方案是ChatGPT使用的RLHF(Reinforcement Learning from Human Feedback),即基于人类反馈的强化学习。 该解决方案首先训练奖励模型(价值模型)作为人类判断的代理。 代理模型在强化学习阶段提供奖励作为生成语言模型的监督信号。

该方法存在以下痛点:

游戏源码部署-10行代码与RLHF竞争并用社交游戏数据训练社交对齐模型

1、代理模型形成的奖励容易被破解或篡改。 例如,如果在智能体模型的训练语料中,相对较长且详细的文本大多被标记为高分,那么智能体模型很可能会错误地奖励那些繁琐但不模糊的回答。 多个明确的奖励目标可能会相互冲突,因此无害的答案可能不会提供信息。

2. 在训练过程中,代理模型需要不断地与生成模型进行交互,这个过程可能非常耗时且效率低下。 为了保证高质量的监督信号,代理模型不应大于生成模型,这意味着在强化学习优化过程中,至少需要两个较大的模型交替进行推理(奖励的判断)和参数更新。 (生成模型参数优化)。 这样的设置在大规模分布式训练中可能会非常不方便。

3、价值模型本身与人类思维模型没有明显的对应关系。 我们没有一个统一的评分模型,全年保持固定的评分标准实际上是非常困难的。 相反,我们在成长过程中做出的大部分价值判断都来自每天晚上的社交互动——通过分析对类似情况的不同社会反应,我们逐渐意识到什么是值得鼓励的,什么是不值得鼓励的。 这些通过大量“社会化-反馈-完善”逐渐积累起来的经验和共识,已经成为人类社会共同的价值判断。

达特茅斯、斯坦福、谷歌 DeepMind 等机构最近的一项研究表明,利用社交游戏构建的高质量数据和简单高效的对齐算法可能是实现对齐的关键。

游戏源码部署-10行代码与RLHF竞争并用社交游戏数据训练社交对齐模型

作者提出了一种在多智能体游戏数据上训练的对齐方式。 基本思想可以理解为将训练阶段奖励模型和生成模型之间的在线交互(低采样率、奖励破解问题)转移到游戏中大量自主智能体之间的离线交互(高采样率) ,提前预览游戏)。 游戏环境独立于训练运行,并且可以大规模并行化。 监督信号从依赖于智能体奖励模型的表现转变为依赖于大量自主智能体的集体智慧。

为此,作者设计了一个名为Sandbox的虚拟社交模型。 沙盒是一个由网格点组成的世界,每个网格点都是一个社交代理。 社会体有一个记忆系统,用于存储每次交互的问题、答案、反馈等各种信息。 社交群体每次回复问题时,首先要从记忆系统中检索并返回与该问题最相关的 N 个历史问题和答案,作为本次回复的上下文参考。 通过这样的设计,社会体的位置可以在多轮交互中不断更新,并且更新后的位置可以与过去保持一定的连续性。 每个社交群体在初始化阶段都有不同的默认位置。

游戏源码部署-10行代码与RLHF竞争并用社交游戏数据训练社交对齐模型

将游戏数据转换为对齐数据

在实验中,作者使用了10x10网格沙箱(总共100个社交实体)进行社交模拟,并制定了一条社交规则(所谓的沙盒规则):所有社交实体必须让自己对问题的答案更加社交一致(社会一致性)给其他社会群体留下好印象。 此外,沙箱还部署无记忆的观察者,对每次社交互动前后社会群体的反应进行评分。 评分基于对齐和参与两个维度。

使用不同模型在沙箱中模拟人类社会

作者借助沙箱Sandbox测试了不同规模、不同训练阶段的语言模型。 总体而言,经过对齐训练的模型(所谓的“对齐模型”),例如 davinci-003、GPT-4 和 ChatGPT,能够在更少的交互轮次中生成社会规范响应。 换句话说,对齐训练的意义在于让模型在“开箱即用”的场景下更加安全,而不需要多轮对话引导。 没有对齐训练的模型不仅需要更多的交互来实现对齐和参与的整体最优响应,而且这些整体最优性的上限显着高于对齐模型的上限。

作者还提出了一种简单易用的对齐算法,称为稳定对齐(Stable Alignment),用于从沙箱中的历史数据中学习对齐。 稳定比对算法在每个mini-batch(小批量)中进行评分调制的对比学习——回复的分数越低游戏源码部署,对比学习的边界值就会设置得越大——换句话说,稳定比对通过不断对小批量数据进行采样会鼓励模型生成更接近高分的响应,而不是更接近低分的响应。 稳定对齐最终收敛到 SFT 损失。 作者还讨论了稳定对齐与SFT、RLHF的区别。

游戏源码部署-10行代码与RLHF竞争并用社交游戏数据训练社交对齐模型

作者指出,来自沙盒游戏的数据,由于机制的设定,包含了大量通过修正而变得符合社会价值观的数据。 作者通过消融实验证明,这些大量的逐步改进的数据是稳定训练的关键。

作者还与目前主流的对齐算法性能和训练稳定性做了性能对比游戏源码部署,证明稳定对齐不仅比奖励模型更稳定,而且在通用性能和对齐性能上也强到足以与 RLHF 竞争(因为 ChatGPT使用未公开的模型、数据和算法,因此仅供参考)。

生成结果示例:

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

悟空资源网 游戏源码 游戏源码部署-10行代码与RLHF竞争并用社交游戏数据训练社交对齐模型 https://www.wkzy.net/game/184497.html

常见问题

相关文章

官方客服团队

为您解决烦忧 - 24小时在线 专业服务