AI 自我提升的概念一直是最近研究界的热门话题,出现了大量论文,OpenAI 首席执行官 Sam Altman 等知名人士对自我进化的智能系统的未来进行了权衡。现在,麻省理工学院的一篇题为“自适应语言模型”的新论文介绍了 SEAL(自适应 LLM),这是一个允许大型语言模型 (LLM) 更新其自身权重的新型框架。这一发展被视为朝着实现真正自我进化的 AI 迈出的又一重要一步。
昨天发表的研究论文已经引发了大量讨论,包括 Hacker News。SEAL 提出了一种方法,LLM 可以通过“自我编辑”生成自己的训练数据,然后根据新的输入更新其权重。至关重要的是,这种自我编辑过程是通过强化学习来学习的,奖励机制与更新模型的下游性能相关联。
鉴于最近围绕 AI 自我进化的兴趣激增,本文的时机尤为明显。本月早些时候,其他几项研究工作也引起了关注,包括 Sakana AI 和英属哥伦比亚大学的“达尔文-哥德尔机 (DGM)”、卡内基梅隆大学的“自我奖励训练 (SRT)”、上海交通大学用于多模态大型模型中持续自我改进的“MM-UPT”框架,以及香港中文大学与 vivo 合作的“UI-Genie”自我提升框架。
更令人兴奋的是,OpenAI 首席执行官 Sam Altman 最近在他的博客文章“The Gentle Singularity”中分享了他对自我改进的 AI 和机器人的未来愿景。他假设,虽然最初的数百万个人形机器人需要传统制造,但它们将能够“运营整个供应链以构建更多机器人,进而构建更多的芯片制造设施、数据中心等。紧随其后的是 @VraserX 的一条推文,声称 OpenAI 的一位内部人士透露,该公司已经在内部递归地运行自我改进的 AI,这一说法引发了对其真实性的广泛争论。
无论 OpenAI 内部发展的具体情况如何,麻省理工学院关于 SEAL 的论文都为 AI 走向自我进化提供了具体证据。
了解 SEAL:自适应语言模型
SEAL 背后的核心思想是使语言模型在遇到新数据时能够通过生成自己的合成数据并通过自我编辑优化其参数来改进自己。模型的训练目标是使用模型上下文中提供的数据直接生成这些自编辑 (SE)。
这些自编辑的生成是通过强化学习来学习的。当生成的自编辑(一旦应用)导致目标任务的性能提高时,模型将获得奖励。因此,SEAL 可以概念化为具有两个嵌套循环的算法:一个外部强化学习 (RL) 循环,用于优化自编辑的生成,以及一个内部更新循环,它使用生成的自编辑通过梯度下降来更新模型。
这种方法可以看作是元学习的一个实例,其中的重点是如何以元学习的方式产生有效的自我编辑。
一般框架
SEAL 在单个任务实例 (C,τ) 上运行,其中 C 是与任务相关的上下文信息,τ 定义用于评估模型适应的下游评估。例如,在知识集成任务中,C 可能是要集成到模型内部知识中的段落,而 τ 是关于该段落的一组问题。
给定 C,模型生成一个自编辑 SE,然后通过监督微调更新其参数: θ′←SFT(θ,SE)。强化学习用于优化这种自编辑生成:模型执行一个动作(生成 SE),根据 LMθ′ 在 τ 上的表现获得奖励 r,并更新其策略以最大化预期奖励。
研究人员发现,GRPO 和 PPO 等传统的在线政策方法会导致培训不稳定。他们最终选择了 ReST^EM,这是一种来自 DeepMind 论文的更简单的、基于过滤的行为克隆方法。这种方法可以看作是一个期望最大化 (EM) 过程,其中 E-step 从当前模型策略中对候选输出进行采样,而 M -step 仅加强那些通过监督微调产生正奖励的样本。
该论文还指出,虽然当前的实现使用单个模型来生成自编辑并从中学习,但这些角色可以在 “师生” 设置中分开。
在特定域中实例化 SEAL
麻省理工学院团队在两个特定领域实例化了 SEAL:知识集成和小样本学习。
- 知识整合:此处的目标是有效地将文章中的信息集成到模型的权重中。
- 小样本学习:这涉及模型适应新任务,示例很少。
实验结果
小样本学习和知识整合的实验结果表明了 SEAL 框架的有效性。
在小样本学习中,使用 Llama-3.2-1B-Instruct 模型,SEAL 显著提高了适应成功率,达到 72.5%,而使用基本自我编辑的模型没有 RL 训练的模型为 20%,没有适应的模型为 0%。虽然仍低于 “Oracle TTT”(理想化的基线),但这表明取得了重大进展。
对于知识整合,使用更大的 Qwen2.5-7B 模型来整合 SQuAD 文章中的新事实,SEAL 的表现始终优于基线方法。使用来自基础 Qwen-2.5-7B 模型的合成生成的数据进行训练已经显示出显着的改进,随后的强化学习进一步提高了性能。与外部 RL 迭代相比,准确性也显示出快速提高,经常在短短两次迭代中超过使用 GPT-4.1 生成数据的设置。
论文中的定性示例说明了强化学习如何生成更详细的自我编辑,从而提高性能。
虽然前景光明,但研究人员也承认 SEAL 框架存在一些局限性,包括与灾难性遗忘、计算开销和上下文相关评估相关的方面。这些在原始论文中有详细讨论。
原始论文 : https://www.willenyao.com/file/202506201156.pdf
项目地点: https://jyopari.github.io/posts/seal
Github 存储库: https://github.com/Continual-Intelligence/SEAL
发表评论 取消回复