Meta AI 在 2024 年底推出的两项开创性研究计划正在挑战支撑当今大多数大型语言模型 (LLM) 的基本“下一个代币预测”范式。BLT (Byte-Level Transformer) 架构的推出消除了对分词器的需求,并在多模态对齐和融合方面展示了巨大的潜力,同时又推出了大型概念模型 (LCM)。LCM 更进一步,还丢弃了令牌,旨在通过在语义“概念”空间中实现直接推理和生成来弥合符号和联结主义 AI 之间的差距。这些发展引发了 AI 社区内部的讨论,许多人认为它们可能代表 LLM 设计的新时代。

Meta 的研究探索了模型的潜在空间,寻求彻底改变其内部表征并促进更符合人类认知的推理过程。这种探索源于这样一个观察,即当前的 LLM,无论是开源还是闭源,都缺乏一个明确的层次结构,用于在抽象层面处理和生成信息,独立于特定的语言或模式。

传统 LLM 中流行的 “下一个代币预测 ”方法之所以受到关注,主要是因为它相对容易的工程实施和在实践中证明的有效性。这种方法解决了计算机处理文本的离散数字表示的必要性,而标记是实现这种转换为数学运算向量的最简单、最直接的方法。Ilya Sutskever 在与 Jensen Huang 的对话中此前曾建议,预测下一个单词可以让模型掌握潜在的现实世界过程和情绪,从而形成“世界模型”。

然而,批评者认为,使用离散的符号系统来捕捉人类思想的连续和复杂本质本质上是有缺陷的,因为人类不会用代币来思考。人类问题解决和长篇内容创建通常涉及分层方法,从整体结构的高级计划开始,然后逐渐添加细节。例如,在准备演讲时,个人通常会概述核心论点和流程,而不是预先选择每个单词。同样,写一篇论文涉及创建一个包含章节的框架,然后逐步详细说明。人类还可以在抽象级别识别和记住冗长文档不同部分之间的关系。

Meta 的 LCM 通过使模型能够在抽象概念层面进行学习和推理来直接解决这个问题。LCM 的输入和输出都是 “概念”,而不是令牌。与其他类似规模的 LLM 相比,这种方法已经展示了卓越的零样本跨语言泛化能力,在业内引起了极大的兴奋。

Hyperbolic 首席技术官 Yuchen Jin 在社交媒体上评论说,他越来越相信代币化将消失,LCM 将用“下一个概念预测”取代“下一个代币预测”。他直觉地认为 LCM 可能在推理和多模态任务方面表现出色。LCM 还在 Reddit 用户中引发了相当大的讨论,他们将其视为 AI 认知的潜在新范式,并热切期待将 LCM 与 Meta 的其他计划(如 BLT、JEPA 和 Coconut)相结合的协同效应。

LCM 如何在 不预测下一个标记的情况下学习抽象推理?

LCM 背后的核心思想是在更高的抽象级别执行语言建模,采用 “以概念为中心” 的范式。LCM 使用两个定义的抽象级别进行作:子词标记和概念。“概念”被定义为与语言和模态无关的抽象实体,代表更高级别的想法或动作,通常对应于文本文档中的句子或等效的口语。本质上,LCM 直接学习 “概念”,使用 transformer 将句子转换为概念向量序列,而不是标记序列进行训练。

为了训练这些更高级别的抽象表示,LCM 使用 SONAR作为翻译工具,SONAR 是之前开发的用于多语言和多模态句子嵌入的 Meta 模型。SONAR 将标记转换为概念向量(反之亦然),允许 LCM 的输入和输出成为概念向量,从而可以直接学习更高级别的语义关系。虽然 SONAR 充当令牌和概念之间的桥梁(不参与训练),但研究人员探索了能够处理这些“概念”单元的三种模型架构:Base-LCM、Diffusion-based LCM 和 Quantized LCM。

基础架构 Base-LCM 采用标准的仅解码器 Transformer 模型来预测嵌入空间中的下一个概念(句子嵌入)。其目标是直接最小化均方误差 (MSE) 损失,以回归目标句子嵌入。SONAR 用作 PreNet 和 PostNet,用于规范化输入和输出嵌入。Base-LCM 工作流程包括将输入分割成句子,使用 SONAR 将每个句子编码为概念序列(句子向量),使用 LCM 处理此序列以生成新的概念序列,最后使用 SONAR 将生成的概念解码回子词标记序列。虽然这种方法结构清晰且训练相对稳定,但存在信息丢失的风险,因为所有语义信息都必须通过中间概念向量。

量化 LCM 通过离散化数据来解决连续数据生成问题。此架构使用残差矢量量化 (RVQ) 来量化 SONAR 提供的概念层,然后对离散单元进行建模。通过使用离散表示,量化 LCM 可以降低计算复杂性,并在处理长序列方面具有优势。但是,将连续嵌入映射到离散码簿单元可能会导致信息丢失或失真,从而影响准确性。

受扩散模型的启发,基于扩散的 LCM 被建模为自回归模型,该模型在文档中按顺序生成概念。在这种方法中,使用扩散模型来生成句子嵌入。探索了两种主要变体:

  • 单塔扩散 LCM:该模型使用单个 Transformer 主干,其任务是预测给定嘈杂输入的干净句子嵌入。它通过在干净和嘈杂的嵌入之间交替进行有效训练。
  • Two-Tower Diffusion LCM这将上下文的编码与下一个嵌入的扩散分开。第一个模型 (contextualizer) 对上下文向量进行因果编码,而第二个模型 (denoiser) 通过迭代降噪来预测干净的句子嵌入。

在探索的变化中,Two-Tower Diffusion LCM 的分离结构可以更有效地处理长上下文,并利用去噪过程中的交叉注意力来利用上下文信息,在抽象摘要和长上下文推理任务中表现出卓越的性能。

LCM 解锁了哪些未来的可能性

Meta 的首席 AI 科学家兼 FAIR 总监 Yann LeCun 在 12 月的一次采访中将 LCM 描述为下一代 AI 系统的蓝图。LeCun 设想了一个目标驱动的 AI 系统拥有情感和世界模型的未来,而 LCM 是实现这一愿景的关键组成部分。

LCM 将整个句子或段落编码为高维向量并直接学习和输出概念的机制使 AI 模型能够在类似于人类的更高抽象层次上思考和推理,从而解锁更复杂的任务。

除了 LCM,Meta 还发布了 BLT 和 Coconut,两者都代表了对潜在空间的探索。BLT 通过将字节处理为动态大小的补丁来消除对分词器的需求,允许将不同的模态表示为字节,并使语言模型理解更加灵活。Coconut (Chain of Continuous Thought) 修改了潜在空间表示,使模型能够在连续的潜在空间中进行推理。

Meta 在潜在空间方面的一系列创新在 AI 社区内引发了一场关于 LCM、BLT、Coconut 和 Meta 之前推出的 JEPA(联合嵌入预测架构)之间潜在协同作用的重大辩论。

对 Substack 的分析表明,BLT 架构可以用作 LCM 框架中的可扩展编码器和解码器。Yuchen Jin 也赞同这种观点,他指出,虽然 LCM 目前的实现依赖于 SONAR,SONAR 仍然使用令牌级处理来开发句子嵌入空间,但他渴望看到 LCM+BLT 组合的结果。Reddit 用户推测未来的机器人将通过 LCM 概念化日常任务,使用 Coconut 推理任务,并通过 JEPA 适应现实世界的变化。

Meta 的这些发展标志着大型语言模型的设计和训练方式的潜在范式转变,超越了既定的“下一个标记预测”方法,转向更抽象和类似人类的推理能力。AI 社区将密切关注这些新型架构的进一步发展和集成。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论
意见
建议
发表
评论
返回
顶部