超越 Next-Token Prediction?Meta 的新型架构引发了关于大型语言模型未来的辩论 Meta AI 最近的研究引入了 BLT 架构,消除了分词器以改进多模态处理,以及大型概念模型 (LCM),该模型在语义“概念”而不是标记上运行,以实现更像人类的推理和更好的跨语言泛化。这些创新挑战了 LLM 中传统的 “next-token prediction” 范式。 AI资讯 2025年06月30日 0 点赞 0 评论 197 浏览
fasttransform:可逆管道变得简单 推出 fasttransform,这是一个 Python 库,它通过多次分派的强大功能使数据转换可逆和可扩展。 AI资讯 2025年06月28日 0 点赞 0 评论 168 浏览
GRPO 的效率可以提高 10 倍吗?快手 AI 的 SRPO 建议 SRPO 是 Kwai AI 的 SRPO 框架将 LLM RL 后训练步骤削减了 90%,同时在数学和代码方面与 DeepSeek-R1 的性能相当。这种具有历史重采样的两阶段 RL 方法克服了 GRPO 的限制。 AI资讯 2025年06月27日 0 点赞 0 评论 155 浏览
字节跳动推出 Astra:用于自主机器人导航的双模型架构 字节跳动推出 Astra,这是一种创新的双模型架构,彻底改变了复杂室内环境中的机器人导航。 AI资讯 2025年06月25日 0 点赞 0 评论 196 浏览
AI 视频生成竞赛从能力转向盈利能力,挑战 Sora 的主导地位 AI 视频生成格局正在从能力转变为盈利能力,挑战 OpenAI Sora 的主导地位。竞争对手在质量和效率方面正在超越 Sora,用户更喜欢替代品。现在的重点是改进,例如针对实际应用的精确控制和样式自定义。 AI资讯 2025年06月23日 0 点赞 0 评论 189 浏览
PSU 和 Duke 的研究人员推出了“多智能体系统自动故障归因 “自动故障归因”是 Multi-Agent 系统开发生命周期中的关键组成部分。它有可能将识别“出了什么问题以及谁应该负责”的挑战从一个令人困惑的谜团转变为一个可量化和可分析的问题 技术开发 2025年06月20日 1 点赞 0 评论 219 浏览
麻省理工学院研究人员推出“SEAL”:迈向自我改进的 AI 的新步骤 MIT 推出了 SEAL,这是一个框架,使大型语言模型能够通过强化学习进行自我编辑和更新其权重。 AI资讯 2025年06月20日 0 点赞 0 评论 203 浏览
DeepSeek-V3 新论文来了!通过硬件感知协同设计揭开低成本大型模型训练的秘密 DeepSeek-V3 背后的团队最新发布的一篇 14 页的技术论文,DeepSeek 首席执行官梁文峰是合著者,阐明了“AI 架构硬件的扩展挑战和反思”。 技术开发 2025年06月19日 1 点赞 0 评论 144 浏览
Adobe Research 使用状态空间模型解锁视频世界模型中的长期记忆 通过将用于高效远程依赖建模的状态空间模型 (SSM) 与用于一致性的密集局部注意力相结合,并使用扩散强迫和框架局部注意力等训练策略,Adobe Research 的研究人员成功地克服了视频生成中长期记忆的长期挑战。 AI资讯 2025年06月19日 0 点赞 0 评论 182 浏览