从标记到概念:Meta 在多语言 AI 中引入大型概念模型 Meta 的一个研究团队引入了大型概念模型 (LCM),这是一种在更高语义级别处理输入的新型架构。这种转变使 LCM 能够实现跨语言的显著零样本泛化,其性能优于同等规模的现有 LLM。 AI资讯 2025年07月03日 0 点赞 0 评论 8 浏览
Zhipu.AI的开源力量游戏:超快的GLM模型和全球扩张,在可能的IPO之前 Zhipu.AI 开源更快的 GLM 模型(速度提高 8 倍),推出 Z.ai,旨在全球扩张,可能在 IPO 之前。 AI资讯 2025年07月01日 0 点赞 0 评论 16 浏览
超越 Next-Token Prediction?Meta 的新型架构引发了关于大型语言模型未来的辩论 Meta AI 最近的研究引入了 BLT 架构,消除了分词器以改进多模态处理,以及大型概念模型 (LCM),该模型在语义“概念”而不是标记上运行,以实现更像人类的推理和更好的跨语言泛化。这些创新挑战了 LLM 中传统的 “next-token prediction” 范式。 AI资讯 2025年06月30日 0 点赞 0 评论 16 浏览
fasttransform:可逆管道变得简单 推出 fasttransform,这是一个 Python 库,它通过多次分派的强大功能使数据转换可逆和可扩展。 AI资讯 2025年06月28日 0 点赞 0 评论 19 浏览
GRPO 的效率可以提高 10 倍吗?快手 AI 的 SRPO 建议 SRPO 是 Kwai AI 的 SRPO 框架将 LLM RL 后训练步骤削减了 90%,同时在数学和代码方面与 DeepSeek-R1 的性能相当。这种具有历史重采样的两阶段 RL 方法克服了 GRPO 的限制。 AI资讯 2025年06月27日 0 点赞 0 评论 27 浏览
字节跳动推出 Astra:用于自主机器人导航的双模型架构 字节跳动推出 Astra,这是一种创新的双模型架构,彻底改变了复杂室内环境中的机器人导航。 AI资讯 2025年06月25日 0 点赞 0 评论 26 浏览
AI 视频生成竞赛从能力转向盈利能力,挑战 Sora 的主导地位 AI 视频生成格局正在从能力转变为盈利能力,挑战 OpenAI Sora 的主导地位。竞争对手在质量和效率方面正在超越 Sora,用户更喜欢替代品。现在的重点是改进,例如针对实际应用的精确控制和样式自定义。 AI资讯 2025年06月23日 0 点赞 0 评论 36 浏览
麻省理工学院研究人员推出“SEAL”:迈向自我改进的 AI 的新步骤 MIT 推出了 SEAL,这是一个框架,使大型语言模型能够通过强化学习进行自我编辑和更新其权重。 AI资讯 2025年06月20日 0 点赞 0 评论 37 浏览
Adobe Research 使用状态空间模型解锁视频世界模型中的长期记忆 通过将用于高效远程依赖建模的状态空间模型 (SSM) 与用于一致性的密集局部注意力相结合,并使用扩散强迫和框架局部注意力等训练策略,Adobe Research 的研究人员成功地克服了视频生成中长期记忆的长期挑战。 AI资讯 2025年06月19日 0 点赞 0 评论 33 浏览
DeepSeek 推出 DeepSeek-Prover-V2:通过递归证明搜索和新基准测试推进神经定理证明 DeepSeek AI 发布了 DeepSeek-Prover-V2,这是一个用于精益 4 定理证明的开源 LLM。它使用 DeepSeek-V3 的递归证明搜索来训练数据和强化学习,在 MiniF2F 上取得了最好的结果。 AI资讯 2025年06月18日 0 点赞 0 评论 31 浏览