GRPO 的效率可以提高 10 倍吗?快手 AI 的 SRPO 建议 SRPO 是 Kwai AI 的 SRPO 框架将 LLM RL 后训练步骤削减了 90%,同时在数学和代码方面与 DeepSeek-R1 的性能相当。这种具有历史重采样的两阶段 RL 方法克服了 GRPO 的限制。 AI资讯 2025年06月27日 0 点赞 0 评论 53 浏览
字节跳动推出 Astra:用于自主机器人导航的双模型架构 字节跳动推出 Astra,这是一种创新的双模型架构,彻底改变了复杂室内环境中的机器人导航。 AI资讯 2025年06月25日 0 点赞 0 评论 49 浏览
AI 视频生成竞赛从能力转向盈利能力,挑战 Sora 的主导地位 AI 视频生成格局正在从能力转变为盈利能力,挑战 OpenAI Sora 的主导地位。竞争对手在质量和效率方面正在超越 Sora,用户更喜欢替代品。现在的重点是改进,例如针对实际应用的精确控制和样式自定义。 AI资讯 2025年06月23日 0 点赞 0 评论 57 浏览
PSU 和 Duke 的研究人员推出了“多智能体系统自动故障归因 “自动故障归因”是 Multi-Agent 系统开发生命周期中的关键组成部分。它有可能将识别“出了什么问题以及谁应该负责”的挑战从一个令人困惑的谜团转变为一个可量化和可分析的问题 技术开发 2025年06月20日 1 点赞 0 评论 66 浏览
麻省理工学院研究人员推出“SEAL”:迈向自我改进的 AI 的新步骤 MIT 推出了 SEAL,这是一个框架,使大型语言模型能够通过强化学习进行自我编辑和更新其权重。 AI资讯 2025年06月20日 0 点赞 0 评论 59 浏览
DeepSeek-V3 新论文来了!通过硬件感知协同设计揭开低成本大型模型训练的秘密 DeepSeek-V3 背后的团队最新发布的一篇 14 页的技术论文,DeepSeek 首席执行官梁文峰是合著者,阐明了“AI 架构硬件的扩展挑战和反思”。 技术开发 2025年06月19日 1 点赞 0 评论 64 浏览
Adobe Research 使用状态空间模型解锁视频世界模型中的长期记忆 通过将用于高效远程依赖建模的状态空间模型 (SSM) 与用于一致性的密集局部注意力相结合,并使用扩散强迫和框架局部注意力等训练策略,Adobe Research 的研究人员成功地克服了视频生成中长期记忆的长期挑战。 AI资讯 2025年06月19日 0 点赞 0 评论 54 浏览
DeepSeek 推出 DeepSeek-Prover-V2:通过递归证明搜索和新基准测试推进神经定理证明 DeepSeek AI 发布了 DeepSeek-Prover-V2,这是一个用于精益 4 定理证明的开源 LLM。它使用 DeepSeek-V3 的递归证明搜索来训练数据和强化学习,在 MiniF2F 上取得了最好的结果。 AI资讯 2025年06月18日 0 点赞 0 评论 51 浏览
AI Agent 的工程化被低估了 目标:让 AI 能用和好用,用户用得明白、用得舒服、用得下去。从增长的视角就是,不仅要下载量,还要留存率和活跃度。 技术开发 2025年06月18日 0 点赞 0 评论 88 浏览