DeepSeek 为下一代 R2 模型提供信号,推出使用 SPCT 扩展推理的新方法 DeepSeek AI 是大型语言模型领域的杰出参与者,最近发表了一篇研究论文,详细介绍了一种新技术,旨在增强一般奖励模型 (GRM) 在推理阶段的可扩展性。 AI资讯 2025年07月07日 0 点赞 0 评论 478 浏览
如何结合多模态RAG和异步调用实现大模型内容理解? 如何利用多模态大模型和工程优化手段提升物流理赔业务效率。核心方案包括:通过多模态RAG技术实现图片查重,结合异步调用方法优化货损识别功能。 技术开发 2025年03月28日 0 点赞 0 评论 453 浏览
DeepSeek-V3.2-Exp 发布,训练推理提效,API 同步降价 DeepSeek Sparse Attention(DSA)首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。 AI资讯 2025年09月30日 0 点赞 0 评论 399 浏览
【万字长文】大模型训练推理和性能优化算法总结和实践 阿里云公共云 AI 汽车行业大模型技术团队,致力于通过专业的全栈 AI 技术推动 AI 的落地应用。 技术开发 2025年09月30日 0 点赞 0 评论 390 浏览
大模型是如何“学会”语言的? 当ChatGPT能流畅对话,当文心一言能创作诗歌,我们不禁好奇:这些大模型究竟是怎么掌握人类语言的?它们没有嘴巴、没有耳朵,却能理解我们的问题并给出合理回答。今天,我们就用大白话,揭开大模型学习语言的神秘面纱。 知识库 2025年09月30日 0 点赞 0 评论 374 浏览
Adobe Research 使用状态空间模型解锁视频世界模型中的长期记忆 通过将用于高效远程依赖建模的状态空间模型 (SSM) 与用于一致性的密集局部注意力相结合,并使用扩散强迫和框架局部注意力等训练策略,Adobe Research 的研究人员成功地克服了视频生成中长期记忆的长期挑战。 AI资讯 2025年06月19日 0 点赞 0 评论 371 浏览
麻省理工学院研究人员推出“SEAL”:迈向自我改进的 AI 的新步骤 MIT 推出了 SEAL,这是一个框架,使大型语言模型能够通过强化学习进行自我编辑和更新其权重。 AI资讯 2025年06月20日 0 点赞 0 评论 369 浏览
大模型输入输出语义分析与评估 本文主要描述如何通过语义富化和搜索技术,帮助用户更好地理解大模型的输入输出,从而更有效地构建大模型应用。 技术开发 2025年03月25日 0 点赞 0 评论 360 浏览
从标记到概念:Meta 在多语言 AI 中引入大型概念模型 Meta 的一个研究团队引入了大型概念模型 (LCM),这是一种在更高语义级别处理输入的新型架构。这种转变使 LCM 能够实现跨语言的显著零样本泛化,其性能优于同等规模的现有 LLM。 AI资讯 2025年07月03日 0 点赞 0 评论 352 浏览