出处:mp.weixin.qq.com

分享概要:
1)相关核心论文和创新点(从LLM到R1);
2)核心技术介绍:MOE架构、GRPO算法、MLA结构、MTP训练目标等等;
3)核心问题阐述:DeepSeek-V3/R1为什么这么便宜好用?DeepSeek-R1的训练蒸馏图解等。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论
意见
建议
发表
评论
返回
顶部