出处:mp.weixin.qq.com
在V3里面又对DeepSeekMoE进行了优化,加入了Auxiliary Loss Free Load Balancing(无辅助损耗负载平衡),来优化了原来的Expert-Level Balance Loss(专家级平衡损失),以及Device-Level Balance Loss(设备级平衡损失)。就是说可以进一步避免Expert Specialization偏坠导致的问题,算法简单粗暴,后面会展开说说。
在V3里面又对DeepSeekMoE进行了优化,加入了Auxiliary Loss Free Load Balancing(无辅助损耗负载平衡),来优化了原来的Expert-Level Balance Loss(专家级平衡损失),以及Device-Level Balance Loss(设备级平衡损失)。就是说可以进一步避免Expert Specialization偏坠导致的问题,算法简单粗暴,后面会展开说说。
发表评论 取消回复