出处:mp.weixin.qq.com
据OpenAI开发者账号提到,自去年12月以来一直在进行的强化学习微调(RFT)功能现已支持OpenAI o4-mini模型。5月8日,OpenAI的o4-mini与强化微调(RFT)正式上线。强化微调只支持o系列的推理模型,目前只支持o4-mini。
强化微调(Reinforced Fine-Tuning, RFT)是OpenAI推出的一种新型模型训练方法,它整合了传统的监督微调(Supervised Fine-Tuning, SFT)、奖励模型和强化学习的三大要素。
发表评论 取消回复