本文存在大量口齿不清
deepseek-r1持续火热, 已有大量的复现训练过程
- open-r1
- mini-deepseek-r1
- open-r1-multimodal
- open-thoughts
- TinyZero
- simpleRL-reason
- RAGEN
- unsloth r1-reasoning
- oat-zero
- Logic-RL
- deepseek-r1-gsm8k
具体效果可以看具体的仓库与其中的论文或者博客, 这里主要想法是, 是否可以使用这一训练范式, 来为传统强化学习任务, 带来可对人带来参考的思维过程
例如, 希望给围棋使用此范式, 一个可能的 pipeline 是:
- sft, 为模型带入围棋知识
我认为是必要的, 因为通用型大模型此类知识较少, 如果没有的话, 搜索解空间太大, 不容易搜索到正确的 token, 可以使用其他强力模型或者程序进行辅助构建
- 设定一个通用格式, 继续sft, 让模型输出正确格式(非必要, 在上述复现中, 无需特意sft也可以让模型输出正确格式)
- rule based RL
考虑到围棋中间的reward非常难量化, 可以使用专业围棋模型进行反馈
让大模型进行一定的思考, 输出一个答案, 之后与围棋模型进行比对, 前几选 reward +1, 其他 reward -1, 或者更进一步的, 使用围棋模型的 logits
如果是简单的任务, 则可以通过env反馈奖励(与r1相同), 参考 RAGEN
转载无需注明出处