Hello Jellyyyyyyyyyyyyyy !!
2025-10-10
本文提出可验证过程奖励机制VSRM,解决大模型推理中的过度思考问题。通过特殊Token定位推理步骤,利用前瞻窗口计算步骤级正确率增益作为奖励信号,直接抑制无效推理步骤。该方法与强化学习算法解耦,在多个数学基准测试中显著缩短输出长度同时保持模型性能,为高效推理提供了可解释的优化路径。
阅读全文