meituan_2025-10-11

可验证过程奖励在提升大模型推理效率中的探索与实践

2025-10-10

本文提出可验证过程奖励机制VSRM,解决大模型推理中的过度思考问题。通过特殊Token定位推理步骤,利用前瞻窗口计算步骤级正确率增益作为奖励信号,直接抑制无效推理步骤。该方法与强化学习算法解耦,在多个数学基准测试中显著缩短输出长度同时保持模型性能,为高效推理提供了可解释的优化路径。

阅读全文