meituan_2025-10-11

2025-10-10

本文提出可验证过程奖励机制VSRM，解决大模型推理中的过度思考问题。通过特殊Token定位推理步骤，利用前瞻窗口计算步骤级正确率增益作为奖励信号，直接抑制无效推理步骤。该方法与强化学习算法解耦，在多个数学基准测试中显著缩短输出长度同时保持模型性能，为高效推理提供了可解释的优化路径。