← Back to Paper List

RLSR: Reinforcement Learning with Supervised Reward Outperforms SFT in Instruction Following

Zhichao Wang, Andy Wong, Ruslan Belkin

arXiv (2025)

RL Reasoning Benchmark

📄

No Summary Available

This paper hasn't been summarized yet.