RLVR

这些大神在Meta的论文看一篇少一篇了

为什么RL训练明明带来巨大性能提升,却只改变了极少数参数?

梦晨 2025-11-17