普林斯顿

刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA

广泛的数据是视觉推理强化学习Scaling的主要驱动力