淘天

任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B

提出具有任务级奖励的交互式强化学习框架

西风 2025-07-20