蚂蚁用8B小模型构建用户“话”像,跨任务跨模型通用且SOTA

迎接大模型应用爆发,给每个用户配赛博秘书

蚂蚁AlignXplore+团队 投稿

量子位 | 公众号 QbitAI

怎样做一个爆款大模型应用?

这恐怕是2026年AI开发者们都在关注的问题。当算力和性能不再是唯一的护城河,“爆款”意味着大模型要能精准地“抓住”每一名具体的用户,而个性化正是其中的关键技术之一。

那么,大模型时代应该怎么做个性化呢?一方面,传统的推荐系统和对话模型往往依赖ID Embedding或特定参数(如LoRA)来表示用户偏好。这种不可解释、难以迁移的“黑盒”范式,正在成为桎梏。另一方面,大模型强大的推理能力和生成能力为打破传统范式的局限性带来了机会,让个性化可以从“黑盒”走向“白盒”

近日,蚂蚁和东北大学研究团队(后简称“团队”)推出AlignXplore+,在大模型个性化上实现了一种文本化用户建模的新范式,让复杂的用户偏好可以被人和机器同时理解,同时具备很好的扩展性和迁移性。

为什么是“文本”?

△图1 个性化领域从基于向量/参数的用户表示向基于文本的用户表示的范式转变。

(a) 传统方法生成的用户专属参数和向量与训练模型紧密耦合,因此无法迁移。
(b) 团队开创了一种基于文本的范式,该范式能推断出与模型和任务无关的偏好总结,作为通用接口,赋能各类下游模型完成多样化任务。

事实上,按照目前的个性化技术路线,无论是静态的用户向量还是为每个用户微调一个模型,本质上都是不透明的“黑盒”。

团队认为,这种表示方式有两项根本性的痛点:

1. 不可解释性:用户无法理解、也无法修改被系统定义的“自己”,这在注重隐私和控制权的AI Agent时代是不可接受的。

2. 无法迁移:更关键的是,向量和参数通常与特定的模型架构深度绑定。你在推荐系统里的长期兴趣,无法直接被聊天机器人复用;你在A模型里的画像,换了B模型就成了乱码。

“文本是通用的接口,而向量是封闭的孤岛。”

基于这样的底层思考,团队提出了一种范式转移:摒弃隐空间中的向量,直接用自然语言来归纳和推理解析用户的偏好。

这种基于文本的偏好归纳,不仅人眼可读、可控,更重要的是它完全解耦了偏好推理与下游的模型和任务——无论是推荐、写作还是闲聊,无论是GPT、Llama还是Qwen,都可以无缝“读懂”这个用户。

AlignXplore+:三大核心特性,重构用户理解范式

相比于现有的用户理解和对齐方法,AlignXplore+实现了三大跨越:

1. 全域通用:打破数据孤岛。

AlignXplore+不再局限于单一的交互形式。它被设计用于处理真实世界中异构的数据源。无论是社交网络上的发帖、电商平台的点击,还是新闻流的浏览记录,AlignXplore+都能将其统一消化,提炼出高价值的偏好摘要。这使得它能够从碎片化的数字足迹中,拼凑出一个完整的用户全貌。

2. 极致迁移:一次画像,处处通用。

从“单一任务”到“全能应用”,它打破了任务边界,将能力从响应选择扩展到了推荐和生成等广泛的个性化应用中;从“特定模型”到“通用接口”,它真正实现了跨模型的迁移。AlignXplore+生成的画像,可以被任何下游大模型直接读取和使用。

3. 实战适配:无惧真实世界数据噪点。

真实世界的交互是流式的,也是充满噪点的。AlignXplore+不需要每次都重新“阅读”用户的一生,而是像人类记忆一样,基于旧的摘要和新的交互不断演化;而面对真实场景中常见的“不完美信号”(如缺乏明确负反馈的数据和跨平台混合数据),它依然能保持稳定的推理能力,免受噪音干扰。

AlignXplore+具体是什么?

团队提出了一种面向大模型个性化对齐的统一框架,核心目标只有一个:让大模型在不重训、不续训前提下,持续理解用户。

△图2 训练框架概述。

该框架包含两个主要阶段。
(a) SFT阶段:通过”生成-验证-合并”流程创建高质量训练数据,该流程通过确保对多个未来交互的准确预测,综合生成全面的偏好总结。
(b)&(c) RL阶段:此阶段采用课程剪枝策略,选取推理密集型样本,并通过累积奖励函数优化偏好总结,以提升流式场景中的长期有效性。

在这个框架下,团队将“用户偏好学习”拆解为两个核心步骤:

1. SFT阶段:高质量数据的“生成-验证-融合”。为了解决文本化的偏好归纳“太泛”或“太偏”的问题,团队设计了一套Pipeline,让模型基于多种可能的未来交互行为来反推当前的偏好,并引入了“行为验证”机制,确保生成的用户偏好能准确预测用户行为。

2. RL阶段:面向未来的“课程学习”仅有SFT是不够的。团队引入了强化学习(RL),并设计了两个关键机制:

课程剪枝(Curriculum Pruning):筛选出那些“难但可解”的高推理价值样本,避免模型在简单或不可解的样本上空转;

累积奖励(Cumulative Reward):让模型不仅关注当前的偏好有效性,更要关注生成的用户偏好在未来持续交互中的可演化性,适应流式更新。

AlignXplore+:小参数撬动大模型,全面超越基线

相较于现有方法,AlignXplore+在用户理解准确性、迁移能力和鲁棒性上实现了全面升级。

1. 效果升级:8B模型超越20B/32B开源模型

在包含推荐(Recommendation)、回复选择(Response Selection)和回复生成(Response Generation)的九大基准测试中,仅有8B参数的AlignXplore+在平均分数上取得了SOTA的成绩。

  • 平均得分75.10%,绝对提升幅度比GPT-OSS-20B高出4.2%。
  • 在复杂任务上表现尤为突出(如AlignX),验证了显式推理比隐式向量更能捕捉深层意图。

2. 迁移能力升级:真正实现“一次画像,处处通用”

AlignXplore+生成的用户偏好,展现了惊人的Zero-shot迁移能力:

跨任务迁移(Cross-Task):在对话任务中生成的偏好,直接拿去指导新闻推荐,依然有效。

跨模型迁移(Cross-Model):这是文本接口的最大优势。AlignXplore+生成的偏好,直接给Qwen2.5-7B或GPT-OSS-20B等完全不同的下游模型使用,均能带来稳定的性能提升。这意味着你的用户偏好不再被单一模型锁定。

3. 鲁棒性升级:适应真实世界的“不完美数据”

真实场景往往只有用户的点击记录(正样本),而缺乏明确的负反馈。实验表明,即便移除了所有的负样本,AlignXplore+依然保持了显著的性能优势,展现了强大的推理鲁棒性。

用户的真实历史行为往往是跨越多种领域的。实验结果显示,即使将不同领域的历史记录(如电影+政治新闻)混合在一起,AlignXplore+依然能抽丝剥茧,精准捕捉多重兴趣,而不像传统模型那样将兴趣“平均化”。

面向未来:构建透明、互通的User-Centric AI

尽管AlignXplore+已经证明了“文本即接口”在个性化领域的巨大潜力,但这只是一个开始。团队认为,随着AI Agent的爆发,用户表示(User Representation)将成为打通不同Agent的核心协议。下一步,团队将继续探索:

流式推理的极限:在超长周期的流式交互中,如何在更新文本偏好时保持简洁与全面?

更全面的用户行为:在真实世界的多种异构用户数据中,如何精准地挖掘出用户的真实、全面的偏好?

更通用的训练范式:在面对更多样化的交互形式时,如何构建真正的通用个性化推理引擎?

作者介绍

该工作得第一作者为东北大学软件学院博士生刘禹廷,目前在蚂蚁实习。蚂蚁高级研究员武威为共同贡献者及通讯作者。

相关链接
Arxiv:
https://arxiv.org/pdf/2601.04963
GitHub:
https://github.com/AntResearchNLP/AlignXplorePlus
Huggingface:
https://huggingface.co/VanillaH1/AlignXplore-Plus

版权所有,未经授权不得以任何形式转载及使用,违者必究。