< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

陈丹琦团队新作：数据量砍95%，大模型性能更强了！Less is More

白交 2024-02-10 14:33:34 来源：量子位

数据选择算法LESS

白交衡宇发自凹非寺

量子位 | 公众号 QbitAI

造大模型的成本，又被打下来了！

这次是数据量狂砍95%的那种。

陈丹琦团队最新提出大模型降本大法——

数据选择算法LESS，只筛选出与任务最相关5%数据来进行指令微调，效果比用整个数据集还要好。

指令微调正是让基础模型成为类ChatGPT助手模型的关键一步。

这样一来，让大模型术业有专攻，也就更便宜高效了。

更关键的是，所选的训练数据还具备可迁移性，只要针对特定任务，在其他大模型以及各种类型的模型上同样适用。

快来瞅瞅这篇新鲜出炉的论文到底说了什么？

LESS算法

目前指令微调释放了大模型的强大功能，可有效利用组合数据集开发ChatBot。

但面临的挑战在于，如何从这些数据集中识别出最相关的数据，从而来训练专门的技能。这种情况称为有针对性的指令微调。

为了解决这一难题，受过去相关研究——利用梯度信息估算单个训练数据点影响的启发，研究人员设计了一种优化器感知方法来选择这些数据。

LESS（Low-rank gradiEnt Similarity Search），简言之，优先使用对目标任务有直接帮助的数据进行训练，而不是依赖表面形式特征。

主要分为四个步骤。

首先从训练数据集摘取一小部分子集，用LoRA训练出一个选择模型。

随后，为单个训练数据点计算Adam LoRA梯度特征，并将其保存在梯度数据存储库中。

第三步，选择数据。对于具有少量示例的任务（含多个子任务），研究人员计算每个验证子任务的梯度特征。再从存储库中选出排名前5%训练子集。

最后，训练目标模型。该模型可以使用 LoRA 或完全微调进行训练。

其中第一步和第二步可以离线操作，每个候选训练集D只需计算一次。

归结起来，LESS具备这样几个特性：

与Adam优化器兼容。LESS将梯度信息与优化器状态相结合，来研究数据对模型性能的影响。
高效。LESS使用LoRA和随机投影来构建梯度数据存储，该数据存储具有低维、易操作的梯度特征，允许高效、有效地选择数据集。梯度数据存储可重复用于新的目标任务。

最终在评估结果中，MMLU、TydiQA以及BBH的任务中，5%数据量给大模型训练比整个数据集训练效果要好。

并且同随机选择相比，LESS性能始终高出 2 到 5 个百分点，这表明这一方法十分有效。

此外，他们还特别发现LESS具备可转移性。

LLAMA-2-7B上选择的数据结果，在LLAMA-2-13B和MISTRAL-7B的性能（列表LESS- T）同样更好。

甚至有的表现还比自己用LESS的（列表LESS）性能还好。

除此之外，还有可解释性。LESS选择的数据具有与目标任务相似的推理和技能类型，而现有方法（比如BM25、RDS）往往只根据表面形式线索（如语言或文本）选择数据。

陈丹琦团队出品

论文作者来自普林斯顿大学、华盛顿大学的研究人员。

普林斯顿计算机专业的博士生夏梦舟和Sadhika Malladi为共同一作。

其中夏梦舟本科毕业于复旦，硕士毕业于CMU，目前是陈丹琦的学生。

在陈丹琦的个人主页显示，“这些天主要被开发大模型吸引”，正在研究主题包括：

检索如何在下一代模型中发挥重要作用，提高真实性、适应性、可解释性和可信度。
大模型的低成本训练和部署，改进训练方法、数据管理、模型压缩和下游任务适应优化。
还对真正增进对当前大模型功能和局限性理解的工作感兴趣，无论在经验上还是理论上。

前段时间，他们曾提出爆火的“羊驼剪毛”大法——

LLM-Shearing大模型剪枝法，只用3%的计算量、5%的成本取得SOTA，统治了1B-3B规模的开源大模型。

大模型科研的上半场是把参数搞上去实战涌现，下半场嘛，less is more，更小的参数，更好的效果，帮助大模型在更多领域更快落地。

论文链接：
https://arxiv.org/abs/2402.04333

大模型陈丹琦

白交

空间智能卡脖子难题被杭州攻克！难倒GPT-5后，六小龙企业出手了2025-08-28
陈丹琦有了个公司邮箱，北大翁荔同款2025-08-28
英伟达最新芯片B30A曝光2025-08-20
AI应用如何落地政企？首先不要卷通用大模型2025-08-12

陈丹琦团队新作：数据量砍95%，大模型性能更强了！Less is More

LESS算法

陈丹琦团队出品

相关阅读

通用图大模型HiGPT：一己之力建模任何图结构关系！来自港大数据智能实验室&百度

微软Win11中发现国产开源大模型！RWKV官方：没人给我钱啊？现在捐赠还来得及

基准测试揭秘大模型“字数危机”：26个模型长文本生成普遍拉胯，最大输出长度过度宣传

AI在操作系统里复制自己，这一天还是来了

大模型的商业价值来自AI原生应用体验的质变｜百度@MEET2024

蚂蚁百灵大模型一号位：GPT-4o发布不意外，原生多模态方向已明

热门文章

Anthropic老大的唯一 -1，就是AI股神的未婚妻

耐心资本护航创新，2026SuperLink开启创投价值共生新时代

“智能体最后的考试”，Fable 5竟然不敌GPT 5.5

神了，世界杯第一天真按千问剧本踢了

2026奇点智能产品大会首批嘉宾官宣：在 AI 的“可交付的时代”，看一线专家如何拆解真实落地闭环！