中国团队再获EMNLP最佳长论文！北大微信揭大模型上下文学习机制

白交 2023-12-11 15:25:08 来源：量子位

斯坦福曼宁教授主题演讲

白交发自凹非寺

量子位 | 公众号 QbitAI

EMNLP顶会落下帷幕，各种奖项悉数颁出。

最佳长论文奖被北大微信AI团队收入囊中，由北大孙栩老师和微信周杰、孟凡东合作指导。

他们发现了大模型中关键能力——上下文学习背后的工作机制。

通过理解这一机制，还提出一系列方法来提高其性能。

除此之外，斯坦福Christopher Manning教授做了最后的主题演讲，告诉那些正在为大模型而感到焦虑的NLP博士生们，还有很多有意义的方向可以做。

EMNLP最佳长论文

上下文学习(in-context learning, ICL)是大语言模型的一个重要能力，通过提供少量示范示例，让模型学会执行各种下游任务，而无需更新参数。

目前ICL内在工作机制仍尚无定论，但缺乏对ICL过程的理解会限制能力进一步提升。

基于这一背景，北大&微信AI团队首次从信息流这一角度来探索。此前相关分析研究主要从输入作用和梯度角度进行分析。

首先，他们利用执行ICL的GPT模型，将标签词之间的注意力互动模式（即信息流）可视化。

“浅层”或“第一层”指的是离输入较近的层，而“深层”或“最后一层”指的是离输出较近的层。

初步观察表明，标签词在浅层聚合信息，并在深层分发信息。

为了清晰描述这一现象，研究人员提出了一个假设：标签词是ICL中聚合和分发信息的锚点。（Label Words are Anchors）

具体而言：

在浅层，标签词收集演示信息，为深层形成语义表征。
在深层，模型从标签词中提取信息，形成最终预测。

为了验证这一假设，他们设计了两个实验，使用GPT2-XL和GPT-J在多个文本分类基准中验证：

1、阻断某些层中标签词的信息聚合路径，结果发现在浅层隔离会显著影响性能，这表明标签词在浅层中的前向传播过程中收集了有用的信息。

2、目标位置标签词的注意力分布与模型最终预测结果的关系，结果表明两者之间存在很强的正相关性。

基于这样的发现，他们提出了三种改进ICL的方法：一种重新加权方法来提高ICL性能；一种上下文压缩技术来加速推理以及一种用于诊断 GPT2-XL 中 ICL 错误的分析框架。

其他情况

除此之外，最佳短论文、最佳主题论文、最佳论文Demo等各种奖项也全都揭晓。

其中最佳短论文：Faster Minimum Bayes Risk Decoding with Confidence-based Pruning，花落剑桥大学计算机系研究团队，一作是华人博士生Julius Cheng。

最佳主题论文：Ignore This Title and HackAPrompt: Exposing Systemic Vulnerabilities of LLMs Through a Global Prompt Hacking Competition

(忽略此标题and HackAPrompt：通过全球黑客大赛揭露大模型的系统漏洞)

还有最佳论文Demo则是由艾伦AI研究所、MIT、UC伯克利、华盛顿大学等研究团队获得，他们提出了PaperMage，处理、表示和操作视觉丰富的科学文档统一工具包。

值得一提的是，斯坦福Christopher Manning教授完成了EMNLP最后一场主题演讲是，现场座无虚席。

主题是大模型时代下NLP的学术研究：Nothing but blue skies！

他告诉正面临「生存危机」的NLP博士生们：

Aeronautics students do not build Boeings for their PhD theses. They do smaller models and still make meaningful contributions. There’s plenty of such opportunities for us too.

(航空专业的学生不会为他们的博士论文建造波音飞机。他们制造较小的模型，但仍然做出了有意义的贡献。我们也有很多这样的机会。)

随后他又详细地介绍了下有哪些机会可研究之，主要包括系统、待解决问题/数据驱动、机器学习、语言等层面。

系统： 极端量化的小模型；加速。
问题/数据驱动：寻找有效的评估方法；如何用哪个很少语言数据来建立NLP模型。
机器学习：如何实现持续学习；如何跟人类一样能从少样本事实中学习。
语言：较少数据获得系统概括性更强的模型。

参考链接：
[1]https://twitter.com/emnlpmeeting/status/1733758625792016597
[2]https://x.com/annargrs/status/1733732418992160854?s=20

EMNLP 北京大学微信AI 最佳长论文

白交

中国团队再获EMNLP最佳长论文！北大微信揭大模型上下文学习机制

EMNLP最佳长论文

其他情况

相关阅读

你和你的好友，正在免费帮微信训练神经网络

北大换新校长！中国科学院院士龚旗煌接任，15岁考上北大物理系

阿里全球数学竞赛落幕：全球最强73人出炉，北大获奖人数第一，还“炸出”各路世界大牛

微信AI全面开放各层次NLP能力！首次登上公开课主论坛

南京大学「自然指数」超越清华北大，位列全国高校第一、世界第七

人人可用的在线抠图，还是AI自动化的那种！北大校友的算法被玩出新高度

热门文章

雷军：地表最强四门车，小米造！自曝造车起步估值超700亿

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬