扫码关注量子位
RNN的速度+Transformer的性能
下一次突破来自多模态推理+具身智能
带工具的SSMs更具潜力
“闭源人工智能在阻碍我们探索真正的科学”
保持大模型性能的同时降低计算和内存成本
而且Attention并非All You Need
像人类一样“想清楚再回答”
将标准点积注意力推广到三元线性函数
能够动态调制大模型的超网络架构
入选CVPR 2025,代码已开源
正向掩码+反向预测
新的长期记忆模块
推理阶段也适用
CoT让Transformer更接近图灵完备
预言5年内机器人领域将迎来大突破!
与Jeff Dean一起共事
作者:和MLP不能互相取代
Transformer作者创业成果
ViT作者等一众学者点赞
数据集/架构/训练全都新来一遍