"Transformer"最新资讯

打乱/跳过Transformer层会怎样？最新研究揭开其信息流动机制，一口气解答8大问题

ViT作者等一众学者点赞

西风 19小时前

Transformer 信息流动机制

陈丹琦团队揭Transformer内部原理：另辟蹊径，从构建初代聊天机器人入手

数据集/架构/训练全都新来一遍

一水 2024-07-18

Transformer 陈丹琦

拆分Transformer注意力，韩国团队让大模型解码提速20倍

内存开销也大幅降低

克雷西 2024-07-01

Transformer

全面超越Transformer！清华蚂蚁纯MLP架构，长短程时序预测大提升

性能和效能双飞升

白交 2024-06-12

MLP Transformer 时序预测

新架构Mamba更新二代！作者：别争了，数学上Transformer和SSM是一回事

统一两大序列建模架构

梦晨 2024-06-04

Mamba Transformer

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

动态组合多头注意力

西风 2024-06-03

AI大模型 Transformer

全新神经网络架构KAN一夜爆火！200参数顶30万，MIT华人一作，轻松复现Nature封面AI数学研究

对MLP“进行一个简单的更改”

白交 2024-05-02

MIT Transformer 神经网络架构

谷歌爆改Transformer，“无限注意力”让1B小模型读完10部小说

114倍信息压缩

明敏 2024-04-12

Transformer 注意力机制

谷歌更新Transformer架构，更节省计算资源！50%性能提升

MoE正火，MoD也来了

明敏 2024-04-05

Transformer 谷歌

Mamba架构第一次做大！混合Transformer，打败Transformer

取两架构之长，混合模型Jamba诞生

丰色 2024-03-29

Mamba Transformer

模型合并就进化，直接拿下SOTA！Transformer作者创业新成果火了

英伟达科学家：最有想象力的论文

丰色 2024-03-25

Transformer 大模型

Mamba正式被ICLR拒收！“年度最佳技术原理解读”却火了

一文看懂“Transformer挑战者”两大主要思想

丰色 2024-02-26

Mamba Transformer

从20亿数据中学习物理世界，基于Transformer的通用世界模型成功挑战视频生成

支持多种视频合成或处理任务

丰色 2024-01-28

AI视频生成 Transformer

华为改进Transformer架构！盘古-π解决特征缺陷问题，同规模性能超LLaMA

陶大程领衔

明敏 2024-01-02

Transformer 华为诺亚方舟实验室

Transformer挑战者出现！斯坦福CMU联合团队，模型代码都开源

来自FlashAttention作者

梦晨 2023-12-05

Transformer 大模型

谷歌大模型研究陷重大争议：训练数据之外完全无法泛化？网友：AGI奇点推迟了

网友找出论文中更多关键却被忽略的细节，比如只做了GPT-2规模的试验等

白交 2023-11-11

Transformer 谷歌

Transformer一作来卷多模态！学术图表也能看懂，100毫秒极速响应｜免费试玩

权重已开源

明敏 2023-10-19

Transformer 多模态独角兽

PyTorch官方认可！斯坦福博士新作：长上下文LLM推理速度提8倍

已在64k CodeLlama上通过验证

丰色 2023-10-17

Transformer 大模型加速

揭秘iPhone里的Transformer：基于GPT-2架构，分词器含emoji，MIT校友出品

约3400万参数

鱼羊 2023-09-18

Transformer 苹果

混合精度下位置编码竟有大坑，LLaMA等主流开源模型纷纷中招，百川智能给出修复方案

还得从位置编码算法原理说起

丰色 2023-08-22

Transformer 百川智能

Transformer

打乱/跳过Transformer层会怎样？最新研究揭开其信息流动机制，一口气解答8大问题

陈丹琦团队揭Transformer内部原理：另辟蹊径，从构建初代聊天机器人入手

拆分Transformer注意力，韩国团队让大模型解码提速20倍

全面超越Transformer！清华蚂蚁纯MLP架构，长短程时序预测大提升

新架构Mamba更新二代！作者：别争了，数学上Transformer和SSM是一回事

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

全新神经网络架构KAN一夜爆火！200参数顶30万，MIT华人一作，轻松复现Nature封面AI数学研究

谷歌爆改Transformer，“无限注意力”让1B小模型读完10部小说

谷歌更新Transformer架构，更节省计算资源！50%性能提升

Mamba架构第一次做大！混合Transformer，打败Transformer

模型合并就进化，直接拿下SOTA！Transformer作者创业新成果火了

Mamba正式被ICLR拒收！“年度最佳技术原理解读”却火了

从20亿数据中学习物理世界，基于Transformer的通用世界模型成功挑战视频生成

华为改进Transformer架构！盘古-π解决特征缺陷问题，同规模性能超LLaMA

Transformer挑战者出现！斯坦福CMU联合团队，模型代码都开源

谷歌大模型研究陷重大争议：训练数据之外完全无法泛化？网友：AGI奇点推迟了

Transformer一作来卷多模态！学术图表也能看懂，100毫秒极速响应｜免费试玩

PyTorch官方认可！斯坦福博士新作：长上下文LLM推理速度提8倍

揭秘iPhone里的Transformer：基于GPT-2架构，分词器含emoji，MIT校友出品

混合精度下位置编码竟有大坑，LLaMA等主流开源模型纷纷中招，百川智能给出修复方案

热门文章

陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

给iPhone背面贴个AI录音机，生意老好了

AI视频修复速度10倍提升，过曝变色也能逐帧搞定｜美图国科大新算法

微软蓝屏搞瘫全球，马斯克很生气，原因很尴尬

快手可灵团队最新开源项目火了：大叔实时变身少女，GitHub狂揽7.5K星