扫码关注量子位
114倍信息压缩
MoE正火,MoD也来了
取两架构之长,混合模型Jamba诞生
英伟达科学家:最有想象力的论文
一文看懂“Transformer挑战者”两大主要思想
支持多种视频合成或处理任务
陶大程领衔
来自FlashAttention作者
网友找出论文中更多关键却被忽略的细节,比如只做了GPT-2规模的试验等
权重已开源
已在64k CodeLlama上通过验证
约3400万参数
还得从位置编码算法原理说起
要做世界级AI研究实验室
打破「不可能三角」
FlashAttention时隔一年更新了
性能可达361 FPS
从OpenAI和谷歌出走后,他们去了这4家公司
Transformer还能帮助我们理解大脑
从视觉化矩阵乘法教起