扫码关注量子位
Were RNNs All We Needed?
央企里首个开源的语义大模型
不再停留在囤算力、训模型、探索应用场景
比CoT/ToT推理更像人类
多模型合作,多系统协同
微调需要的算力更少了
成绩无法复现,还涉嫌套壳
智能体是大模型最重要的发展方向。
大模型成网络攻防双方互搏武器
Mamba提出者Tri Dao参与
上云成关键战略
AI开始反过来训练人类了!
想数清单词,嵌入维度要够大
可能会用于本地Copilot?
Intelligence with Everyone
结合Transformer和图神经网络
分数更反映模型能力,而不是风格了
平衡生成文本的连贯性和多样性
化身解题神器
无需解释,只靠代码和输入输出就能学会编程