大模型

AI解数学题只靠最后一个token

大语言模型在解数学题时,真正的计算发生在哪里?

henry 2025-09-14

AI也邪修!Qwen3改Bug测试直接搜GitHub,太拟人了

坏了,被AI学到真东西了(Ctrl V大法)

大模型自信心崩塌!谷歌DeepMind证实:反对意见让GPT-4o轻易放弃正确答案

GPT-4o、Gemma 3等大语言模型有“固执己见”和“被质疑就动摇”并存的冲突行为

基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传

当模型被明确要求生成特定长度的文本时,大多数模型表现糟糕

梦晨 2025-05-29

AI越聪明越不听话!新研究:最强推理模型指令遵循率仅50%

大模型越擅长复杂推理,越容易忽视用户的指令要求