AI医疗基准测试

斯坦福临床医疗AI横评,DeepSeek把谷歌OpenAI都秒了

含35个基准测试的综合评估框架,覆盖22个子类别医疗任务