FM Agent登顶OpenAI MLE-Bench,由百度智能云研发
超越微软R&D Agent和OpenAI展示的AIDE系统
近日,百度智能云研发的FM Agent登顶OpenAI机器学习工程权威基准MLE-Bench,拿下SOTA成绩,超越微软R&D Agent和OpenAI展示的AIDE系统。

据了解,MLE-Bench由OpenAI主导,是目前评估AI Agent“实战”能力的核心榜单。该基准含金量极高,其测试集包含了75个真实的Kaggle竞赛项目——这些项目均为往年全球顶尖数据科学家团队参与解决的真实工程难题,测试AI在模型训练、数据准备、实验运行等机器学习工程中的能力。
公开信息显示,百度FM Agent在“中等”和“高难度”任务上的表现显著领先,显示出强大的攻坚能力。同时,该Agent框架具备自主优化能力,通过构建具备自驱演化的智能系统,系统性分析问题、并自主优化解决方案。
近期百度在AI领域动作频频,最新开源的文心4.5衍生模型PaddleOCR-VL模型以0.9B参数量,在全球权威榜单OmniDocBench v1.0+v1.5双榜夺得综合性能第一、四项子任务全线SOTA成绩。另据市场消息,百度年度最重要的科技大会“百度世界2025”已定档11月13日。
版权所有,未经授权不得以任何形式转载及使用,违者必究。
- ChatGPT和Claude争了个寂寞!用户重叠仅11%,中国应用霸榜移动端2026-03-11
- OpenAI为龙虾紧急收购了一家23人公司2026-03-10
- 龙虾最佳适配模型,OpenClaw之父给出了推荐2026-03-09
- 杀进全球榜TOP2!国产视频模型黑马刚刚出现了2026-02-27



