< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

金融AI武道大会开赛!四道业务真题,出题人:猜不到最优解

Taste,决定天花板。

Jay 发自 凹非寺

量子位 | 公众号 QbitAI

好久没看到这么神清气爽的AI比赛了。

名为AFAC2026金融智能创新大赛,总算不是单纯刷分的「乏味Benchmark」。四道赛题,全部从真实金融场景中生长出来:

  • 看盘面:识别机构交易行为与资金流向;
  • 啃文档:将复杂保险PDF还原为结构化Markdown;
  • 做实验:在稀疏反馈下完成自动化实验设计;
  • 读长文:控制Token成本,对金融长文本精准问答。

是的,专挑金融这个最「地狱级」的训练场。

很多人可能不知道,模型发展到今天,金融垂直任务依然没能被啃下来。

以保险文档还原Markdown为例,一旦碰到大图片、大文档场景,模型在相关Benchmark上的平均分甚至会掉到0.1以下,即便是GPT、Gemini这样的前沿多模态模型都够呛。

为何垂直场景落地如此困难?

归根结底,这是Agent层的工程问题。不是光靠参数Scaling就能吞掉的。

这正是AFAC2026大赛的核心宣言:全员回归基础研究,一起探索模型如何在真实约束下,交付产业价值。

说实话,这可能是今年金融AI领域,最值得关注的一场比赛。

2026金融AI武道大会

今年的挑战组共设置了四个分会场——

赛题一:市场参与者交易行为识别与资金流向分析

普通投资者面对盘面,最无力的地方在于:你永远不知道屏幕另一头那笔大单到底想干嘛。

股票突然拉升,大单涌现,盘口挂出巨量买单。你捕捉到K线异动,准备追入风口。

但对面的真实目的,可能只是骗你进来接盘……

股市里藏着人。

如何更好地识别交易行为,一直是市场最天然的刚需。

但难点也恰恰在此。在这片黑暗森林里,买卖双方都在想尽一切办法揣测对方的意图。

结果就是持续的对抗与升级:当某些资金行为被识别出来,真正使用这些手法的人就会反过来隐藏自己,甚至利用市场对这些信号的认知进行反向博弈。

蚂蚁集团财富保险事业群投研投顾技术负责人、AFAC大赛出题家纪韩看来,这正是这道赛题最有趣的地方:资金识别这件事,从来不只是数学题。

从交易角度看,挂单、撤单、拆单,本质上是你与对手盘之间的一种沟通。这里面夹杂着大量意图,包括误导和制造假象。

最强的选手,赢在对社会、商业乃至人性的理解。

如今大模型的出现,为这场游戏提供了又一把新武器。它能从高频数值数据中,发现人类尚未总结出的隐含模式。

谁能优先利用并封装好这项能力,谁就能在股市里赢得真金白银。

但光是调用模型还远远不够,选手必须依托harness框架来设计机制。

L2行情数据的数据量极其庞大,如果硬塞进模型,哪怕是支持1M上下文的窗口也会直接爆掉,导致注意力机制失效。

因此,参赛者需要提前写好规则或现成代码,或者让模型调用工具,先把数据处理到可观察、可理解、可判断的状态。

在harness的实现层面,隐含了非常复杂的工程要求。

场景之外,这个赛题的评测规则也挺有意思。

作为一个瞄准产业落地的比赛,这个赛题并没有强调「成本优化」

很反直觉,对吧?毕竟一提到落地,大部分人最关心的工程指标就是成本。

对此,出题家纪韩的解释是:

如果策略真的有效,其带来的潜在收益增强,可能让成本显得微不足道。

这是一场博弈。当你在纠结成本时,你的对手在倾尽全力调用最好的模型。

每个场景都有自己的价值函数,「成本」并非永恒的关键变量。

看盘这件事,你的首要目的,是赢过对手。

赛题二:复杂金融文档还原挑战

参赛选手需要设计并实现一个端到端的文档解析系统,将一张金融文档图片,完整、准确、有结构地转成Markdown。

注意这里有三个关键词:完整、准确、有结构。

金融文档不是普通的小作文。一份保险文档,通常包含多级标题、密集表格、脚注和批注,每项信息都必须100%准确。

不过,为什么要做这件事?

以保险表格为例,寿险产品需要非常精准地告诉张三,在某年某月能领到多少钱。

这个数字从哪来?表格查询。

经纪人拿到需求后,凭借直觉定位到第15XX页的某一张表、某一个单元格,查出张三45岁时能领多少钱。

但用户那么多,不可能每次有人问都让经纪人帮忙查第几页、第几个单元格。

机构当然希望能把这些文档结构化。但问题是,金融文档大部分是图片或PDF,普通OCR能把字认出来,却没有智能。

这就引出了阅读顺序的问题。

人能一眼判断阅读顺序,机器却可能先读右栏,再读左栏;文字都认对了,意思依然乱掉。

结构,其实是语义极其重要的一部分。

大模型能很好地解决这个问题,但也带来了新的约束——上下文

金融文档的超大图可能有几亿像素点,光输入就会撑爆窗口,何况输出还可能长达十几万字。你不能指望一个模型硬吞整张图。

因此需要一套端到端Agent工作流:先切分,再调用小模型分多次解析,最终拼回一份保真的Markdown。

很有意思,用蚂蚁集团财富保险事业群保险智能科技资深总监、AFAC大赛出题家续兴中的话说,拼接这套SOP的过程,有点像福尔摩斯办案

面对一个复杂系统,当需要提升效率或解决训练不稳定的问题时,必须从基础研究的角度去拆解和分析。

这要求研究员具备整体性思考能力,能精准分析、定位和归因,就像侦探破案一样。

值得一提的是,该赛题提供的模型底座是FinixDoc-VL,这是一个专门针对金融文档优化的多模态模型。

FinixDoc是由蚂蚁保算法团队研发的一套面向金融文档解析的端到端智能体式解析系统,核心模型FinixDoc-VL 基于4B级Qwen3-VL训练。

此外,团队构建了金融文档难例评测榜单FinixDocBench,并开源了部分子集,覆盖真实金融业务中的低质量、超长文档和密集表格等难点场景,在该榜单中FinixDoc-VL取得81.43的综合得分。

点击查看:

https://huggingface.co/datasets/inclusionAI/FinixDocBench

赛题三:稀疏反馈下的自动化实验挑战

这题比较与众不同,更像在金融里搞科研

参赛选手需要让Agent像研究员一样开展机器学习实验,完成金融场景下的图学习任务。

很多人以为AI比赛就是选个好模型,把数据丢进去训练。但真实情况更像做菜。

你调一次火候,尝一口;盐多了下次少放,肉老了下次缩短时间。但问题是,这里每尝一口都是成本,无论是食材还是时间。你的尝试次数有限,最后还必须端出一盘让客户满意的菜。

这就是「稀疏反馈下的自动化实验」。赛题要求以金融图学习为沙盒,让Agent在预算限制的硬约束下,尽可能优化任务表现。

读到这里,我最先联想到Vibe Coding圈的一个说法:模型越大,成本反而越低。

大概逻辑是,聪明的模型在执行过程中犯错更少,输出的Token也更少。结果就是,即便API单价更高,完成单项任务的总成本反而更低。

让我没想到的是,赛题三在这件事上的角度并不一样。

清华大学电子工程系副教授、AFAC大赛出题家姚权铭多年深耕AutoML,研究方向包括大模型基础理论与数据高效智能体学习。他表示,金融图学习并非大模型天然擅长的形态。其搜索空间往往缺乏连贯语义,通用模型的语言先验在这里帮不上太多忙。

现在是Scaling Law为王的时代。大家很容易有种错觉:AI似乎可以包容万物。

问题是,仅仅是「能用」,真的够吗?

大模型本质上给所有人施加了一个共同的加速度。但在竞争激烈的市场环境下,做同样的事情,如果对手消耗的Token只有你的1/10,那你的市场份额马上就会被吃干抹净。

优秀的方案未必来自更贵的API。如果有一个设计更精良的专业模型,或许3B参数就能搞定。

AGI可以为了「故事」随便烧钱,但垂直场景必须追求极致。

对员工来说,这件事则更加现实:

一个人招进来,有管理、状态、成本等问题。如果员工仅仅在AI能力覆盖的范畴内做事,很快会被取代。

相反,一个能解决AI极限之外问题的人,未来会有更长的发展空间。

赛题四:金融长文本Agent的动态记忆压缩与高效问答挑战

这道题可以和赛题二放在一起理解,两者都死磕「上下文」——赛题二考验输入,赛题四考验输出。

出题方会提供海量金融长文档,参赛选手需要让AI基于这些上下文精准答题。

难点有二:

1、结构极度复杂。

金融文件里充斥着大量交叉引用、表格、附录、批注。一个否定词、一个限定条件,或者附录里的一处计算口径,都可能让最终答案天差地别。

2、对「追溯性」要求极高。

金融任务出错的代价极其沉重。用户绝不能只接受一个「看起来合理」的答案,还必须知道答案来自哪一页、哪一条。

怎么做?

单纯切片检索,很容易丢失上下文关联;把全文硬塞给模型,幻觉又会大幅增加,极易把A产品的问题答成B产品的条款。

更现实的方案,是通过Agent工程进行上下文管理。赛题建议的SOP如下:

  • 文档预处理:PDF或文本先解析成可检索的结构,按章节、段落、表格切开。
  • 文档组织与索引:按领域构建关键词索引和结构化字段索引。
  • 题目解析:识别题型、关键词、实体、时间、金额、指标和候选文档。
  • 证据检索:不要把整本书都给模型,只取最相关的几段。
  • 推理作答:根据证据判断选项真假。
  • 答案校验:单选只能一个,多选要列全,判断题填A或B。
  • 结果汇总:生成符合提交格式的文件。

但说实话,我第一次看到这套SOP时是有些疑惑的。

最近我在用Codex搭配Obsidian做知识库管理,个人体感是:GPT+RAG基本已经可以做到没有幻觉。

所以,为什么不直接接入最前沿模型的API呢?

对此,复旦大学助理教授、博士生导师、AFAC出题家郭宏成——多年主攻LLM研究,曾就职于阿里通义千问实验室,他补充了一个我作为消费者,未曾考虑过的视角:

上下文成本控制这件事,在B端是另一个量级。

金融机构面对的不是一次性问答,而是海量文档。他们需要持续进行合规审查、投研分析、客服辅助和内部知识问答,这些材料动辄几百页。

如果每个请求都直接塞进大模型,单次看只是多消耗一些Token;但放到日级、月级乃至机构级的调用量上,账单将沦为天文数字。

这也是为什么赛题四将「Token消耗」纳入评测维度之一。

……

以上,便是此次AFAC大赛的四条赛道。

说实话,信息量有些爆炸。最开始我确实没想到,每一个评测指标的背后,都隐藏着对真实业务需求如此具体的思考。

问题本身的选取也极具品味,全都是没有标准答案的开放式问题,没有哪一道是光靠堆算力就能暴力破解的。

最好的创新,往往就诞生于这种混沌地带。

金融AI:自带护城河的黄金赛道

如此有含金量的赛题,究竟是怎么头脑风暴出来的?

答案其实很简单:这是蚂蚁亲自下场组的局

AFAC2026大赛的背后,站着一个兼具产业一线经验与学术前沿视野的赛题委员会。

这个组合极具张力。

蚂蚁集团副总裁、财富保险事业群CTO、大赛组委会主席尹俊指出:AI发展到今天非常火热,但真正落到行业,尤其落到金融行业,难度依然很大

首先,受限于合规、风险控制等要求和挑战,金融+AI的具体形态还有待摸索

其次,金融AI能创造的价值多少仍未被证明

投入后能否产生足够回报?长期来看上限能做到什么程度?这些都不像LLM叙事中那样,有AGI这个标准答案。

金融机构有经营压力,价值、合规和风险上的担忧,会影响行业快速拥抱AI。

学术机构不存在机会成本导致的「转型悖论」,却又很难深入介入真实金融场景,因为金融机构对保密性要求更高。

AFAC大赛的出现,恰好提供了一个尽可能贴近真实场景的「沙盒」,从而将产业和学界连接在一起。

而当「黑盒」里的Know-How被拆开,真实业务数据被公开,产学研便能围绕同一个靶心共同创新。

不过,大赛组委会主席尹俊也坦言,换个角度看,也许正是这些难点,才让垂直场景AI拥有了其独特魅力。

这是一个自带护城河的赛道。

没通用AI那么卷,不需要金字塔顶尖水平的AI履历要求,复合型人才能凭借自己对金融行业的Know-How,形成另一种竞争力。

蚂蚁支持这件事,已是第四年。

AFAC大赛自2023年首届举办以来,累计吸引超1.5万支队伍、近5万名选手,覆盖600余所高校与400余家企业。它由中国计算机学会、北京大学、蚂蚁集团、NVIDIA等近30家机构联合发起,现已成长为全国乃至全球顶尖的金融智能赛事之一。

「人人可参与」的Agent时代

而关于这一点,从赛题设计上,或许也能找到更多印证。

交易行为识别、金融文档还原……四道题方向各异,却指向同一条线索:

AI行业,终于到了「人人可参与」的时代。

预训练时期,Scaling Law对算力的要求近乎恐怖,小团队连巨头的脚趾都摸不到。

但今年的AFAC大赛,完全是另一副风景。

在与量子位的对话中,几乎每位出题家都坦言——无法预料最佳实践,也猜不到冠军会拿出怎样的方案。

这背后是同一种共识:「大力出奇迹」的暴力解法,在Agent时代走不通了。

你不可能把所有工程能力都训练进参数里。计算资源的消耗太恐怖,模型还不一定会更聪明。

相比LLM,Agent更像一个工程问题。它需要可复现的洞见,需要对业务约束持有尊重。而做好这件事的方法论,在各行各业都远未收敛。

一般而言,技术发展会经历四个阶段:孵化期、试错期、爆发期和评估期。

手机、通信、光电乃至量子计算,概莫能外。

不同阶段,行业的发展范式也会有不同特点。

性能快速爬升阶段,资源更重要。因为曲线已基本成型,接下来只需疯狂Scaling,比如AlphaGo。

那什么时候研究品味更重要?技术孵化期,这是需要重新定义问题的时候,也是最需要人才多样性的时候。

经历了深度学习、Transformer、GPT时刻的一路狂奔后,AI的产业周期,终于轮回到了Agent落地的孵化阶段。

在这里,竞争重新回归研究层。

Taste,决定天花板。

2026年最有看点的金融AI武道会,开赛了。

赛题一:https://tianchi.aliyun.com/competition/entrance/532489/information
赛题二:https://tianchi.aliyun.com/competition/entrance/532490/information
赛题三:https://tianchi.aliyun.com/competition/entrance/532487/information
赛题四:https://tianchi.aliyun.com/competition/entrance/532486/information

更多大赛详细信息,点击下方阅读原文~

 

版权所有,未经授权不得以任何形式转载及使用,违者必究。