度小满“轩辕70B”金融大模型开源!登顶两大权威测评榜单,所有用户均可下载
还有60GB高质量金融专用语料库
允中 发自 凹非寺
量子位 | 公众号 QbitAI
最新开源的金融行业大模型,来了!
度小满近日推出全新的金融行业大模型——“轩辕70B”,标志着金融大模型发展迈向了全新的高度。
“轩辕70B”拥有强大的通用能力,在各项开源模型评测中位居前列:
在中文任务评测C-Eval和CMMLU榜单中名列开源首位。
此外,“轩辕70B”的强项在于其专业的金融能力,受益于海量金融专业语料库的训练,无论是注册会计师考试(CPA)、银行/证券/保险/基金/期货从业资格、理财规划师、经济师等金融领域十大类权威考试,都能提供专业的支持和解答。
总结来看,“轩辕70B”拥有以下特点:
- 首个拥有70B参数量级,并且上下文长度能达到8k以上的开源大模型。
- 在预训练阶段融入了大量的专业金融语料,以实现在维持中英文通用能力的同时,显著提升金融专业性能。
- 模型训练采取了一系列的加速优化策略。在100台8卡A800(80G)的GPU集群中,“轩辕70B”在8192的上下文长度下能够达到340tokens/s/gpu的速度,TFLOPS达190,训练效率达到领先水平。
值得一提的是,这款模型目前已在开源社区进行了全面开放,包括模型权重和训练语料,为整个金融行业提供了一个全新的、更高效的中文基座模型,后续用户也可以根据自己的需求进行自定义的指令微调。
评测表现
下面我们来看一下“轩辕70B”的表现。
(一)卓越的通用能力,多个测评榜单领先
- C-Eval 是一个全面的中文基础模型评估基准。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别
- CMMLU 是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。
度小满数据智能应用部总经理、技术委员会执行主席杨青表示:
度小满将继续忠实于开源的理念,致力于为金融机构和研究团队提供高性能、易用的金融大模型。我们仍将不断优化轩辕70B的效果,并逐步推出‘轩辕70B-Chat’模型和‘轩辕70B-16k’的版本,以满足不同金融场景的需求。
人工进行主观测试,“轩辕70B”在各类问题都有良好的表现。
a. 数学计算:
b. 代码
c. 安全性:
(二)领先的金融实力
度小满专注于解决大模型在金融领域应用的核心难题。传统的通用大模型在金融场景中的局限性主要体现在对专业术语、业务逻辑和公式计算等的缺乏深入理解,从而使其在多数金融问题上表现不佳。这一挑战进一步凸显了构建针对金融行业的专用大模型的迫切性。
在金融应用场景中,模型的效用往往取决于其对于金融专业知识的深度掌握。金融行业涉及多个子领域,包括但不限于理财、信贷、保险、和投资。
为了全方位评估模型在这一特定环境中的性能,“轩辕70B”特地制定了一套中文金融领域知识评估数据集。
这一数据集涵盖了10个金融大类以及36个金融小类,包括7173个单项选择题,全面覆盖了从注册会计师(CPA)考试到银行、证券、保险、基金、期货从业资格,再到理财规划师、经济师等多个权威金融认证。
结果显示,“轩辕70B”在金融专业知识方面表现卓越,全面超越了各大开闭源模型,这一结果不仅验证了模型在金融各子领域的深度理解和应用能力,也标志着它能为金融行业提供一体化、系统性的专业支持。该评测数据集也已经对外开放,以供社区自行评测。
为更生动地展示“轩辕70B”的金融实力,以下举例几个应用实例:
a.金融知识类
该模型在回答金融知识类问题,如“金融监管治理的四大要素”时,不仅答案准确,还深入解析了每个要素的具体含义和重要性。
b.金融计算类
金融行业有大量的计算场景。在处理金融计算类问题时,该模型不仅提供了准确答案,还一步步展示了其逻辑推理过程,证明了其在复杂金融推理任务中的强大能力。
“轩辕70B”不仅开源了模型本身,还额外提供了一个60GB的高质量金融专用语料库,并已对外开放下载。
Github链接:
https://github.com/Duxiaoman-DI/XuanYuan
- 太火了!我在外滩大会玩Deepfake,想骗过机器人结果……2024-09-07
- 科学探索奖名单出炉:最年轻仅31岁,数学物理领域女性占半数2024-08-27
- 3分钟千人被裁,IBM中国大败退2024-08-27
- Midjourney地位不稳?AI绘图又一黑马出现,附4款产品一手实测2024-08-25