蚂蚁推出首个金融推理大模型，登顶权威金融测评，超越OpenAI o1、DeepSeek-R1

【摘要】蚂蚁数科发布首个金融推理大模型Agentar-Fin-R1，凭借创新架构、系统化金融任务体系和高效训练机制，登顶权威金融测评，超越OpenAI o1、DeepSeek-R1等同类产品，推动金融AI迈向“垂直专用”新时代。

引言

人工智能与金融行业的深度融合，正以前所未有的速度重塑着金融服务的边界与内核。2024年7月28日，蚂蚁数科在世界人工智能大会论坛上正式发布了其首个金融推理大模型Agentar-Fin-R1。这一里程碑式的发布，不仅刷新了金融大模型的行业标杆，更在FinEval1.0、FinanceIQ、Finova等权威金融大模型评测基准上实现了对OpenAI o1、DeepSeek-R1等同类产品的超越。本文将以技术论坛的深度视角，系统梳理Agentar-Fin-R1的技术创新、行业地位、生态共建、实际应用与未来挑战，全面展现金融AI从“水平通用”向“垂直专用”转型的时代图景。

一、发布背景与行业地位

1.1 金融AI的时代命题

1.1.1 行业变革的驱动力

金融行业历来是技术创新的前沿阵地。随着大数据、云计算、区块链等技术的逐步成熟，人工智能已成为金融数字化转型的核心引擎。尤其是大模型技术的突破，为金融机构在风控、信贷、财富管理、合规等核心业务环节带来了前所未有的智能化升级机遇。

1.1.2 通用大模型的局限

尽管OpenAI、DeepSeek等通用大模型在自然语言处理领域表现卓越，但在金融领域的专业推理、复杂场景理解、合规安全等方面，仍存在显著短板。金融行业对模型的专业性、可控性、数据安全和合规性提出了更高要求，亟需“垂直专用”大模型的突破。

1.2 Agentar-Fin-R1的诞生

1.2.1 发布节点与行业意义

2024年7月28日，蚂蚁数科在世界人工智能大会论坛上正式发布Agentar-Fin-R1。这一模型基于通义千问Qwen3研发，专为金融行业设计，聚焦“可靠、可控、可优化”三大核心能力。其在FinEval1.0、FinanceIQ、Finova等权威金融大模型评测基准上表现优异，超越了同尺寸的开源通用大模型及金融大模型（如DeepSeek-R1、OpenAI o1等），成为当前金融领域表现最优的大模型之一。

1.2.2 行业地位的确立

Agentar-Fin-R1的发布，标志着中国金融AI大模型在全球范围内首次实现对国际主流大模型的超越。这不仅是技术实力的体现，更是中国金融科技自主创新能力的集中展示，为全球金融AI生态注入了新的活力。

二、技术亮点与创新能力

2.1 多版本适配与高效架构

2.1.1 多版本参数设计

Agentar-Fin-R1提供32B和8B参数的推理版本，以及14B和72B的非推理版本，充分满足金融机构在不同业务场景下的多样化部署需求。无论是对高性能推理的需求，还是对大规模数据处理的需求，均可灵活适配。

2.1.2 MoE混合专家架构

基于百灵大模型的MoE（Mixture of Experts，混合专家）架构，Agentar-Fin-R1实现了推理速度与效率的双重提升。MoE架构通过动态路由机制，将不同任务分配给最擅长的专家子模型，大幅提升了模型的推理效率和资源利用率。

版本参数	适用场景	架构特点	性能优势
8B	轻量级部署	MoE/标准	高效推理，低算力
14B	通用业务	标准	兼顾性能与成本
32B	高复杂度推理	MoE/标准	专业推理能力强
72B	超大规模场景	标准	极致性能，深度定制

2.2 全面系统的金融任务体系

2.2.1 六大类、六十六小类任务体系

Agentar-Fin-R1构建了业内最全面的金融任务分类体系，涵盖6大类、66小类场景，覆盖银行、证券、保险、基金、信托等金融全场景。每一类任务均经过精细化拆解，确保模型能够精准理解和处理各类金融业务需求。

2.2.2 长思维链与数据合成

通过可信数据合成和专家标注的长思维链（Chain of Thought, CoT）机制，Agentar-Fin-R1打造了100K大规模金融专业训练集（Agentar-Deepfinance-100K）。这一训练集不仅涵盖了金融行业的主流业务场景，还针对复杂推理任务进行了深度优化，显著提升了模型对复杂金融任务的理解和推理能力。

2.2.3 任务体系与数据集的协同进化

模型的任务体系与数据集实现了协同进化。通过持续收集、标注和合成真实业务数据，模型能够不断适应金融行业的最新动态和业务变化，保持领先的专业能力。

2.3 高效训练与持续进化

2.3.1 加权训练与主动学习

Agentar-Fin-R1采用创新的加权训练算法和主动学习机制，能够自动识别模型薄弱项，动态调节数据合成和训练策略。在多任务均衡训练中，仅用不到一半的数据就实现了更优的模型能力，极大降低了微调阶段的数据和算力需求。

2.3.2 高频敏捷迭代机制

模型建立了高频敏捷的迭代机制，实时追踪金融动态，持续驱动模型进化。通过训练和评测的联动，以及高效生成的训练数据，Agentar-Fin-R1能够快速发现并修复模型的问题和缺陷，确保模型始终贴合金融业务的最新需求。

2.3.3 迁移效率与泛化能力

得益于高效的训练机制，Agentar-Fin-R1在多任务均衡训练中展现出极高的迁移效率和泛化能力。无论是新兴金融业务，还是传统金融场景，模型均能快速适应并输出高质量结果。

2.4 安全合规与可控性

2.4.1 数据治理与合规优化

针对金融行业对安全合规的高要求，Agentar-Fin-R1在数据治理、模型输出可控性等方面进行了深度优化。通过严格的数据脱敏、权限管理和合规审查，确保模型在实际业务中的稳定性和合规性。

2.4.2 模型输出可控性

模型在输出过程中，能够根据金融机构的合规要求，动态调整输出内容，防止敏感信息泄露和不当推理结果的产生。这一能力为金融机构在实际应用中提供了坚实的安全保障。

三、权威测评表现与行业影响

3.1 权威测评基准的全面领先

3.1.1 FinEval1.0、FinanceIQ、Finova三大权威测评

Agentar-Fin-R1在FinEval1.0、FinanceIQ、Finova等主流金融大模型评测基准中均取得最高分，显示出其在金融专业能力、推理能力和安全合规性等方面的领先地位。

测评基准	评测维度	Agentar-Fin-R1表现	行业排名
FinEval1.0	金融推理、合规	领先	1
FinanceIQ	专业知识、推理	领先	1
Finova	复杂推理、智能体	领先	1

3.1.2 超越同尺寸及更大参数模型

在Finova评测中，Agentar-Fin-R1不仅超越了同尺寸的开源通用模型，还优于更大参数规模的模型，达到金融领域SOTA（最优）水平。这一成绩充分证明了模型在专业性、效率和安全性上的综合优势。

3.2 行业影响与生态推动

3.2.1 金融AI行业新标杆

Agentar-Fin-R1的发布，树立了金融AI行业的新标杆。其在权威测评中的领先表现，为金融机构选择AI大模型提供了明确的技术参考，推动了行业的技术升级与创新发展。

3.2.2 推动行业标准化与生态共建

通过开源评测基准和数据集，Agentar-Fin-R1推动了金融大模型的行业标准化和生态共建。金融机构、科研院所、行业协会等多方参与，共同推动金融AI生态的繁荣与发展。

四、开源生态与行业共建

4.1 联合多方共建评测基准

4.1.1 Finova评测基准的发布

蚂蚁数科联合中国工商银行、宁波银行、北京前沿金融监管科技研究院、上海人工智能行业协会等机构，共同推出了Finova大模型金融应用评测基准。Finova评测基准覆盖意图识别、工具调用、复杂推理等金融智能体任务全环节，包含5000万道高复杂度金融问题库，源自真实业务数据与人工筛选。

4.1.2 评测基准的行业意义

Finova评测基准的发布，为金融AI模型的评估与选型提供了权威标准，推动了行业的标准化进程。通过开放评测，促进了模型能力的透明化和可比性，提升了行业整体的技术水平。

4.2 开源数据集与行业协作

4.2.1 Agentar-Deepfinance-100K数据集开源

蚂蚁数科全面开源了Agentar-Deepfinance-100K大规模金融领域训练数据集。该数据集涵盖了银行、证券、保险、基金、信托等多类金融业务场景，为行业提供了高质量的训练资源。

4.2.2 行业协作与生态共建

通过开源数据集和评测基准，蚂蚁数科推动了金融AI行业的协作与共建。金融机构、科研院所、技术企业等多方共同参与，形成了开放、协同、创新的金融AI生态体系。

五、实际应用成效与行业落地

5.1 典型应用案例

5.1.1 AI手机银行助力老年客户

Agentar-Fin-R1已在实际应用中展现出显著成效。例如，助力上海某银行打造“AI手机银行”，通过“对话即服务”模式，显著提升了老年客户满意度，月活用户同比增长25%。这一案例充分展示了模型在提升客户体验、拓展服务边界方面的巨大潜力。

5.1.2 金融机构的广泛覆盖

蚂蚁数科已服务于全部国有银行和股份制银行、超过60%的地方性商业银行及数百家金融机构，展现出广泛的行业覆盖和落地能力。Agentar-Fin-R1的实际应用，推动了金融机构的智能化转型和服务升级。

5.2 业务流程的深度融合

5.2.1 从浅层到深层的业务渗透

金融AI应用正从最初的客服、办公等浅层次场景，逐步深入到风控、财富管理、信贷审批等核心业务流程。Agentar-Fin-R1凭借其专业推理能力和高效训练机制，成为金融机构实现深度智能化的关键支撑。

5.2.2 业务流程智能化的价值

通过大模型的深度赋能，金融机构能够实现业务流程的自动化、智能化和个性化，提升运营效率、风险控制能力和客户服务水平，增强核心竞争力。

六、金融AI深度融合与未来挑战

6.1 “水平通用”向“垂直专用”的战略转型

6.1.1 产业价值释放的关键

AI智能体产业价值释放的关键，在于从“水平通用”向“垂直专用”的战略转变。Agentar-Fin-R1的推出，标志着金融大模型已从浅层次的客服、办公等应用，逐步深入到风控、财富管理、信贷审批等核心业务流程。

6.1.2 垂直专用模型的优势

垂直专用模型能够更好地适应行业特定需求，具备更高的专业性、可控性和安全性。通过深度融合行业知识和业务流程，模型能够为金融机构提供更具针对性的智能服务。

6.2 未来挑战与行业协作

6.2.1 模型稳定性与业务适配

在实际推广和应用过程中，如何确保模型在不同金融机构的业务环境中稳定运行，是金融AI面临的重要挑战。模型需要具备高度的适应性和可扩展性，能够灵活应对多样化的业务需求和环境变化。

6.2.2 数据安全与合规保护

金融行业对数据安全和合规保护有着极高要求。如何在提升模型性能的同时，确保数据的安全性和合规性，是AI企业与金融机构共同需要解决的问题。Agentar-Fin-R1通过数据治理、权限管理和合规审查，为行业树立了良好范例，但仍需持续优化和完善。

6.2.3 行业协作与生态共建

未来，金融AI的发展离不开行业各方的协作与共建。通过开放数据、共享资源、联合创新，金融AI生态将更加繁荣，为行业高质量发展提供坚实支撑。

结论

蚂蚁数科金融推理大模型Agentar-Fin-R1的发布，不仅刷新了金融大模型的行业标杆，也为金融机构的智能化转型提供了坚实的技术支撑。通过多版本适配、创新训练机制、全面任务体系、权威测评表现、开源生态共建及实际应用成效，Agentar-Fin-R1推动了金融AI从通用向垂直、从浅层向深层的转型。未来，随着技术持续迭代和行业协作深化，金融大模型将在提升金融机构核心竞争力、推动行业高质量发展中发挥更大作用。

📢💻 【省心锐评】

“蚂蚁以‘任务体系’锚定金融本质，开源评测集与数据推动行业标准化。垂直大模型需警惕场景碎片化，共建生态比单点技术突破更重要。”