【摘要】“LangChain的年末总结来了,基于1000多位一线调研,给出Agent生产化现状与评测、观测、治理的工程重点。”
引言
《LangChain 年末总结》报告,样本来自 1000 多位一线从业者,覆盖了从探索、开发到生产部署的不同阶段。它的价值不在于概念包装,而在于把“真实在生产里被痛到的点”做了结构化汇总,让读者能用一套可对照的数据坐标,判断自己的团队处在行业曲线的哪个位置。
报告之所以有参考意义,还因为 LangChain 处在 LLM 应用工程化生态的中心位置。IBM 对 LangChain 的定义强调它作为开源编排框架,用于构建聊天机器人与虚拟代理等 LLM 应用,并能把模型与外部数据源、软件工作流进行集成,这类定位使它更容易沉淀工程侧方法论与实践样本 15。生态的活跃度也在增强,CSDN 对 Interrupt 2025 的回顾提到,LangChain 举办了面向 AI Agent 的行业盛会,吸引了来自多地的 800 多位参与者,进一步说明其社区与产业连接的密度在上升 3。
在这样的背景下,这份年末调研更像一张工程现实的“体检报告”。它把生产落地比例、典型应用场景、主要挑战、可观测性建设、评测手段与指标、模型来源与微调采用等关键问题放在同一套统计口径下,适合用来反推下一阶段的投入顺序与架构重点。
◆ 一、生产落地的速度与结构
%20拷贝-dlia.jpg)
1.1 从 2024 到 2025 的迁移
团队是否把 Agent 放进生产环境,是判断“热度”还是“能力”的分界线。第一张表给了一个很直白的答案。2025 年“已在生产环境使用”的占比继续上升,同时“积极开发准备上线”的占比下降,这种组合通常意味着一批项目完成了从试验到上线的迁移。
1.1.1 表 1 公司是否已有 Agent 在生产环境
从工程视角读这张表,有三个结论更关键。
第一,生产占比提升 6.1 个百分点,说明“上线”不再是少数团队的特权。第二,开发中占比下降 7.7 个百分点,这部分人群很可能有两种去向,一部分进入生产,一部分在质量、合规、成本上遇到阻力而停滞。第三,探索占比小幅上升,通常代表新进入者更多,或者组织内部开始出现第二波新团队尝试 Agent。
1.2 不同规模企业的落地差异
规模决定了约束条件。小公司更容易试错,大公司更擅长把事情做成体系。第二张表把这种差异摊开,企业规模越大,“已在生产环境使用”的比例越高,同时大企业“仅探索”的比例更低。
1.2.1 表 2 不同公司规模的生产落地情况
这张表不适合用“谁更先进”来解释,更适合用“约束结构”来解释。
中型市场与大型企业更容易把 Agent 推进生产,背后常见原因是流程与数据更成型,场景更稳定,预算更连续,治理团队更完整。初创与成长期公司“积极开发准备上线”的占比更高,往往不是因为不会上线,而是上线之后要承担的支持成本更敏感,质量与成本一旦失控就会反噬主营业务。
这里还有一个容易被忽略的细节。中大型企业(2K–10K)生产占比 53%,比 500–2K 低,这类组织经常处在治理与创新之间的拉扯期。业务复杂度上来了,平台化能力却未必同步完成,落地速度就会变得不稳定。
1.3 工程含义
落地比例上升意味着 Agent 的技术栈在发生重心迁移。PoC 阶段的主角是提示词与模型选择,生产阶段的主角变成了质量体系、观测体系、灰度体系、权限体系、成本体系。没有这些,团队上线越多,事故与返工越多,产能会被运维与排障吞掉。
把 Agent 做成产品,不是把模型接入业务,而是把不确定性接入工程体系。 这一点决定了后文几个主题的优先级。
◆ 二、需求侧的真实主场
2.1 最常见的应用场景分布
第三张表给出 Agent 需求侧的排序。客服与研究分析位居前二,这不是偶然。它们共同的特点是信息密集、任务路径可拆、对话入口自然,工具调用价值高。
2.1.1 表 3 Agent 主要应用场景分布
从结构上看,前三项占比接近七成。它们的共同点是对业务结果的定义相对清晰,适合先做“人机协作”,再逐步把闭环交给 Agent。
客服适合走“检索增强加流程分流”的路线,先把意图识别、知识查询、工单填充自动化,再把少量简单场景闭环。研究与数据分析适合走“工具调用加数据权限”的路线,模型负责提出计划、生成查询、汇总结论,人负责确认关键假设与风险。内部生产力适合走“组织知识库加审批流程”的路线,因为数据可控,权限边界更容易建立,合规压力也更低。
2.2 工程含义
需求侧排序会直接影响技术实现的权重。
客服更敏感的是延迟、稳定性、知识正确性、合规留痕。研究与数据分析更敏感的是数据访问权限、可复现性、工具链可靠性。内部生产力更敏感的是接入成本、组织知识结构、权限继承。代码与内容生成虽然占比不小,但更像局部能力的增强,很多团队会直接用成熟工具解决,而不是投入完整的 Agent 平台化建设。
因此,Agent 工程的第一优先级通常不是更强的推理,而是更可控的工具调用与更可度量的正确性。 这会把我们自然引向第四张表的挑战排序。
◆ 三、生产化的主要阻力来自哪里
%20拷贝-jcfd.jpg)
3.1 挑战项的排序
第四张表的排序很“工程化”。输出质量第一,延迟第二,安全合规第三,随后才是部署与成本。这个排序意味着大多数团队已经跨过“能调用模型”的门槛,进入“能稳定交付”的门槛。
3.1.1 表 4 构建与上线 Agent 的主要挑战
3.2 对“输出质量”的更细拆解
“输出质量”在 Agent 场景里不是单一概念,它至少包含四类问题。
一类是事实正确性,尤其在 RAG 与工具调用中,经常出现引用错误、摘要遗漏、跨文档冲突未处理。第二类是任务完成度,Agent 可能说得很好听,但没有把动作做完,例如漏掉关键参数、工具调用未闭环、状态未更新。第三类是策略一致性,同一类问题在不同对话轮次给出不同处理方式,导致用户信任崩塌。第四类是安全质量,输出中包含越权数据、敏感信息、不可执行指令,这类质量问题会被合规直接放大成事故。
当“质量”排到第一名,工程策略就要跟着变。提示词优化只能解决一部分,剩下更依赖可观测、评测、守护策略、工具契约与回归体系。
3.3 延迟为什么能排到第二
延迟不是体验问题那么简单,它通常意味着系统成本与系统结构。
客服场景里,用户对 2 秒与 8 秒的容忍度不同,超过阈值就会转人工,转人工就会把节省成本的逻辑反转。研究分析场景里,单次任务可能更长,但链路中每次工具调用都会叠加等待,导致整体完成时间失控。工程上常见的解法是做分层模型策略,常规轮次用低成本模型,高风险轮次用高能力模型,关键节点做并行工具调用与超时降级。
因此,延迟管理是架构问题,不是模型参数问题。 这也是可观测性成为硬需求的原因。
◆ 四、可观测性与治理能力开始分层
4.1 观测能力的普及度
第五张表显示,多数团队已经能追踪单个 Agent 的步骤与工具调用。这类能力一旦建立,排障模式会从“猜提示词”转为“查链路”,从“靠经验”转为“靠证据”。
4.1.1 表 5 Agent 可观测性建设情况
4.2 观测能力的工程价值
链路级追踪并不等同于把对话存起来。它通常意味着三种结构化数据被系统性采集。
第一类是推理与决策过程的结构化记录,至少包括模型版本、提示版本、路由策略、关键中间状态。第二类是工具调用记录,包括入参、出参、错误码、耗时、重试次数、幂等键。第三类是安全与权限记录,包括用户身份、权限范围、数据来源、输出过滤策略命中情况。
只有这些数据齐备,团队才有能力做三件事。第一是定位问题出在模型、提示、检索、工具还是权限。第二是把线上事故沉淀成离线用例,纳入回归。第三是把成本与性能做拆解,知道钱花在模型上还是花在工具链上。
4.3 建议的观测与回归闭环
为了把“观测”变成“治理”,一个更可复用的工程闭环是把链路追踪与评测体系联动。这里给一个常用的最小闭环结构,团队可以按规模扩展。

这张流程图的重点不在“画得完整”,而在于把几个高频问题放到同一条链路上处理。质量退化能够快速被评测发现,事故能够快速沉淀为回归用例,版本发布能够有灰度与指标护栏。团队能否把这条链路跑顺,往往决定了上线之后的迭代速度。
◆ 五、评测体系从加分项变成底座
%20拷贝-wxir.jpg)
生产化之后,团队最痛的往往不是“不会做”,而是“做了也不知道有没有变好”。输出质量排第一的背景下,评测体系自然会成为工程投入的中心。第六张与第七张表把评测的做法与指标选型拆开呈现,两张表合起来读,信息更完整。
5.1 评测方式的主流组合
离线评测与线上评测并行,是目前更常见的路径。离线适合做回归与对比,线上适合验证真实业务指标。仍有近三成团队没有评测,这往往会把质量问题拖到线上才暴露,修复成本更高。
5.1.1 表 6 Agent 评估方式分布 可多选
这类可多选题的占比相加会超过 100%,它反映的是手段覆盖率,而不是人群互斥分布。对架构师来说,更关键的是把离线与线上评测打通成闭环。
离线评测做得好的团队,会把线上真实对话与真实工具链失败案例,抽样脱敏后沉淀到回归集里。线上评测做得好的团队,会把关键指标做成发布护栏,版本灰度时先观察任务完成率、工具成功率、风险命中率,再逐步放量。
5.2 评测指标与方法的现实选择
第七张表显示,内部人工评审仍是第一选择,LLM-as-judge 紧随其后,传统 ROUGE 与 BLEU 这类指标的占比明显更低。这很符合 Agent 场景的本质。Agent 的问题往往不是“像不像标准答案”,而是“有没有把事办成,是否合规,是否可复现”。
5.2.1 表 7 Agent 评估指标与方法 可多选
人工评审的优势在于可信度与业务语境理解,它的短板是吞吐与一致性。LLM-as-judge 的优势在于规模化与自动化,它的短板是需要校准,否则容易把评测变成“模型自嗨”。更稳妥的做法,是把两者做成互补关系。人工评审负责定义规则与抽样验真,LLM-as-judge 负责覆盖全量回归与快速迭代。
5.3 建一个能跑起来的评测矩阵
很多团队评测失败,不是因为缺方法,而是因为指标定义不成体系。Agent 的评测至少要覆盖三层目标,任务结果、过程可靠性、风险与成本。下面这张表不是调研数据,而是工程上更容易落地的评测矩阵,用来把第六第七张表的选择落到执行层面。
这张矩阵的核心目的是让团队在上线之前就能回答三个问题。任务是否有效,链路是否可靠,风险与成本是否可控。 任何一个问题缺答案,生产化都会变得被动。
◆ 六、多模型并行与微调选择的工程逻辑
第八与第九张表把模型使用与微调现状放在一起,能看出行业的主流路线。多数团队采用多模型并行,同时微调仍是少数派。对工程负责人来说,这不是模型能力问题,而是投入产出问题与组织能力问题。
6.1 模型来源的分布体现多供应商策略
OpenAI 的覆盖率最高,但 Google、Anthropic 与开源模型都占有相当比例。可多选意味着很多团队同时用多个来源,按任务路由与按成本路由正在成为常见做法。
6.1.1 表 8 Agent 使用的模型来源 可多选
多模型并行在生产里通常对应三类诉求。
稳定性诉求,单一供应商不可用时要快速切换。成本诉求,低风险轮次用更便宜的模型,高风险轮次用更强的模型。合规诉求,敏感数据与特定地区的数据驻留要求,常常会推动开源自托管或私有化部署。
6.2 微调仍是少数派的原因
第九张表很直接。超过一半的团队没有微调,真正重度生产使用微调的占比更小。微调并非不重要,而是它的门槛更偏体系化。数据治理、标注体系、训练与部署流水线、版本回归,这些能力缺一块都会拖慢迭代。
6.2.1 表 9 模型微调使用情况
把微调看成“提质捷径”往往会踩坑。更现实的排序是先把 RAG、工具契约、评测与观测做起来,再决定微调是否值得。微调更适合解决风格一致性、结构化输出稳定性、特定领域表达习惯这类问题,对事实正确性与工具闭环的提升有限。
6.3 生产环境的模型路由建议
多模型并行不是把多个 API 放在配置里就结束了,它需要一个能解释、能回放、能审计的路由层。下图给出一个更接近生产实践的路由结构,重点在于把风险控制与成本控制纳入同一条链路。

这种结构的要点是让路由策略可迭代。评测与观测的数据回传到策略层之后,团队才能持续回答一个关键问题,当前路由在质量、成本、延迟之间的平衡是否仍然成立。
◆ 七、日常高频使用的 Agent 把重心推向开发者场景
%20拷贝-rmfp.jpg)
第十张表不是百分比,而是提及次数区间。它的价值在于告诉我们,哪类 Agent 更容易进入“每天都用”的习惯层。结果很集中,编程相关工具在榜单上占据明显优势。
7.1 日常使用最多的 Agent 提及次数
7.1.1 表 10 日常使用最多的 Agent 提及次数区间
7.2 对企业落地的含义
开发者工具的高频使用并不等同于企业业务价值最大,但它经常带来两个连锁反应。
其一,研发团队更早适应 Agent 的工作方式,形成对提示、工具调用、上下文管理的工程直觉,这会降低企业内部推广的沟通成本。其二,代码场景天然具备可验证性,编译、测试、静态检查都能作为反馈信号,它会反向推动评测体系成熟。很多团队把评测与可观测做起来,第一块“试验田”就是研发场景。
◆ 八、把十张表合成一张路线图
把十张表按生产化链路重排,会得到一条更清晰的工程路线图。它不依赖某个具体框架,也不依赖某家模型供应商,更像一套面向生产的通用方法。
8.1 路线图的核心结论
生产占比上升说明 Agent 已经进入主航道。场景上客服与研究分析占主导。挑战上质量与延迟最突出。观测能力在多数团队普及,但仍有一部分缺位。评测方法上离线与线上并行,人工与 LLM-as-judge 并行。模型策略上多模型并行很常见,微调仍偏少数。日常使用层面开发者工具最容易形成习惯。
这些点放在一起,会得到一个更硬的判断。Agent 工程的竞争点正在从模型能力转向系统能力。
8.2 生产化最小能力集
很多组织希望一步到位做平台化,结果会在需求不稳定时堆出过度工程。更稳的方式是先定义生产化的最小能力集,确保每一个能力都能直接对冲调研中出现的痛点。
这张表强调一个现实。很多问题表面是模型问题,实际是工程护栏缺失。护栏齐备后,模型能力的提升才能稳定转化为业务收益。
8.3 从组织协作角度看投入顺序
从调研结果推导投入顺序时,需要兼顾组织协作成本。更容易落地的顺序通常是先内部,再对外。更容易量化的顺序通常是先有规则反馈的场景,再去做开放式场景。
一个常见的推进路径是先从内部生产力或研发助手切入,完成观测与评测的底座建设,再迁移到客服与数据分析这类更靠近业务与合规的场景。这样做的好处是底座能力在低风险场景中跑通,面对高风险场景时不至于边开车边造刹车。
结论
这组数据把 Agent 产业的阶段性特征表达得很清楚。生产落地在升温,规模越大的组织越倾向于把 Agent 放进生产链路。需求侧集中在客服、研究分析与内部生产力这三类信息密集场景。生产化的主要阻力集中在输出质量与延迟,安全合规紧随其后。多数团队开始补齐可观测性,链路追踪正在成为主流配置。评测手段上,离线与线上并行,人工评审与 LLM-as-judge 并行,传统相似度指标的作用在弱化。模型策略上,多模型并行已很普遍,微调仍然属于少数团队的重投入方向。日常使用层面,开发者工具的高频渗透,正在推动评测与工作流工程能力的成熟。
接下来一年,Agent 的差异化不会主要出现在“谁的模型更强”,而会出现在“谁能把不确定性纳入工程闭环”。能够把观测、评测、工具契约、权限治理、成本控制与发布体系连成一条链的团队,才更可能把 Agent 从局部试验变成可持续的生产能力。
📢💻 【省心锐评】
Agent 进入生产后,胜负手是可观测与评测闭环,模型只是可替换部件。

评论