📢 转载信息
原文链接:https://www.kdnuggets.com/the-state-of-agent-engineering-report-overview
原文作者:Iván Palomares Carrascosa
AI 智能体工程报告概览
本文旨在以更易懂的方式解读当前AI智能体工程的现状,解析其中的术语,并寻求支持性证据。
引言
LangChain,作为当今构建和编排基于大型语言模型(LLMs)和智能体工程的人工智能(AI)应用程序的领先框架之一,最近发布了《AI智能体工程现状报告》。该报告对1,300名来自不同角色和业务背景的专业人士进行了调查,以揭示这一值得关注的AI趋势的现状。
本文精选了报告中的一些重点内容和见解,并以更广泛受众易于理解的语调进行阐述,揭示一些与AI智能体相关的关键术语和行话。您也可以在这篇相关文章中找到更多关于AI智能体的关键概念。
在深入探讨我们精选的三大见解的事实、数据和支持性证据之前,我们先提供一些关键术语和定义,并进行简洁的解释:
大型企业在生产部署上领先于初创公司
关键概念:
- 智能体(Agent):一种AI系统,与标准的聊天应用程序不同,后者被动地响应用户交互,而智能体能够自主做出决策并采取行动。在当今最广泛使用的场景中,智能体使用LLM作为其“大脑”,为其决策提供动力,例如查询数据库、发送电子邮件或执行网络搜索,以完成目标。
- 生产环境(Production environment):虽然这是软件工程中的基本概念,但对于其他背景的读者来说可能听起来不熟悉。“在生产中”意味着一个软件系统已上线,并且真实的用户、客户或员工正在使用它来执行某些工作或操作。它基本上是在原型或概念验证(PoC)之后的一个阶段:一个在受控环境中运行的软件测试版本,以识别并修复可能存在的问题。
报告中的关键事实:
- 尽管普遍存在“官僚主义”的误解,认为大公司在新技术采用方面行动迟缓,但数据显示的情况有所不同:它们在AI智能体部署方面处于领先地位,拥有超过10,000名员工的组织中,有67%已将基于智能体的应用程序投入生产,而员工少于100人的小型组织中,这一比例仅为50%。
- 上述情况的原因可能包括构建可靠的智能体解决方案的成本,需要大量的基础设施投资。
在德勤(Deloitte)2026年企业AI现状报告和麦肯锡(McKinsey)2025年AI现状报告中也能找到类似的证据。
可观察性与评估之间的差距
关键概念:
- 可观察性(Observability):AI模型,尤其是先进的模型,通常被视为具有不可预测结果的模糊“黑箱”。可观察性是指检查和记录AI“思考”过程以及它如何导致决策或结果的能力。
- 追踪(Tracing):可观察性的一个特定方面,包括记录AI智能体一步步走过的路径——即其推理过程。
- 离线评估(Offline Evaluation):这包括运行测试数据集,其中包含已知的“正确”答案,以衡量AI智能体(或其他AI系统)的性能准确性和有效性。
报告中的关键事实:
- 令人惊讶的是,所有背景的受访者中有89%实施了可观察性机制,但只有52.4%的受访者进行了离线评估,这揭示了团队监控AI智能体的方式与他们测试其性能的严谨程度之间存在显著差异。
- 这标志着一种“发布后监控”的心态,其中工程团队优先考虑在错误发生后进行调试,而不是在部署到生产环境之前进行预防。与其确保“机器人”在离开“工厂”前正常工作,不如修复“坏掉的机器人”,这可能会带来不期望的后果和成本。
在Giskard的《LLM可观察性与LLM评估》文章中可以找到类似的证据。
成本不再是主要瓶颈:质量才是
关键概念:
- 幻觉(Hallucinations):当像LLM这样的AI模型自信地生成错误或无意义的信息,并将其当作事实时,就称之为幻觉。当AI智能体介入其中时,这是一个危险的问题,因为问题不仅在于说错话,还在于可能做错事——例如,基于不准确或错误检索到的事实预订航班。
- 延迟(Latency):这指的是用户提出问题到智能体提供响应之间的速度或延迟,期间通常涉及“思考”或处理逻辑,可能包括使用工具。这增加了与独立LLM或聊天机器人相比的额外时间。
报告中的关键事实:
- 据受访者称,部署AI智能体的成本不再是关键问题,32%的受访者认为质量是他们采用和部署的首要障碍。
- 这里的质量指的是准确性、一致性以及避免幻觉。
- 同时,有一个有趣的细节:第二个最关键的障碍取决于公司规模,小型初创公司提及延迟,而拥有2,000多名员工的企业则指出安全和合规性。
在德勤关于AI采用障碍的报告中可以找到类似的佐证证据,而在这篇Medium文章中可以进一步分析关于企业主要阻碍因素的细微差别。
Iván Palomares Carrascosa是一位在AI、机器学习、深度学习和LLM领域的领导者、作家、演讲者和顾问。他培训和指导他人如何在现实世界中利用AI。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区