AI 智能体工程报告概览：大型企业在生产部署上领先，但质量仍是关键瓶颈-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://www.kdnuggets.com/the-state-of-agent-engineering-report-overview

原文作者：Iván Palomares Carrascosa

AI 智能体工程报告概览

本文旨在以更易懂的方式解读当前AI智能体工程的现状，解析其中的术语，并寻求支持性证据。

LangChain，作为当今构建和编排基于大型语言模型（LLMs）和智能体工程的人工智能（AI）应用程序的领先框架之一，最近发布了《AI智能体工程现状报告》。该报告对1,300名来自不同角色和业务背景的专业人士进行了调查，以揭示这一值得关注的AI趋势的现状。

本文精选了报告中的一些重点内容和见解，并以更广泛受众易于理解的语调进行阐述，揭示一些与AI智能体相关的关键术语和行话。您也可以在这篇相关文章中找到更多关于AI智能体的关键概念。

在深入探讨我们精选的三大见解的事实、数据和支持性证据之前，我们先提供一些关键术语和定义，并进行简洁的解释：

关键概念：

智能体（Agent）：一种AI系统，与标准的聊天应用程序不同，后者被动地响应用户交互，而智能体能够自主做出决策并采取行动。在当今最广泛使用的场景中，智能体使用LLM作为其“大脑”，为其决策提供动力，例如查询数据库、发送电子邮件或执行网络搜索，以完成目标。
生产环境（Production environment）：虽然这是软件工程中的基本概念，但对于其他背景的读者来说可能听起来不熟悉。“在生产中”意味着一个软件系统已上线，并且真实的用户、客户或员工正在使用它来执行某些工作或操作。它基本上是在原型或概念验证（PoC）之后的一个阶段：一个在受控环境中运行的软件测试版本，以识别并修复可能存在的问题。

报告中的关键事实：

尽管普遍存在“官僚主义”的误解，认为大公司在新技术采用方面行动迟缓，但数据显示的情况有所不同：它们在AI智能体部署方面处于领先地位，拥有超过10,000名员工的组织中，有67%已将基于智能体的应用程序投入生产，而员工少于100人的小型组织中，这一比例仅为50%。
上述情况的原因可能包括构建可靠的智能体解决方案的成本，需要大量的基础设施投资。

关键概念：

可观察性（Observability）：AI模型，尤其是先进的模型，通常被视为具有不可预测结果的模糊“黑箱”。可观察性是指检查和记录AI“思考”过程以及它如何导致决策或结果的能力。
追踪（Tracing）：可观察性的一个特定方面，包括记录AI智能体一步步走过的路径——即其推理过程。
离线评估（Offline Evaluation）：这包括运行测试数据集，其中包含已知的“正确”答案，以衡量AI智能体（或其他AI系统）的性能准确性和有效性。

报告中的关键事实：

令人惊讶的是，所有背景的受访者中有89%实施了可观察性机制，但只有52.4%的受访者进行了离线评估，这揭示了团队监控AI智能体的方式与他们测试其性能的严谨程度之间存在显著差异。
这标志着一种“发布后监控”的心态，其中工程团队优先考虑在错误发生后进行调试，而不是在部署到生产环境之前进行预防。与其确保“机器人”在离开“工厂”前正常工作，不如修复“坏掉的机器人”，这可能会带来不期望的后果和成本。

在Giskard的《LLM可观察性与LLM评估》文章中可以找到类似的证据。

关键概念：

幻觉（Hallucinations）：当像LLM这样的AI模型自信地生成错误或无意义的信息，并将其当作事实时，就称之为幻觉。当AI智能体介入其中时，这是一个危险的问题，因为问题不仅在于说错话，还在于可能做错事——例如，基于不准确或错误检索到的事实预订航班。
延迟（Latency）：这指的是用户提出问题到智能体提供响应之间的速度或延迟，期间通常涉及“思考”或处理逻辑，可能包括使用工具。这增加了与独立LLM或聊天机器人相比的额外时间。

报告中的关键事实：

在德勤关于AI采用障碍的报告中可以找到类似的佐证证据，而在这篇Medium文章中可以进一步分析关于企业主要阻碍因素的细微差别。

Iván Palomares Carrascosa是一位在AI、机器学习、深度学习和LLM领域的领导者、作家、演讲者和顾问。他培训和指导他人如何在现实世界中利用AI。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。