📢 转载信息
原文链接:https://www.deeplearning.ai/the-batch/issue-322
原文作者:DeepLearning.AI
亲爱的朋友们,
我非常激动地宣布我的最新课程:Agentic AI(智能体AI)!本课程将带你快速掌握构建前沿智能体工作流的技能。该课程现已在 DeepLearning.AI 上线,你可以在此处(这里)报名。唯一的先决条件是熟悉 Python,了解一些关于 LLM 的知识会更有帮助。
这是一个自定进度的课程,采用供应商中立的方式,使用原生 Python 进行教学——不会将细节隐藏在某个框架中。因此,你将学到的核心概念可以应用于任何流行的智能体AI框架,或者完全不使用框架。
课程核心:四大关键智能体设计模式
具体来说,你将学习如何实现四种关键的智能体设计模式:
- 反思(Reflection):智能体审视自己的输出并找出改进方法。
- 工具使用(Tool Use):由 LLM 驱动的应用程序决定调用哪些函数来执行网络搜索、访问日历、发送邮件、编写代码等。
- 规划(Planning):使用 LLM 将一个任务分解为子任务以供执行。
- 多智能体协作(Multi-agent collaboration):构建多个专业智能体——就像公司雇佣多名员工一样——来完成复杂任务。
高效构建智能体的最佳实践
更重要的是,你还将学习构建高效智能体的最佳实践。
在我与许多团队合作构建众多智能体的经验中,我发现,能否有效构建智能体的最大预测指标在于:是否懂得如何遵循一个严格的评估(evals)和错误分析流程。不了解这一点的团队可能会花费数月时间调整智能体,却收效甚微。我见过一些团队花费数月时间调整提示词、为智能体构建工具等,最终却遇到了无法突破的性能瓶颈。

但如果你明白如何在每一步中嵌入评估(evals)以及如何监控智能体的操作(traces),你就能高效地聚焦于需要改进的组件。你将让评估数据引导你前进,而不是凭感觉猜测该做什么。
你还将学习如何将一个复杂的应用程序系统地分解为一系列使用这些设计模式来实现的任务。当你理解了这个过程,你也能更好地发现构建智能体的机会。
本课程通过代码生成、客户服务智能体和自动化营销工作流等众多示例来说明这些概念。我们还将构建一个深入的研究智能体,它可以搜索信息、总结和综合,并生成一份深思熟虑的报告。
完成本课程后,你将理解智能体的关键构建模块,以及组装和调整这些模块的最佳实践。这将使你在目前构建智能体的绝大多数团队中处于领先地位。
请加入我的课程,让我们一起构建出色的智能体吧!
继续构建,
Andrew
来自 DEEPLEARNING.AI 的信息

由 Andrew Ng 和 DeepLearning.AI 主办的 AI Dev 25 即将在纽约市举行!11 月 14 日,与 1,200 多名 AI 开发者齐聚一堂,享受一整天的技术主题演讲、动手工作坊、现场演示以及全新的金融科技(Fintech)主题。
立即锁定您的门票!新闻快讯

Anthropic Claude 迭代升级
Anthropic 更新了其中尺寸的模型 Claude Sonnet 4.5,使其成为 Claude 系列中第一个达到 4.5 版本的模型。它还增强了 Claude Code 智能体编码工具,增加了许多期待已久的功能。
Claude Sonnet 4.5:新模型(详情)在性能上实现了实质性提升,并提供了可变的推理令牌预算。
- 输入/输出:文本和图像输入(根据服务等级不同,最高可达 20 万到 100 万个令牌),文本输出(最高 64,000 个令牌)。
- 可用性:通过 Claude.ai 免费使用;通过 Anthropic、Amazon Bedrock 和 Google Vertex API 访问,价格为每百万输入/输出令牌 3 美元/15 美元。
- 特性:具有可变令牌预算的推理能力,延长的处理时间(文档中描述为“数小时”),任务的串行(而非并行)完成。
- 知识截止日期:2025 年 1 月。
- 未公开:模型架构、训练数据和方法。
测试结果:在 Anthropic 的测试中,Claude Sonnet 4.5 的编码指标表现突出,但在更广泛的评估中也表现良好。
- 使用 32,000 个令牌的推理预算,Claude Sonnet 4.5 目前在 LM Arena 文本排行榜上名列前茅。如果不使用推理,它排名第四。
- 在 SWE-bench Verified 编码挑战中,Claude Sonnet 4.5(82%)刷新了最佳水平,超过了此前的领导者 Claude Sonnet 4(80.2%)和 Claude Opus 4.1(79.4%)。
- 在计算机使用基准测试 OSWorld 中,它达到了 61.4%,远超其他模型在可用排行榜上的表现。
- 当使用 Python 工具时,它在 AIME 2025 的数学问题上获得了 100% 的成绩,尽管当两个模型都不使用工具时,GPT-5 占了主导地位。
- 在 GPQA-Diamond 和 MMMLU 等视觉推理测试中,Sonnet 4.5 的表现通常优于更大的 Claude Opus 4.1,但略逊于 Google Gemini Pro 4.5 和 OpenAI GPT-5。
Claude Code:Anthropic 的智能体编码工具进行了设计大修,增加了许多新功能。值得注意的是,它附带了一个软件开发工具包(SDK)——基于支撑 Claude Code 的相同软件基础设施、工具包、编排逻辑和内存管理——用于构建其他智能体工具。
- Claude Agent SDK:新的软件开发工具包将 Claude 模型与用于网络搜索、文件管理、代码部署和其他自主功能的软件工具配对。它提供了 Claude Code 所有功能的基础构建块,以便你构建自己的智能体应用程序。
- 上下文跟踪:智能体用例即使在输入超出模型的输入上下文限制时也需要连续性。当模型的消息历史接近此限制时,Claude Code 会要求模型总结最关键的细节,并将摘要作为最新输入传递给模型。它还会删除不再需要的工具结果,为进一步输入腾出空间。
- 内存:一个新的 API “内存工具”使模型能够将项目状态等特别重要的信息存储和检索到输入之外。
- 检查点:Claude Code 现在存储检查点,保留安全状态,以便在出现错误时可以回滚。它还添加了一个 IDE 扩展,可以在 VSCode 和类似应用程序中使用,以替代终端。
幕后观察:Anthropic 由前 OpenAI 员工创立,将其定位为 OpenAI 的替代者:更安全、更人性化、更有品味。尽管它一直宣传这些价值观,但重点已经变得更简单:编码和工作场所的生产力。虽然 ChatGPT 对消费者来说可能就是 AI 的代名词,但 Anthropic 正专注于软件开发人员和企业。
重要意义:Claude Sonnet 4.5 与增强的 Claude Code 的结合反映了 Anthropic 对工作场所生产力的重视。这种关注呼应了商业世界的一些焦虑:AI 什么时候能为我的员工带来回报?它什么时候能改变他们的工作方式?目前来看,编码(通过 Claude Code 或竞争对手)是一个明显的答案。
我们的思考:Claude Agent SDK 是一项重大的发布,它将使许多开发人员能够构建强大的智能体应用。我们期待着 Claude 的强大后继者能够迎来爆炸式增长!

OpenAI 和 Meta 正在使 AI 产品线多元化
OpenAI 和 Meta 之前一直满足于提供独立的聊天机器人或将它们嵌入现有产品中,现在推出了相互竞争的社交视频网络和其他旨在提高收入和参与度的举措。
新动态:OpenAI 的 Sora 2 是一个类似 TikTok 的应用,允许用户分享 10 秒的片段;而 Meta 的 Vibes 则使用户能够生成新视频或混剪现有视频。此外,OpenAI 还推出了 ChatGPT Pulse,根据最近的聊天记录和连接应用(如日历)中的数据创建个性化摘要;以及 Instant Checkout,允许 ChatGPT 用户在聊天时直接购物。
工作原理:这些新举措利用了现有的 AI 能力来提升用户参与度和创造收入。
- Sora 2:OpenAI 的社交视频应用在上周末登顶 iOS App Store 榜首。它允许用户生成有限数量的 10 秒、640x480 像素的片段;而 ChatGPT Pro 订阅用户(每月 200 美元)可以无限制地生成 20 秒、1920x1080 像素的片段。用户可以生成自己的形象并允许他人生成(就像 OpenAI 首席执行官 Sam Altman 所做的那样,他启发观众生成了他去 Target 商店偷窃 GPU 等荒诞片段)。在版权所有者提出异议后,该公司收紧了对动漫和其他角色的使用限制,Altman 在一篇博文中写道。
- Vibes:Meta 的社交视频信息流出现在其 Meta AI 应用的免费标签下或 Vibes 网站上。用户不能将自己放入视频中,但可以根据上传的图片生成片段,或者混剪信息流中现有的视频,并添加音乐和更改视觉风格。生成的视频可以发布到 Instagram 和 Facebook。
- ChatGPT Pulse:Pulse 是一种新型的个性化新闻和生产力服务。它跟踪用户的聊天、电子邮件和日历条目,创建卡片,旨在预判用户的关注点,并提供相关新闻、提醒、建议和提示。该服务目前仅限于 ChatGPT Pro 订阅用户,但 OpenAI 表示最终将以某种形式对所有用户免费。
- Instant Checkout:要求产品推荐的 ChatGPT 用户无需离开聊天机器人界面即可从 Etsy 和 Shopify 购买推荐的商品。OpenAI 从销售中赚取佣金,这是一种类似于联盟链接的结构,为 Wirecutter 等产品推荐服务创造收入;该公司表示,其佣金不会影响 ChatGPT 的建议。在 ChatGPT 中的购买通过 Agentic Commerce Protocol 进行处理,这是 OpenAI 与支付处理商 Stripe 的合作,类似于谷歌的代理支付协议。
幕后观察:到目前为止,OpenAI 的收入主要依赖于聊天机器人订阅,这约占总收入的 80%。然而,在 ChatGPT 7 亿的周活跃用户中,只有极少数人订阅。像实施速率限制这样的策略会说服一部分用户注册,但个性化生产力服务、购物佣金和广告为如何从其余用户那里赚钱提供了途径。
重要意义:基于生成式 AI 的产品已经确立了地位,但仍处于起步阶段,仍有无数的 AI 驱动的消费产品和服务有待发明。OpenAI 的 ChatGPT Pulse 是一个真正的新颖想法,它利用智能体能力在任何领域提供及时、个性化的信息和观点。OpenAI 和 Facebook 都在试验社交视频,为用户提供了娱乐朋友和表达自我的新方式。当然,随着人们越来越多地转向聊天机器人寻求购买建议,将大型语言模型与数字商业相结合可能会变得很自然。
我们的思考:这类 AI 驱动产品的财务成功必将对未来 AI 研究和发展的方向产生深远影响。

通义千问 3 代(Qwen3)全面升级:既有“大”模型,也有“小”模型
阿里巴巴推出了其 Qwen3 系列的最新成员,包括其迄今为止最大的大型语言模型,以及用于处理文本、图像、视频和/或音频的小型模型。
新动态:闭源的 Qwen3-Max 使阿里巴巴在最大的大型语言模型中占据一席之地。Qwen3-VL-235B-A22B 是一个开源模型,其文本、图像和视频处理能力在其所属的尺寸级别中处于领先地位。Qwen3-Omni 也是开源的,加入了音频处理能力,并取得了出色的成果。
Qwen3-Max 拥有 1 万亿参数,在 36 万亿个 Token 上进行训练。它提供基础版和指令微调版,推理版即将推出。与阿里巴巴的其他 Max 模型一样(但与 Qwen 系列的大多数模型不同),其权重不对外开放。
- 输入/输出:文本输入(最高 262,000 个 Token),文本输出(最高 65,536 个 Token)。
- 架构与训练:1 万亿参数的混合专家(MoE)解码器,具体的训练数据和方法未公开。
- 性能:在阿里巴巴的测试中,Qwen3-Max 的总体性能略逊于 Google Gemini 2.5 Pro 和 OpenAI GPT-5,但优于 Anthropic、DeepSeek 和 xAI 的大型模型。在 Artificial Analysis 的智能指数上,其得分仅次于较小的 Qwen3-235B-A22B。
- 可用性:通过新加坡阿里云提供 API 访问,价格为每百万输入/输出 Token 1.20 美元/6.00 美元;通过北京阿里云提供 API 访问,价格为每百万输入/输出 Token 0.861 美元/3.441 美元。
Qwen3-VL-235B-A22B 是 Qwen3-235B-A22B 的一个视觉语言变体,专为需要理解图像和视频的智能体交互而设计。它提供基础版、指令微调版和推理版。
- 输入/输出:文本、图像、视频输入(最高 262,000 个 Token,可扩展至 100 万个 Token),文本输出(最高 81,920 个 Token)。
- 架构与训练:混合专家解码器(总共 2350 亿参数,每个 Token 活跃 220 亿),视觉编码器,具体的训练数据和方法未公开。
- 性能:在阿里巴巴的测试中,Qwen3-VL-235B-A22B 超过了其他开源模型,在许多图像和视频基准测试中,无论是否有推理能力,都与现有最佳模型相当。它在 MathVision(数学问题)、Design2Code(视觉编码测试)以及多项文本识别测试中创下了开源和闭源模型的最新纪录。在智能体能力测试(ScreenSpot Pro, OSWorldG, Android World)、文档理解(MMLongBench-Doc, DocVQATest)和 2D/3D 空间感知(CountBench)方面,它超越了 Gemini 2.5 Pro 和 OpenAI GPT-5。在 MMMU-Pro 的科学、技术和数学部分、SimpleVQA 中的视觉推理谜题以及 VideoMMMU 中的视频理解挑战方面,它的表现仅次于 Gemini Pro 2.5。
- 可用性:根据 Apache 2.0 许可,可免费用于商业和非商业用途;通过阿里云访问,价格为每百万输入/输出 Token 0.70 美元/2.80 美元。
Qwen3-Omni-30B-A3B 经过文本、图像、视频和音频的预训练,可以直接在它们之间进行翻译。它提供指令微调版和推理版,以及一个专门的音频/视频字幕模型。
- 输入/输出:文本、图像、视频或音频输入(最高 65,536 个 Token),文本或语音音频输出(最高 16,384 个 Token)。
- 架构与训练:混合专家(MoE)Transformer(总共 300 亿参数,每个 Token 活跃 30 亿),用于多模态和语音处理的专业专家,具体的训练数据和方法未公开。
- 性能:Qwen3-Omni 是性能最佳的开源语音模型,在许多测试中优于 GPT-4o。在 36 项音频和音视频基准测试中,Qwen3-Omni-30B-A3B 在 22 项上取得了最先进的结果。在混合媒体理解和语音输出测试中,其结果与 Gemini 2.5 Pro、ByteDance Seed-ASR 和 OpenAI GPT-4o Transcribe 相当。
- 可用性:根据 Apache 2.0 许可,可免费用于商业和非商业用途;通过阿里云访问,价格为每百万文本输入/输出 Token 0.52 美元/1.99 美元,每百万图像-视频输入/文本输出 Token 0.94 美元/3.67 美元,每百万音频输入/输出 Token 4.57 美元/18.13 美元。
幕后观察:阿里巴巴最近发布了Qwen3-Next,它通过交替使用注意力层和 Gated DeltaNet 层来加速性能。新模型没有使用这种架构,但它仍然是 Qwen 系列未来模型的一个潜在发展方向。
重要意义:虽然 Qwen3-Max 在性能上落后于竞争对手,但新发布的开源多模态模型为开发人员提供了机会。Qwen3-VL-235B-A22B 提供了低成本、多功能性和可定制性,而 Qwen3-Omni-30B-A3B 为语音应用提供了有益的选择。阿里巴巴一直是一个持续、多样的实验者,并将开源发布放在首位,其新发布的产品涵盖了广泛的需求。
我们的思考:我们很高兴看到开源模型取得世界领先的成果!凭借在多媒体理解、推理和工具使用方面的能力,Qwen3-VL 和 Qwen3-Omni 使得各种智能体应用触手可及……
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区