目 录CONTENT

文章目录

重磅发布!DeepLearning.AI推出《Agentic AI》课程,同时关注Anthropic、OpenAI/Meta、阿里Qwen3新动态

青云TOP
2025-10-09 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.deeplearning.ai/the-batch/issue-322

原文作者:DeepLearning.AI


重磅发布:Andrew Ng 推出《Agentic AI》新课程

亲爱的朋友们,

我非常激动地宣布我的最新课程:《Agentic AI》!本课程将帮助您快速掌握构建前沿智能体工作流(Agentic Workflows)的技能。该课程现已在 DeepLearning.AI 上线,点击这里即可学习。唯一的先决条件是熟悉 Python,了解一些 LLM 知识会有帮助。

这个自定进度的课程以“厂商中立”的方式进行,使用原始的 Python 代码——而不是将细节隐藏在框架中。因此,您将学到核心概念,这些概念随后可以用于任何流行的 Agentic AI 框架,或者无需任何框架即可实现。

课程核心:四大关键智能体设计模式

具体来说,您将学习如何实现四种关键的智能体设计模式:

  • 反思(Reflection):智能体审查自身的输出并找出改进方法。
  • 工具使用(Tool use):由 LLM 驱动的应用程序决定调用哪些函数来执行网络搜索、访问日历、发送电子邮件、编写代码等操作。
  • 规划(Planning):您将使用 LLM 来决定如何将任务分解为子任务以供执行。
  • 多智能体协作(Multi-agent collaboration):构建多个专业智能体——就像公司雇佣多名员工一样——以完成复杂任务。

构建有效智能体的最佳实践

更重要的是,您还将学习构建有效智能体的最佳实践。

在与许多团队合作构建了大量智能体后,我发现能否有效构建智能体的最大预测因素在于是否懂得如何执行一个有纪律的评估(evals)和错误分析流程。不懂得这样做的团队可能会花费数月时间调整智能体,却收效甚微。我见过一些团队花费数月时间调整提示词、为智能体构建工具等,最终却遇到了无法突破的性能瓶颈。

四个场景展示了一个机器人在解决问题、使用工具、对照文件进行规划以及协作制造火箭。

但是,如果您了解如何在每一步中嵌入评估(evals)并监控智能体的行为(追踪 traces),您就能高效地锁定需要改进的组件。您将不再靠猜测来决定工作方向,而是让评估数据来指导您。

您还将学习如何将一个复杂的应用程序系统地分解为一系列任务,并使用这些设计模式来实现它们。当您理解了这个过程,您就能更好地发现构建智能体的机会。

本课程通过许多示例阐述了这些概念,例如代码生成、客户服务智能体和自动化营销工作流。我们还将构建一个深度研究智能体,它可以搜索信息、总结综合,并生成一份深思熟虑的报告。

完成本课程后,您将了解智能体的关键构建块以及组装和调整这些块的最佳实践。这将使您在当前构建智能体的绝大多数团队中处于领先地位。

加入我的这门课程,让我们一起构建一些令人惊叹的智能体吧!

继续构建,

Andrew


来自 DEEPLEARNING.AI 的信息

由 Andrew Ng 和 DeepLearning.AI 主办的 AI Dev 25 将在纽约市举行!11 月 14 日,与 1200 多名 AI 开发者一起参加为期一天的技术主题演讲、动手工作坊、现场演示以及全新的金融科技(Fintech)专场。在此处锁定您的门票!

新闻快讯

对比表格突出显示 Claude Sonnet 4.5

Claude 全面升级

Anthropic 更新了其尺寸适中的 Claude Sonnet 模型,使其成为 Claude 系列中首个达到 4.5 版本的成员。它还增强了 Claude Code(智能体编程工具),加入了期待已久的功能。

Claude Sonnet 4.5:性能飞跃

这个新模型提供了性能的显著提升以及推理令牌(reasoning tokens)的可变预算。

  • 输入/输出:文本和图像输入(取决于服务级别,最高可达 20 万到 100 万个令牌),文本输出(最高 64,000 个令牌)。
  • 可用性:通过 Claude.ai 免费使用;通过 Anthropic、Amazon Bedrock 和 Google Vertex API 访问,价格为每百万输入/输出令牌 $3/$15。
  • 特性:具备可变令牌预算的推理能力,“扩展处理时间”(根据文档为“数小时”),任务的串行(而非并行)完成。
  • 知识截止日期:2025 年 1 月。
  • 未公开:模型架构、训练数据和方法。

基准测试结果

在 Anthropic 的测试中,Claude Sonnet 4.5 在编码指标上表现突出,但在更广泛的评估中也表现良好:

  • 在拥有 32,000 个令牌的推理预算下,Claude Sonnet 4.5 目前在LM Arena 文本排行榜上名列前茅。不使用推理时,排名第四。
  • 在 SWE-bench Verified 编码挑战中,Claude Sonnet 4.5(82%)刷新了最先进水平,超越了之前的领导者 Claude Sonnet 4(80.2%)和 Claude Opus 4.1(79.4%)。
  • 在计算机使用基准测试OSWorld上,它取得了 61.4% 的成绩,远超其他模型在可用排行榜上的表现。
  • 当使用 Python 工具时,它在 AIME 2025 的数学问题上达到了 100%,尽管当两个模型都不使用工具时,GPT-5 占了主导地位。
  • 在 GPQA-Diamond 和 MMMLU 等视觉推理测试中,Sonnet 4.5 的总体表现优于更大的 Claude Opus 4.1,但逊于 Google Gemini Pro 4.5 和 OpenAI GPT-5。

Claude Code 智能体编程工具的重大升级

Anthropic 的智能体编程工具进行了一次设计大改,增加了许多新功能。特别是,它提供了一个软件开发工具包(SDK)——基于支撑 Claude Code 的相同软件基础设施、工具包、编排逻辑和内存管理——用于构建其他智能体工具。

  • Claude Agent SDK:新的软件开发工具包将 Claude 模型与用于网络搜索、文件管理、代码部署和其他自主功能的软件工具配对。它提供了 Claude Code 所有功能所需的构建块,以便您可以构建自己的智能体应用程序。
  • 上下文跟踪:智能体用例需要在输入超过模型的上下文限制时保持连续性。当模型的消息历史接近此限制时,Claude Code 会要求模型总结最关键的细节,并将摘要作为最新输入传递给模型。它还会删除不再需要的工具结果,为进一步的输入腾出空间。
  • 内存:一个新的 API “内存工具”使模型能够将项目状态等特别重要的信息存储和检索到输入之外。
  • 检查点:Claude Code 现在存储检查点,保存安全状态,以便在出错时可以回滚。它还增加了一个 IDE 扩展,可以在 VSCode 和类似应用程序中使用,以替代终端。

新闻背景:Anthropic 由前 OpenAI 员工创立,将自己定位为 OpenAI 的替代者:更安全、更人性化、更有品味。尽管它一直宣扬这些价值观,但重点已变得更简单:编码和工作场所生产力。虽然 ChatGPT 在消费者中可能与 AI 划等号,但 Anthropic 正专注于软件开发人员和企业。

重要性:Claude Sonnet 4.5 与增强的 Claude Code 的结合,体现了 Anthropic 对工作场所生产力的强调。这种关注点回应了商业世界的一些焦虑:AI 何时能为我的员工带来回报?它何时会改变他们的工作方式?目前来看,编码(通过 Claude Code 或竞争对手)是一个明确的答案。

我们的思考:Claude Agent SDK 是一个重要的发布,它将使许多开发人员能够构建强大的智能体应用。我们期待 Claude 衍生出爆炸性的新应用!


OpenAI 和 Meta 正在拓展 AI 产品线

OpenAI 和 Meta 过去满足于提供独立聊天机器人或将其整合到现有产品中,但现在推出了相互竞争的社交视频网络及其他旨在提升收入和用户参与度的举措。

最新动态

OpenAI 的Sora 2 是一款类似 TikTok 的应用,允许用户分享 10 秒的短片;而 Meta 的Vibes 则允许 Facebook 用户生成新视频或混剪现有视频。此外,OpenAI 还推出了ChatGPT Pulse,它根据最近的聊天记录和来自日历等连接应用的数据创建个性化简报;以及即时结账(Instant Checkout),允许 ChatGPT 用户在聊天过程中购物。

工作原理

这些新举措利用了现有的 AI 能力来提高参与度和增加收入。

  • Sora 2:OpenAI 的社交视频应用上周末登顶 iOS App Store 榜首,允许用户生成有限数量的 10 秒、640x480 像素的短片;而 ChatGPT Pro(每月 200 美元)的订阅用户可以无限制地制作 20 秒、1920x1080 像素的短片。用户可以生成自己的形象并允许他人生成(就像 OpenAI CEO Sam Altman 所做的那样,启发了他的观众生成他去 Target 商店偷显卡的片段等恶作剧)。在权利人提出投诉后,该公司收紧了对动漫和其他角色的使用限制,Altman 在博客文章中写道
  • Vibes:Meta 的社交视频流出现在其 Meta AI 应用的免费标签页下,或在 Vibes网站上。用户不能将自己置于场景中,但可以根据上传的图片生成片段,或混剪其信息流中的现有视频,同时添加音乐和改变视觉风格。生成的视频可以发布到 Instagram 和 Facebook。
  • ChatGPT Pulse:Pulse 是一种新型的个性化新闻与生产力服务。它会跟踪用户的聊天记录、电子邮件和日历条目,创建信息卡片,旨在预测用户的关注点并提供相关新闻、提醒、建议和提示。该服务目前仅限于 ChatGPT Pro 订阅者,但 OpenAI 表示最终将以某种形式对所有用户免费开放。
  • 即时结账(Instant Checkout):要求产品推荐的 ChatGPT 用户可以在不离开聊天机器人界面的情况下,从 Etsy 和 Shopify 购买推荐的商品。OpenAI 从销售中赚取费用,这是一种类似于联盟链接的结构,能为 Wirecutter 等产品推荐服务带来收入;该公司表示其佣金不会影响 ChatGPT 的推荐。在 ChatGPT 中进行的购买通过 Agentic Commerce Protocol 处理,这是 OpenAI 与支付处理商 Stripe 的合作,类似于谷歌的代理支付协议(Agent Payments Protocol)

新闻背景:OpenAI 迄今为止的收入主要依赖于聊天机器人订阅,约占总收入的 80%。然而,在 ChatGPT 7 亿周活跃用户中,只有极少数是订阅者。设置速率限制等策略会促使一些人注册,但个性化生产力、购物佣金和广告为从其余用户中盈利提供了途径。

重要性:基于生成式 AI 的产品已经确立了地位,但仍处于初级阶段,仍有无限种 AI 驱动的消费产品和服务有待发明。OpenAI 的 ChatGPT Pulse 是一个真正的新颖想法,它利用智能体能力在任何领域提供及时、个性化的信息和观点。OpenAI 和 Facebook 都在试验社交视频,为用户提供娱乐朋友和表达自我的新方式。当然,随着人们越来越多地将聊天机器人用于购买建议,将大型语言模型与数字商务相结合可能会变得很自然。

我们的思考:此类 AI 驱动产品的财务成功必将对未来 AI 研究和发展的方向产生深远影响。


条形图比较 Qwen3 模型在各种任务上的性能,突出了 Qwen3-Max。

Qwen3 大模型(和更小的模型)齐发力

阿里巴巴推出了 Qwen3 系列中迄今为止最大的大型语言模型,以及能处理文本、图像、视频和/或音频的更小模型。

最新发布

闭源的Qwen3-Max 使阿里巴巴获得了在最大型 LLM 中的一席之地。Qwen3-VL-235B-A22B 是一个开源模型,它在文本、图像和视频处理方面处于其尺寸级别中的佼佼者,甚至超越了同类产品。Qwen3-Omni 也是开源的,增加了音频处理能力,并取得了出色的成果。

Qwen3-Max 详情

Qwen3-Max 包含 1 万亿个参数,在 36 万亿个 Token 上进行训练。它提供基础版和指令微调版,推理版即将推出。与阿里巴巴的其他 Max 模型一样(但与 Qwen 系列的大多数模型不同),其权重不公开。

  • 输入/输出:文本输入(最高 262,000 个令牌),文本输出(最高 65,536 个令牌)。
  • 架构与训练:1 万亿参数的混合专家(Mixture-of-Experts)解码器,具体的训练数据和方法未公开。
  • 性能:在阿里巴巴的测试中,Qwen3-Max 的总体表现略逊于 Google Gemini 2.5 Pro 和 OpenAI GPT-5,但优于 Anthropic、DeepSeek 和 xAI 的大型模型。在 Artificial Analysis 的智能指数上,它的得分略低于较小的 Qwen3-235B-A22B。
  • 可用性:通过新加坡阿里云访问,价格为每百万输入/输出 Token $1.20/$6.00;通过北京阿里云访问,价格为每百万输入/输出 Token $0.861/$3.441。

Qwen3-VL-235B-A22B:多模态新星

Qwen3-VL-235B-A22B 是 Qwen3-235B-A22B 的视觉语言变体,旨在驱动需要理解图像和视频的智能体交互。它提供基础版、指令微调版和推理版。

  • 输入/输出:文本、图像、视频输入(最高 262,000 个令牌,可扩展至 100 万个令牌),文本输出(最高 81,920 个令牌)。
  • 架构与训练:混合专家解码器(总共 2350 亿参数,每个 Token 激活 220 亿),视觉编码器,具体的训练数据和方法未公开。
  • 性能:在阿里巴巴的测试中,Qwen3-VL-235B-A22B 优于其他开源模型,并在许多图像和视频基准测试中,无论是否有推理能力,都与最佳可用模型相匹敌。它在数学视觉(MathVision)、设计到代码(Design2Code)以及多项文本识别测试中,为开放和闭源模型设定了新的 SOTA 记录。在智能体能力(ScreenSpot Pro, OSWorldG, Android World)、文档理解(MMLongBench-Doc, DocVQATest)和 2D/3D 空间意识(CountBench)测试中,它超越了 Gemini 2.5 Pro 和 OpenAI GPT-5。在 MMMU-Pro 的科学、技术和数学部分、SimpleVQA 的视觉推理谜题以及 VideoMMMU 的视频理解挑战中,其表现仅次于 Gemini Pro 2.5。
  • 可用性:根据 Apache 2.0 许可,可商用和非商用免费;通过阿里云访问,价格为每百万输入/输出 Token $0.70/$2.80。

Qwen3-Omni-30B-A3B:全能型音频模型

Qwen3-Omni-30B-A3B 在文本、图像、视频和音频上进行预训练,因此可以直接在它们之间进行翻译。它提供指令微调版和推理版,以及一个专门的音频/视频字幕模型。

  • 输入/输出:文本、图像、视频或音频输入(最高 65,536 个令牌),文本或语音输出(最高 16,384 个令牌)。
  • 架构与训练:混合专家转换器(总共 300 亿参数,每个 Token 激活 30 亿),用于多模态和语音处理的专用专家,具体的训练数据和方法未公开。
  • 性能:Qwen3-Omni 是性能最佳的开源语音模型,在许多测试中超越了 GPT-4o。在 36 项音频和音视频基准测试中,Qwen3-Omni-30B-A3B 在 22 项上取得了 SOTA 结果。在混合媒体理解和语音输出测试中,其结果与 Gemini 2.5 Pro、ByteDance Seed-ASR 和 OpenAI GPT-4o Transcribe 相比具有竞争力。
  • 可用性:根据 Apache 2.0 许可,可商用和非商用免费;通过阿里云访问,价格分别为每百万文本输入/输出 Token $0.52/$1.99,每百万图像/视频输入/文本输出 Token $0.94/$3.67,每百万音频输入/输出 Token $4.57/$18.13。

新闻背景:阿里巴巴最近发布了Qwen3-Next,它通过交替使用注意力层和 Gated DeltaNet 层来加速性能。新模型不使用这种架构,但这仍然是 Qwen 系列未来模型的潜在发展方向。

重要性:虽然 Qwen3-Max 在性能上仍落后于竞争对手,但新发布的开源多模态模型为开发人员带来了机会。Qwen3-VL-235B-A22B 提供了低成本、多功能性和可定制性,而 Qwen3-Omni-30B-A3B 为语音应用提供了受欢迎的选择。阿里巴巴一直是积极且多变的实验者,并将开源发布放在首位,其新发布涵盖了广泛的需求。

我们的思考:我们乐于看到开源模型取得世界领先的成果!凭借其在多媒体理解、推理和工具使用方面的实力,Qwen3-VL 和 Qwen3-Omni 使所有开发人员都能触及广泛的智能体应用。


Text-to-LoRA:直接生成 LoRA 适配器

LoRA 方法通过训练一个小的适配器来修改预训练模型的权重,从而简化了微调过程。研究人员构建了一个可以直接生成此类适配器的模型。

最新研究

来自东京初创公司 Sakana AI 的 Rujikorn Charakorn 及其同事引入了Text-to-LoRA,这是一个模型,它根据对被独立大型语言模型执行的任务的自然语言描述来生成特定任务的 LoRA 适配器。

关键见解

通常,LoRA 适配器是针对特定任务单独训练的。然而,模型可以学习根据任务描述,为它在训练中可能没有遇到的任务生成合适的适配器。

工作原理

作者训练了一个标准的神经网络,使其能够根据描述任务的文本来生成 Mistral-7B-Instruct 的特定任务 LoRA 适配器。

  • 作者使用 479 个任务(例如回答物理问题和解决数学应用题)来训练该网络。每个任务包含 128 个示例输入-输出对以及描述,例如解决数学应用题的描述:“此任务通过数学推理挑战您的解决问题能力。您必须仔细阅读每种情况,系统地处理数据以计算最终结果。”
  • 他们通过将任务描述输入到预训练的嵌入模型gte-large-en-v1.5中,生成了任务描述的嵌入。
  • 给定任务描述的嵌入和指定要适配的 Mistral-7B-Instruct 层数的嵌入,Text-to-LoRA 学会了生成 LoRA 适配器。具体来说,它学会了最小化 LoRA 适配后的 Mistral-7B-Instruct 的输出与真实输出之间的差异。

结果

作者在 10 个推理基准测试(如BoolQHellaswagWinoGrande)上评估了使用 Text-to-LoRA 的 Mistral-7B-Instruct。他们将结果与以下情况下的 Mistral-7B-Instruct 进行了比较:(i)使用传统特定任务适配器;(ii)使用同时在所有 479 个训练任务上训练的单个适配器;(iii)未适配,但提示词前缀是任务描述;(iv)未适配,但使用纯提示词。

  • 在所有基准测试中,使用 Text-to-LoRA 的 Mistral-7B-Instruct 实现了 67.7% 的平均准确率。使用多任务适配器的 LLM 实现了 66.3%。未适配但提示词前缀是任务描述的 LLM 实现了 60.6% 的平均准确率,而纯提示词的准确率为 55.8%。
  • 将他们的工作与传统 LoRA 适配器进行比较(排除了 GSM8K 和 HumanEval 这 8 项任务),使用传统适配器的 Mistral-7B-Instruct 表现最佳(75.8%)。使用 Text-to-LoRA 的 LLM 实现了 73.9... [内容被截断]



🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型:https://api.qingyuntop.top/pricing

详细的调用教程及文档:https://api.qingyuntop.top/about

0

评论区