首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
2597
篇文章
累计创建
886
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
SWE-Bench
相关的文章
2025-11-25
Anthropic 发布 Opus 4.5,新增 Chrome 和 Excel 集成
Anthropic 正式发布了其旗舰模型 Opus 4.5,该版本在 SWE-Bench 等多项基准测试中取得了最先进的性能,特别是首次在验证后的 SWE-Bench 上得分超过 80%。此外,Opus 4.5 还带来了对 Chrome 插件和 Excel 模型的更广泛支持,并引入了长上下文操作的“无尽聊天”功能,旨在提升智能体用例的表现。
2025-11-25
2
0
0
AI新闻/评测
AI工具应用
AI基础/开发
2025-11-20
OpenAI 发布最强编程模型 GPT-5.1-Codex-Max:AI 程序员能“通宵”,性能跑分反超谷歌
OpenAI 正式推出性能更强的 GPT-5.1-Codex-Max 智能体编程模型,该模型在关键编程基准测试中超越了谷歌 Gemini 3 Pro。新模型引入了“压缩”(Compaction)机制,使其能够在不损失性能的情况下持续工作超过 24 小时,实现了 AI 程序员的“通宵”工作能力。在 SWE-Bench Verified 测试中,Codex-Max 准确率达到 77.9%。该模型显著提升了长远推理和实时交互能力,预计将大幅提高开发者效率,并逐步集成到 OpenAI 的各项开发工具中。
2025-11-20
0
0
0
AI基础/开发
AI工具应用
AI新闻/评测
2025-11-09
RedCodeAgent:针对多样化代码智能体的自动红队智能体
微软研究院发布了RedCodeAgent,一个创新的自动红队智能体,用于系统性地发现和利用代码智能体(Code Agents)中的安全漏洞和缺陷。本文深入探讨了其工作原理、测试方法以及对提升代码智能体安全性的重要意义,特别是在处理多样化代码生成任务时的有效性。
2025-11-09
0
0
0
AI新闻/评测
AI基础/开发
AI工具应用
2025-10-17
Anthropic重磅发布Claude Haiku 4.5:性能追平五个月前的旗舰模型,成本仅为其三分之一
Anthropic最新推出的Claude Haiku 4.5小型语言模型展现出惊人潜力,其性能已与五个月前旗舰模型Claude Sonnet 4相当,但成本仅为其三分之一,速度提升超过两倍。该模型在SWE-bench编程测试中得分73.3%,与Sonnet 4不相上下,这标志着AI模型在效率和能力之间取得了重大平衡。对于需要实时、低延迟任务(如聊天助手和代码辅助)的用户而言,Haiku 4.5的性价比极高,同时Anthropic也强调其在多模型工作流中与更强大的Sonnet 4.5协同工作...
2025-10-17
2
0
0
AI新闻/评测
AI基础/开发
AI工具应用
2025-10-17
Anthropic 发布 Claude Haiku 4.5:性能媲美 GPT-5,速度翻倍,价格更香!
Anthropic 正式推出了 Claude Haiku 4.5,这款轻量级模型在性能、速度和成本方面实现了惊人平衡。Haiku 4.5 在 SWE-bench 测试中取得了 73% 的高分,性能直逼 Claude Sonnet 4 甚至 OpenAI 的 GPT-5。其核心亮点在于速度是前代的两倍多,但价格更低,为实时交互和低延迟任务提供了极具竞争力的解决方案。尽管在复杂数学运算上仍有不足,但它已成为 Anthropic 系列中最安全的模型,预示着 AI 开发者将在成本效益和性能之间获得...
2025-10-17
0
0
0
AI新闻/评测
AI基础/开发
AI工具应用
2025-10-17
Anthropic 发布 Claude Haiku 4.5:速度翻倍、价格更低,性能直追 GPT-5 和 Sonnet 4
Anthropic 重磅推出 Claude Haiku 4.5,这款“小杯”模型在性能上实现了巨大飞跃。Haiku 4.5 在 SWE-bench 编码测试中达到了 73% 的惊人成绩,与 Claude Sonnet 4 及 OpenAI 的 GPT-5 处于同一水平。该模型不仅速度比前代提升两倍多,价格也更具竞争力,成为 Anthropic 目前最安全的模型。对于追求高性价比的开发者和企业而言,Haiku 4.5 提供了接近顶配的智能与更低的运营成本,标志着轻量级AI模型的性能新标杆。
2025-10-17
2
0
0
AI基础/开发
AI新闻/评测
AI工具应用
2025-10-16
性能比肩GPT-5,速度翻倍,价格更低!Anthropic 发布轻量级王牌模型 Claude Haiku 4.5
Anthropic 重磅推出 Claude Haiku 4.5,这款轻量级模型在性能、速度和成本上实现了惊人平衡。Haiku 4.5 在 SWE-bench 编码测试中取得了 73% 的高分,性能直追 Claude Sonnet 4 甚至 GPT-5。它不仅速度是前代的两倍多,价格仅为 Sonnet 4.5 的三分之一,使其成为实时交互和低延迟任务的理想选择。虽然在数学计算方面略有不足,但其出色的安全性和对齐性使其成为 Anthropic 当前最安全可靠的模型,为开发者提供了高性价比的 A...
2025-10-16
13
0
0
AI新闻/评测
AI基础/开发
AI工具应用
2025-10-16
Anthropic 性价比之王:Haiku 4.5 重磅发布,以三分之一价格实现 Sonnet 4 级编程能力
Anthropic 宣布推出新型小型 AI 模型 Claude Haiku 4.5,旨在为实时、低延迟任务提供卓越的性价比。Haiku 4.5 在成本上仅为 Sonnet 4 的三分之一,而编程能力却能与其媲美,并在速度上快了两倍。该模型在 SWE-bench 权威测试中得分 73.3%,接近 GPT-5 表现。此外,Anthropic 还设计了创新的多模型协同工作流,利用 Haiku 4.5 执行分解后的子任务,极大地提升了复杂任务处理的效率和成本效益,预示着新一代 AI 代理应用的巨大潜力。
2025-10-16
2
0
0
AI基础/开发
AI工具应用
AI新闻/评测
2025-10-15
超越74.6%!京东云JoyCode-Agent荣登SWE-Bench全球榜单Top 3,并已开源
京东云旗下的JoyCode-Agent在权威SWE-Bench Verified基准测试中表现出色,以74.6%的惊人通过率位列全球前三。这一成绩不仅展示了其解决复杂编程问题的强大能力,更是在计算成本降低30%-50%的前提下实现的,极具性价比。该智能编码产品正式在GitHub开源,采用了多智能体协作、端到端自动修复闭环以及精细化失败归因机制,旨在为企业级严肃开发场景提供高效、低成本的AI编程解决方案。
2025-10-15
1
0
0
AI基础/开发
AI工具应用