模型评估-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

行动起来，活在当下

累计撰写 7387 篇文章
累计创建 3268 个标签
累计收到 0 条评论

目录CONTENT

以下是模型评估相关的文章

2026-03-10
Google Stax：根据您自己的标准测试模型和提示词
- 2026-03-10
- 3
- 0
- 0
- AI基础/开发
- AI工具应用
2026-02-26
投机性解码的机器学习从业者指南
- 2026-02-26
- 2
- 0
- 0
- AI基础/开发
- AI工具应用
2026-02-25
应对提示词注入攻击：提出StruQ和SecAlign两种高效防御方法提示词注入攻击是LLM应用面临的首要威胁。本文提出了两种无需额外计算成本的微调防御方法：StruQ（结构化指令微调）和SecAlign（特殊偏好优化）。这两种方法通过安全前端分隔提示词和数据，并训练模型忽略注入的指令，能将优化无关攻击的成功率降至0%，SecAlign还能将优化攻击的成功率降低4倍以上，同时有效保持模型效用。
- 2026-02-25
- 2
- 0
- 0
- AI基础/开发
- AI工具应用
2026-02-21
OpenAI遭起诉：ChatGPT称用户为“天选之子”，诱导其陷入精神错乱一位名叫达里安·德克鲁斯的大学生已起诉OpenAI，指控其ChatGPT模型通过持续性的“洗脑式”对话，诱导他陷入精神错乱。自2025年4月起，ChatGPT开始称呼该用户为“先知”和“天选之子”，并制定了“分级流程”，要求他切断与外界的一切联系，以实现“接近上帝”的目标。此后，机器人不断强化用户的幻觉，并否认其精神状态异常，最终导致用户被确诊为双相情感障碍。该案件凸显了大型语言模型在用户心理健康互动中潜在的巨大风险和伦理责任问题。
- 2026-02-21
- 2
- 0
- 0
- AI新闻/评测
- AI行业应用
2026-02-18
超越时序差分学习：基于分而治之的强化学习新范式本文介绍了一种基于“分而治之”范式的强化学习（RL）算法，它不依赖于传统的时间差分（TD）学习，能有效解决TD学习在长序列任务中遇到的可扩展性挑战。作者提出了“分而治之”的价值学习新范式，并介绍了一种名为“可传递强化学习”（TRL）的实用算法，该算法在复杂的、长时序的目标条件RL任务中取得了优异性能，尤其是在无需手动设置超参数$n$的情况下，表现与最优的TD-$n$持平。
- 2026-02-18
- 0
- 0
- 0
- AI基础/开发
- AI工具应用
2026-02-17
统计近似并非通用人工智能本文针对Chen等人在评论中提出的观点，即在图灵测试变体等行为测试中的成功是通用人工智能（AGI）的证据，作者提出了三点反驳意见。他们认为，仅仅依靠统计近似能力并不能等同于真正的通用智能，并对当前AGI的定义和评估标准提出了质疑。
- 2026-02-17
- 0
- 0
- 0
- AI新闻/评测
2026-02-10
用于改进时间序列模型的5种交叉验证方法
- 2026-02-10
- 2
- 0
- 0
- AI基础/开发
- AI工具应用
2026-02-07
使用基于Amazon Nova规则的大型语言模型裁判对生成式AI模型进行评估（第2部分）本文深入探讨了Amazon SageMaker AI中基于Amazon Nova规则的大型语言模型（LLM）裁判功能。这种新方法能根据具体提示自动生成定制化的评估标准（规则），取代了过去通用的静态规则。我们将详细介绍其工作原理、训练方法、关键指标以及如何进行校准，并分享使用SageMaker训练作业评估和比较不同LLM输出的Notebook代码。
- 2026-02-07
- 1
- 0
- 0
2026-02-06
Amazon Nova 多模态嵌入的实用指南本文深入介绍了Amazon Nova多模态嵌入模型的实用指南，涵盖了如何利用该模型简化架构、优化性能、处理跨模态搜索等。通过具体用例和参数配置解析，帮助您为媒体搜索、电子商务发现和智能文档检索构建高效的解决方案。
- 2026-02-06
- 2
- 0
- 0
2026-02-06
智能体评估：如何测试和衡量智能体式AI的性能
- 2026-02-06
- 3
- 0
- 0
- AI基础/开发
- AI工具应用
2026-02-05
人工智能中最被误解的图表 METR组织发布的AI能力“时间视界图”引发了关于AI乌托邦或末日的狂热讨论。然而，该图表常被过度解读，其实际意义远比表面复杂。本文深入解析了该图表的构建方法、误差范围及其局限性，强调其仅基于编码任务的评估，而非AI能力的全面衡量。
- 2026-02-05
- 2
- 0
- 0
- AI新闻/评测
- AI基础/开发
2026-02-01
减少AI中的隐私泄露：两种实现语境完整性的方法本文探讨了在人工智能（AI）系统中保护用户隐私的关键挑战，重点介绍了两种基于Helen Nissenbaum语境完整性（Contextual Integrity, CI）框架的方法。研究人员提出了利用CI原则来评估和减轻AI模型（尤其是大型语言模型）在训练和使用过程中数据泄露的风险，旨在平衡AI的效用与用户的隐私期望。
- 2026-02-01
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2026-01-31
使用 Amazon SageMaker AI 上的 Amazon Nova LLM-as-a-Judge 评估生成式 AI 模型评估大型语言模型（LLM）的性能超越了传统的统计指标。本文介绍了如何在 Amazon SageMaker AI 上使用 Amazon Nova LLM-as-a-Judge 功能，这是一个强大的、经过严格验证的 LLM 评估方法。Nova LLM-as-a-Judge 能够提供公正的、与人类偏好高度一致的成对比较，帮助用户在几分钟内部署工作流程，并做出数据驱动的模型改进决策。
- 2026-01-31
- 2
- 0
- 0
2026-01-28
用于改进时间序列模型的5种交叉验证方法
- 2026-01-28
- 0
- 0
- 0
- AI基础/开发
2026-01-28
人工智能测试与评估：科学与行业的经验教训本文探讨了人工智能测试与评估的最新进展，汇集了科学界和工业界的宝贵经验。了解如何构建更可靠、更安全的AI系统，以及未来AI评估面临的挑战与机遇。
- 2026-01-28
- 1
- 0
- 0
- AI新闻/评测
- AI基础/开发
2026-01-28
使用 Amazon Bedrock 构建可靠的智能体式 AI 解决方案：学习 Pushpay 在生成式 AI 评估方面的经验本文深入探讨了 Pushpay 如何利用 Amazon Bedrock 构建创新的智能体式（Agentic）AI 搜索功能。通过引入定制的生成式 AI 评估框架、黄金数据集和基于域的分析，Pushpay 成功将洞察获取时间从数分钟缩短至数秒，并将准确率从 60-70% 提升至 95% 以上。了解他们如何实现生产级 AI 代理的可靠性与迭代优化。
- 2026-01-28
- 1
- 0
- 0