首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
4960
篇文章
累计创建
1791
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
模型评估
相关的文章
2026-02-01
减少AI中的隐私泄露:两种实现语境完整性的方法
本文探讨了在人工智能(AI)系统中保护用户隐私的关键挑战,重点介绍了两种基于Helen Nissenbaum语境完整性(Contextual Integrity, CI)框架的方法。研究人员提出了利用CI原则来评估和减轻AI模型(尤其是大型语言模型)在训练和使用过程中数据泄露的风险,旨在平衡AI的效用与用户的隐私期望。
2026-02-01
0
0
0
AI新闻/评测
AI基础/开发
2026-01-31
使用 Amazon SageMaker AI 上的 Amazon Nova LLM-as-a-Judge 评估生成式 AI 模型
评估大型语言模型(LLM)的性能超越了传统的统计指标。本文介绍了如何在 Amazon SageMaker AI 上使用 Amazon Nova LLM-as-a-Judge 功能,这是一个强大的、经过严格验证的 LLM 评估方法。Nova LLM-as-a-Judge 能够提供公正的、与人类偏好高度一致的成对比较,帮助用户在几分钟内部署工作流程,并做出数据驱动的模型改进决策。
2026-01-31
0
0
0
AI新闻/评测
AI工具应用
AI基础/开发
2026-01-28
用于改进时间序列模型的5种交叉验证方法
2026-01-28
0
0
0
AI基础/开发
2026-01-28
人工智能测试与评估:科学与行业的经验教训
本文探讨了人工智能测试与评估的最新进展,汇集了科学界和工业界的宝贵经验。了解如何构建更可靠、更安全的AI系统,以及未来AI评估面临的挑战与机遇。
2026-01-28
0
0
0
AI新闻/评测
AI基础/开发
2026-01-28
使用 Amazon Bedrock 构建可靠的智能体式 AI 解决方案:学习 Pushpay 在生成式 AI 评估方面的经验
本文深入探讨了 Pushpay 如何利用 Amazon Bedrock 构建创新的智能体式(Agentic)AI 搜索功能。通过引入定制的生成式 AI 评估框架、黄金数据集和基于域的分析,Pushpay 成功将洞察获取时间从数分钟缩短至数秒,并将准确率从 60-70% 提升至 95% 以上。了解他们如何实现生产级 AI 代理的可靠性与迭代优化。
2026-01-28
0
0
0
AI新闻/评测
AI基础/开发
AI工具应用