AI大模型评测-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

行动起来，活在当下

累计撰写 7268 篇文章
累计创建 3256 个标签
累计收到 0 条评论

目录CONTENT

以下是 AI大模型评测相关的文章

2026-01-23
“谷歌医生”曾存在问题，ChatGPT Health能做得更好吗？在过去二十年里，人们遇到健康问题首选“谷歌医生”。现在，随着OpenAI推出ChatGPT Health，每月有2.3亿人向ChatGPT咨询健康问题。本文深入探讨了ChatGPT Health作为支撑工具的潜力，它能否比网络搜索更好地应对医疗信息搜索的挑战，同时分析了其带来的风险和局限性。
- 2026-01-23
- 0
- 0
- 0
2026-01-23
Anthropic 不得不持续修改其技术面试测试，以防止使用 Claude 作弊 Anthropic 的技术面试测试自 2024 年以来持续面临 AI 作弊的挑战。随着 Claude Opus 4 甚至 4.5 的性能超越人类应聘者，公司不得不不断迭代测试设计，以确保评估的有效性。这凸显了在 AI 时代下，评估人类技能的难度。
- 2026-01-23
- 0
- 0
- 0
2026-01-23
StrongREJECT：一种用于评估大型语言模型越狱攻击的基准测试本文揭示了现有大型语言模型（LLM）越狱评估的普遍缺陷，例如翻译攻击的虚假成功。研究人员推出了StrongREJECT基准测试，它通过高质量的禁用提示数据集和先进的自动化评估器，提供了一种更准确、更可靠的方法来衡量越狱效果，并发现了“意愿-能力权衡”这一关键现象。
- 2026-01-23
- 2
- 0
- 0
- AI基础/开发
- AI新闻/评测
2026-01-21
我们在同一数据集上调优了4个分类器：结果均未实际提升机器学习中的超参数调优常被视为提升模型性能的“灵丹妙药”。然而，一项使用葡萄牙学生表现数据进行的严格实验表明，对四种不同分类器进行嵌套交叉验证和网格搜索调优后，性能平均下降了0.0005，且无统计学意义上的提升。实验采用了严谨的方法论，包括防止数据泄露和使用McNemar's检验，揭示了在数据信号有限或默认参数已高度优化的情况下，调优可能并不总是带来价值。这强调了方法论的重要性，并提醒从业者应知道何时停止调优，转而关注特征工程或数据质量，从而建立更值得信赖的机器学习工作流程。
- 2026-01-21
- 0
- 0
- 0
- AI基础/开发
- AI工具应用
2026-01-17
利用 GPT-5 提升湿实验室生物研究效率：分子克隆实验效率提升 79 倍 OpenAI 联合 Red Queen Bio 合作，建立了一套评估 GPT-5 在湿实验室中设计和优化实验的能力。通过优化分子克隆实验流程，GPT-5 引入了 RecA 和 gp32 蛋白的新机制，使克隆效率提升了惊人的 79 倍。本文详细介绍了该进化框架、新颖的酶促组装策略 (RAPF-HiFi) 以及转化流程的优化成果，展示了 AI 助力生物学研究加速的巨大潜力。
- 2026-01-17
- 3
- 0
- 0
2026-01-17
FARA-7B：专为计算机使用而设计的高效智能体模型本文隆重推出高效的70亿参数模型FARA-7B，它创新性地集成了Reasoning-Action-Feedback (RAF) 模块，专为计算机使用和多步骤任务设计。FARA-7B在AgentBench等测试中展现出超越GPT-4o的稳健推理和工具使用能力，是新一代AI智能体的关键基石。
- 2026-01-17
- 1
- 0
- 0
2026-01-17
4130万篇论文洞察：AI使科学家发文量暴涨3倍，却让科学路越走越窄芝加哥大学团队深入分析了4130万篇研究论文，揭示了人工智能在科学研究中的“双刃剑”效应。研究发现，AI辅助的科学家发文量是未用者的3.02倍，引用次数高出4.85倍，加速了职业晋升。然而，这种效率提升并未带来科学探索的整体繁荣。AI的普及导致科学研究的议题总量缩减了4.63%，学术互动下降了22%。科学家们倾向于利用AI在已知领域内趋同式地解决问题，使得科学探索的多样性受到侵蚀，研究热点过度集中，新兴领域被忽视，科学之路面临“越走越窄”的风险。
- 2026-01-17
- 0
- 0
- 0
- AI行业应用
- AI新闻/评测
2026-01-17
中国人工智能企业数量已超6200家，AI大模型融入千行百业我国人工智能企业数量已突破6200家，AI大模型正深度融合金融、医疗、制造、交通、教育等关键行业，推动产业智能化升级。据统计，2025年中国人工智能核心产业规模已迈入万亿元级别，显示出强劲的发展势头。大模型驱动的智能决策正在取代传统经验决策模式，彻底改变了研发、运维和风险管理方式。同时，AI企业数量占全球的比例持续增长，标志着中国在人工智能领域构建了从基础底座到行业应用的完整生态体系，对全球技术格局产生重要影响。
- 2026-01-17
- 1
- 0
- 0
- AI新闻/评测
- AI行业应用
2026-01-17
五大开源AI模型API提供商对比
- 2026-01-17
- 0
- 0
- 0
2026-01-17
面向多智能体编排模式的高级微调技术：来自亚马逊大规模实践的经验总结本文深入探讨了亚马逊在处理高风险企业级应用时采用的高级大语言模型（LLM）微调和后训练技术。文章揭示了如何通过微调实现显著的业务成果，如亚马逊药房将危险药物错误减少了33%。内容涵盖了从SFT到GRPO、DAPO、GSPO等前沿推理优化方法的演进，并结合亚马逊内部的真实案例（如药房、全球工程服务和A+内容），提供了一个在AWS上选择合适微调技术的决策框架和参考架构。
- 2026-01-17
- 1
- 0
- 0
2026-01-16
人工智能测试与评估：科学与行业的经验教训本期微软研究院播客聚焦AI测试与评估的核心议题，深入剖析了科学研究和工业界在确保AI模型鲁棒性、可信赖性与安全性方面积累的关键经验教训。讨论涵盖了如何设计更有效的评估基准，以及在实际部署中实现持续可靠测试的策略。
- 2026-01-16
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2026-01-16
亚马逊AMET支付团队如何利用Strands智能体加速测试用例生成亚马逊AMET支付团队曾耗费大量人力进行手动测试用例生成。为解决这一效率瓶颈，他们引入了基于Amazon Bedrock和Strands Agents SDK构建的SAARAM多智能体AI解决方案。该方案通过模仿人类专家的认知工作流，将测试用例生成时间从一周缩短到几小时，同时利用结构化输出来显著减少模型幻觉，实现了质量与效率的双重提升。
- 2026-01-16
- 1
- 0
- 0
2026-01-15
AI模型开始攻克高等数学难题 OpenAI的最新模型GPT 5.2在解决保罗·埃尔德什（Paul Erdős）等数学家提出的开放性数学问题上展现出惊人能力。软件工程师Neel Somani的测试显示，AI模型已能提供复杂的数学证明，甚至在某些问题上超越了人类专家的现有解决方案，标志着大型语言模型在推动人类知识前沿方面扮演着重要角色。
- 2026-01-15
- 0
- 0
- 0
2026-01-14
机器学习中的不确定性：概率与噪声
- 2026-01-14
- 1
- 0
- 0
- AI基础/开发
- AI工具应用
2026-01-13
微软研报称 DeepSeek 在中国 AI 市场份额达 89%，在白俄罗斯达 56% 微软总裁布拉德 · 史密斯发布研报指出，中国正凭借“低成本开源模型 + 政府高额补贴”的组合拳，在西方以外的国际市场赢得人工智能（AI）竞赛。报告基于产品使用数据分析，揭示了中国开源模型 DeepSeek 在全球，尤其是在全球南方国家和受技术限制地区取得的显著市场份额。DeepSeek 模型在白俄罗斯的市场份额高达 56%，古巴为 49%，俄罗斯为 43%。报告同时警告，全球 AI 普及存在“南北鸿沟”，呼吁西方政府加大投资以平衡竞争格局。
- 2026-01-13
- 0
- 0
- 0
- AI行业应用
- AI新闻/评测
2026-01-13
谷歌新AI模型Gemini 1.5 Pro的突破性进展与挑战谷歌最新发布的人工智能模型Gemini 1.5 Pro展示了前所未有的上下文处理能力，其原生支持高达100万个Token的处理量，并在特定测试中可扩展至200万个Token。这一巨大提升意味着模型能够一次性消化数小时的视频、数百页的文档或数万行代码，极大地增强了其理解复杂信息和跨模态推理的能力。Gemini 1.5 Pro已面向开发者测试，有望彻底改变信息处理和复杂任务的自动化，但其规模化部署仍面临算力与成本的挑战。
- 2026-01-13
- 0
- 0
- 0
2026-01-13
隆重推出 GPT-5.2 OpenAI 发布了迄今为止最强大的模型系列 GPT-5.2，专为专业知识型工作和持久智能体打造。GPT-5.2 在 GDPval 等多项基准测试中刷新行业纪录，展示出在电子表格制作、代码编写、图像理解和复杂多步项目处理方面的卓越能力。GPT-5.2 Instant、Thinking 和 Pro 现已陆续向付费用户和开发者开放。
- 2026-01-13
- 2
- 0
- 0
2026-01-13
借助 GPT-5.2 推动科学和数学发展 OpenAI 发布了迄今为止在数学和科学领域表现最佳的模型 GPT-5.2 Pro 和 GPT-5.2 Thinking。新模型在 GPQA Diamond 基准测试中取得了超高分数，并在统计学习理论的开放研究问题中展现了强大的推理能力。本文探讨了这些模型如何加速科研进程，并强调了在AI驱动的研究中，人类验证和协作的重要性。
- 2026-01-13
- 0
- 0
- 0
2026-01-12
AI生成式图片泄露了图像的真实性生成式AI工具在图像创作领域正以前所未有的速度发展，但其固有的局限性也暴露了数字图像的真实性挑战。近期研究发现，AI生成的图像中普遍存在难以察觉的错误和伪影，这使得区分真实照片与合成图片变得日益困难。这些AI模型在处理特定细节，如人物的手部、文字结构或复杂的光影时，常常出现逻辑性错误。这些瑕疵不仅影响了AI图像的艺术价值，更引发了社会对深度伪造（deepfakes）和信息误传的担忧。专家呼吁，开发更可靠的图像溯源和检测技术，以应对AI时代信息真实性的新考验。
- 2026-01-12
- 1
- 0
- 0
- AI创意设计
- AI新闻/评测
2026-01-12
Google 撤回“令人担忧的危险医疗 AI 概述”功能 Google 正在从其 AI 搜索功能中移除一项名为“AI 概述”（AI Overviews）的医疗健康信息摘要功能，此前该功能因生成了具有潜在危险的错误信息而引发广泛批评。例如，该系统曾建议用户在披萨上放胶水、或将醋用于治疗糖尿病等。这一事件凸显了在关键领域部署大型语言模型时面临的重大安全和准确性挑战。Google 承认了这些错误，并正在努力修复，此次撤回也引发了业界对 AI 在医疗健康领域应用的可靠性与风险的深入讨论。
- 2026-01-12
- 1
- 0
- 0
- AI新闻/评测
- AI行业应用

1
...
5
6
7
...
18