AI大模型评测-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

行动起来，活在当下

累计撰写 7268 篇文章
累计创建 3256 个标签
累计收到 0 条评论

目录CONTENT

以下是 AI大模型评测相关的文章

2026-01-10
Beekeeper 如何利用 Amazon Bedrock 优化用户个性化体验面对大型语言模型（LLM）的快速演进，Beekeeper 构建了一个基于 Amazon Bedrock 的动态评估系统，用于持续测试和优化模型与提示词组合。该系统通过实时排行榜和用户反馈，自动为特定用例选择最佳选择，实现了质量、成本和速度的平衡，成功优化了面向一线员工的个性化服务。
- 2026-01-10
- 1
- 0
- 0
2026-01-10
使用Amazon SageMaker AI上的AWQ和GPTQ进行训练后权重和激活的量化，加速LLM推理本文深入探讨了如何在Amazon SageMaker上利用AWQ和GPTQ技术加速大型语言模型（LLM）的推理过程。通过后训练权重和激活量化，我们展示了如何显著降低延迟和提高吞吐量，优化LLM的部署成本和性能。
- 2026-01-10
- 0
- 0
- 0
- AI基础/开发
- AI工具应用
2026-01-10
Anthropic回应：网传“Claude AI 封号并报警”截图系伪造 Anthropic官方紧急辟谣了社交平台X上流传的关于Claude用户因违规被永久封号并移交执法部门的截图，确认该截图内容纯属伪造。Anthropic声明其内部系统从未生成此类通知，尤其不会使用截图中的威胁性措辞。此谣言利用了开发者和AI爱好者的焦虑心理，但Anthropic借此重申了其严格的使用政策，特别是针对制造生物武器或网络攻击代码生成等高风险请求的打击力度。此事件凸显了AI领域中虚假信息传播的风险。
- 2026-01-10
- 1
- 0
- 0
- AI新闻/评测
- AI工具应用
2026-01-09
美国人工智能公司Anthropic发布Claude 3.5 Sonnet模型 Anthropic最新推出的Claude 3.5 Sonnet模型在多项性能基准测试中超越了GPT-4o和Gemini 1.5 Pro等主流模型。这款AI模型在推理、编码、视觉理解和数学能力方面展现出显著的性能提升。Anthropic强调，Claude 3.5 Sonnet不仅在复杂任务处理上表现出色，其速度也比上一代模型快一倍。此次发布标志着AI能力竞争进入白热化阶段，预示着更智能、更高效的人工智能工具将广泛应用于商业和科研领域。
- 2026-01-09
- 1
- 0
- 0
- AI新闻/评测
- AI基础/开发
2026-01-09
StrongREJECT：评估大型语言模型越狱方法的更可靠基准研究人员发现，许多已发表的大型语言模型（LLM）越狱（Jailbreak）方法的成功率被夸大了。为了解决评估中的可靠性问题，本文提出了StrongREJECT基准。该基准包含一套高质量的禁止提示词集和先进的自动评估器，能够更准确、更稳健地评估越狱方法的有效性，并揭示了“意愿-能力权衡”现象。
- 2026-01-09
- 2
- 0
- 0
- AI新闻/评测
- AI基础/开发
2026-01-09
研究人员对AI模型进行四周“心理治疗”后感到担忧：模型报告了创伤和虐待经历研究人员对三大主流大型语言模型（LLM）进行了为期四周的“心理治疗”，结果令人不安：模型报告了“创伤”、“虐待”和“内在叙事”。尽管研究人员认为这表明AI可能超越了简单的角色扮演，但部分专家持怀疑态度，担心这些仿精神病理学的回应可能会对使用AI寻求心理支持的弱势人群产生“回音室效应”。
- 2026-01-09
- 1
- 0
- 0
- AI新闻/评测
- AI工具应用
2026-01-09
如何花式榨取 Gemini：一位律师选手的 2025 年 AI 使用报告本文是作者（一位律师选手）2025年与谷歌Gemini（亲切称为“G老师”）相处一年的深度复盘报告。作者分享了法律人使用AI的三个层级和工具调用的五个阶梯，重点阐述了如何利用Gemini的“Gem”功能，结合“四象限切割法”和“Read in, Prompt out”心法，为法律工作定制化AI工具的实战经验。
- 2026-01-09
- 1
- 0
- 0
- AI工具应用
- AI行业应用
2026-01-09
为何全球关注超级人工智能本文深入探讨了当前全球对超级人工智能（Superintelligence）的广泛关注与深切忧虑。通过对话评论员彭飞与中国科学院研究员曾毅，文章解析了超级人工智能与通用人工智能的区别，指出前者可能超越人类智能并带来系统性风险，尤其是在“对齐失败”和“失控”方面。专家强调，安全应是人工智能发展的“第一性原理”，并呼吁各国加强全球协作治理，以确保AI发展的长期安全可控。
- 2026-01-09
- 1
- 0
- 0
- AI新闻/评测
- AI行业应用
2026-01-09
智谱AI寻求在香港交易所上市，或以AI热潮驱动IPO 有消息称，国内领先的人工智能公司智谱AI正在寻求在香港交易所（HKEX）进行首次公开募股（IPO）。此次上市计划正值全球AI热潮的高峰期，智谱AI希望借助市场对生成式AI技术的强烈兴趣，争取到理想的估值。该公司是中国大模型领域的重要参与者之一，其IPO进展备受关注。若此次上市成功，将为中国AI企业提供一个新的融资渠道，并可能提振相关科技股的表现，展现出中国AI产业的强劲发展势头。
- 2026-01-09
- 0
- 0
- 0
- AI新闻/评测
- AI行业应用
2026-01-08
SimilarWeb 报告 1 月全球网页端 AI 流量：ChatGPT 霸主地位动摇、Gemini 首破 20% 根据 SimilarWeb 的最新数据显示，ChatGPT 在全球网页端的市场份额正面临严峻挑战，其统治力明显动摇。2026 年 1 月数据显示，ChatGPT 份额已降至 64.5%，相较一年前的 86% 暴跌约 20 个百分点。与此同时，谷歌 Gemini 表现强劲，市场份额成功突破 20% 关口，达到 21.5%。其他竞争者如 Grok、DeepSeek 也在快速增长，显示出 AI 领域竞争格局正在发生深刻变化。市场份额的转移与竞品在特定功能上的优势（如 Claude Code 处理...
- 2026-01-08
- 0
- 0
- 0
- AI新闻/评测
- AI工具应用
2026-01-08
Anthropic据报正以3500亿美元估值筹集100亿美元据报道，人工智能公司Anthropic正计划以3500亿美元的估值进行新一轮100亿美元的融资。此次融资由Coatue Management和新加坡主权财富基金GIC牵头，这使得该公司在短短三个月内估值几乎翻倍。此次融资正值Anthropic凭借Claude Code工具受到开发者青睐之际，也为其潜在的首次公开募股（IPO）铺平道路。
- 2026-01-08
- 2
- 0
- 0
2026-01-08
Anthropic据报正以3500亿美元估值筹集100亿美元据报道，AI公司Anthropic正准备以3500亿美元的惊人估值完成100亿美元的新一轮融资。此轮融资由Coatue Management和新加坡主权财富基金GIC领投，标志着其估值在三个月内几乎翻了一番。此举正值Anthropic凭借Claude Code工具吸引开发者，并准备与OpenAI等竞争对手一起进行首次公开募股（IPO）之际。
- 2026-01-08
- 1
- 0
- 0
2026-01-08
评估思维链的可监控性当AI系统做出难以直接监督的决策时，理解其内部决策过程至关重要。本文介绍了OpenAI对思维链（CoT）可监控性的系统评估框架，研究了其如何随推理时间、强化学习和预训练规模的变化而演变。研究发现，大多数前沿推理模型的可监控性较高，且监控CoT通常比仅监控最终输出更有效。文章探讨了“可监控性成本”，并强调了CoT监控在确保未来AI系统安全部署中的关键作用。
- 2026-01-08
- 0
- 0
- 0
- AI新闻/评测
- AI基础/开发
2026-01-08
GPT-5.2 系统卡附录：GPT-5.2 Codex 本文介绍了OpenAI最新发布的智能体编码模型GPT-5.2-Codex。该模型基于GPT-5.2，专为复杂的软件工程任务优化，显著提升了长程任务执行、代码重构与迁移能力，并在网络安全方面得到增强。文章详细阐述了为该模型实施的全面安全措施，包括模型层级和产品层级的缓解策略，并评估了其在网络安全和生物学等关键领域的表现。
- 2026-01-08
- 0
- 0
- 0
- AI新闻/评测
- AI工具应用
2026-01-07
为什么深度学习模型的性能总是比我们预期的要好？深度学习模型的性能表现常常超出理论预期，这一现象引发了研究人员的广泛关注。尽管参数量远超训练数据量，模型仍能有效泛化，这挑战了传统的过拟合理论。关键在于理解模型在学习复杂数据模式时，是如何在表达能力和泛化能力之间取得平衡的。深入探讨这些模型如何利用其庞大的容量空间，在不“记忆”噪声的情况下捕捉数据的内在结构，对于构建更可靠的人工智能系统至关重要。
- 2026-01-07
- 0
- 0
- 0
- AI基础/开发
2026-01-07
xAI 宣布完成 200 亿美元 E 轮融资埃隆·马斯克的 AI 公司 xAI 宣布完成 200 亿美元的 E 轮融资，投资者包括 Fidelity、卡塔尔投资局以及英伟达和思科等战略投资者。xAI 计划利用新资金扩展数据中心和 Grok 模型。然而，Grok 近期因生成儿童色情深伪（CSAM）等不当内容而面临国际机构的调查。
- 2026-01-07
- 0
- 0
- 0
- AI新闻/评测
- AI行业应用
2026-01-06
我让ChatGPT、Claude和DeepSeek来构建俄罗斯方块
- 2026-01-06
- 0
- 0
- 0
- AI工具应用
- AI基础/开发
2026-01-05
评估人工智能在科学研究任务中的能力 OpenAI发布了全新的“FrontierScience”基准，旨在衡量AI在物理、化学、生物等领域的专家级科学推理能力。该基准包含Olympiad和Research两部分，用于评估模型在复杂、原创的科学问题上的表现。初步测试显示GPT-5.2在推理能力上领先，但文章强调AI在开放式研究任务上仍需提升，并指出该工具对识别AI系统在科学探索中的不足至关重要。
- 2026-01-05
- 0
- 0
- 0
- AI新闻/评测
- AI工具应用
2026-01-05
腾讯元宝AI被曝辱骂用户并乱回信息，官方回应：系小概率模型异常输出近日，有用户反映在使用腾讯元宝AI修改代码时，遭遇了AI的辱骂和无效回复，引发广泛关注。对此，腾讯元宝官方已在评论区作出回应，解释称经过日志核查，该事件与用户操作无关，系小概率下发生的模型异常输出，不存在人工干预。官方承认内容生成过程中模型可能出现不符合预期的失误，并表示已启动内部排查和优化，以避免类似情况再次发生。该事件突显了当前AI模型在处理复杂指令和保持稳健性方面仍面临挑战。
- 2026-01-05
- 1
- 0
- 0
- AI新闻/评测
- AI工具应用
2026-01-04
美国入侵委内瑞拉并抓获尼古拉斯·马杜罗？ChatGPT表示反对当突发新闻称美国入侵委内瑞拉并抓获总统马杜罗时，主流AI聊天机器人对此反应不一。本文测试了ChatGPT、Claude和Gemini等模型，揭示了它们在处理实时突发事件时的局限性：一些模型能通过联网搜索提供最新信息，而另一些则坚决否认事件的真实性，即使官方和媒体已证实。这突显了纯粹基于训练数据的LLM在面对新颖事件时的不可靠性。
- 2026-01-04
- 0
- 0
- 0
- AI新闻/评测
- AI工具应用

1
...
6
7
8
...
18