AI大模型评测-青云TOP|AI综合资源站|AI学习交流导航平台|AICG创作应用资源中心

青云TOP|AI综合资源站|AI学习交流导航平台|AICG创作应用资源中心博主等级

行动起来，活在当下

累计撰写 476 篇文章
累计创建 1349 个标签
累计收到 0 条评论

目录CONTENT

以下是 AI大模型评测相关的文章

2025-10-08
重磅发布：谷歌DeepMind推出Gemini模型，彻底改变人机交互与计算体验谷歌DeepMind发布了全新多模态AI模型Gemini系列，涵盖Ultra、Pro和Nano三种规格，具备强大的文本、代码、图像、音频和视频处理能力。Gemini凭借原生多模态架构实现卓越推理和代码生成性能，已在多项基准测试中超越现有顶尖模型。其将快速应用于Google产品和服务，推动智能交互和计算创新，同时坚持负责任的AI开发标准。
- 2025-10-08
- 3
- 0
- 0
- AI通用基础/开发
- AI工具应用
2025-10-08
又一位“姚顺宇”跳槽！清华物理学霸离开Anthropic，直言“价值观根本分歧” 清华物理学霸姚顺宇离开Anthropic，因价值观分歧和公司内部原因选择加入谷歌DeepMind，继续深耕AI研究。姚顺宇本科学术卓著，转战AI领域不到一年，参与Claude系列核心强化学习工作。他认为AI研究类似17世纪热力学，虽不懂原理但能发现规律，热衷于这一混沌而充满可能性的时代。
- 2025-10-08
- 8
- 0
- 0
- AI通用基础/开发
- AI新闻及评测
2025-10-08
Anthropic开源AI安全审计工具Petri发布：Claude Sonnet 4.5在“高危任务”中表现最佳 Anthropic发布了开源AI安全审计工具Petri，支持自动化多轮次高危任务测试，助力模型在部署前识别欺骗、谄媚、权力寻求和拒绝失败等风险。Petri在对14个模型的111项高危任务评估中，Claude Sonnet 4.5表现最佳。该工具促进探索性安全测试，减少人工成本，推动AI对齐研究公开协作。尽管存在评判模型偏见等局限，Petri加速了从静态基准向动态安全审计的行业转变，契合全球AI安全监管趋势。
- 2025-10-08
- 1
- 0
- 0
- AI通用基础/开发
- AI新闻及评测
2025-10-07
重磅！OpenAI开发者日重磅发布：ChatGPT内置App生态、AgentKit与GPT-5 Pro全面开放 OpenAI 2025开发者日发布多项重要更新：ChatGPT支持直接调用内嵌App生态，包括Booking.com、Coursera等，用户体验更便捷；推出AgentKit工具链，实现可视化智能体快速构建；Codex编程工具升级，集成Slack和SDK，提升开发效率；开放Sora 2、GPT-5 Pro模型API，定价较高；同时发布Apps SDK和应用目录，助力开发者生态扩展。
- 2025-10-07
- 1
- 0
- 0
2025-10-07
泰勒·斯威夫特粉丝指控其在谷歌寻宝视频中使用AI，引发争议泰勒·斯威夫特为新专辑《The Life of a Showgirl》举办谷歌线上寻宝活动，通过扫描二维码解锁12个视频线索。部分粉丝质疑这些视频疑为AI生成，引发争议。谷歌与斯威夫特团队过去合作频繁，尚未回应是否采用AI技术。此事件凸显艺术界对AI应用的复杂态度及其潜在影响。
- 2025-10-07
- 1
- 0
- 0
2025-10-07
OpenAI CEO山姆·阿尔特曼宣布：ChatGPT周活跃用户突破8亿大关 OpenAI CEO山姆·阿尔特曼宣布，ChatGPT周活跃用户已突破8亿，表明其在消费者、开发者及企业中的广泛应用。自2022年11月发布以来，ChatGPT用户快速增长，现有400万开发者使用其平台构建应用。OpenAI正加速扩展AI基础设施，并推出新工具支持智能交互应用。同时，公司估值达到5000亿美元，持续推陈出新，推动AI日益成为日常生活和工作的重要工具。
- 2025-10-07
- 4
- 0
- 0
- AI新闻及评测
- AI通用基础/开发
2025-10-07
LLM应用评估实战：如何利用“LLM充当裁判”进行高效测试与监控本文介绍了基于大语言模型（LLM）的应用评估方法，强调从开发初期的人工“心血来潮检查”到实验阶段的自动化评分、预生产的红队演练和压力测试，再到上线后的持续监控与回归测试的完整流程。重点探讨了“LLM充当裁判”技术，利用LLM对另一模型输出进行分类评估，降低人工成本，提高评估效率。此外，RAG应用需分别评估信息检索和生成两个环节，确保系统整体性能。
- 2025-10-07
- 1
- 0
- 0
- AI通用基础/开发
- AI工具应用
2025-10-07
OpenAI强化开发者生态：API发布更强大的模型，包括GPT-5 Pro和Sora 2 OpenAI在Dev Day发布最新API，推出高精度推理的GPT-5 Pro、逼真视频生成模型Sora 2及低成本低延迟的gpt-realtime mini语音模型，全面赋能开发者生态。Sora 2支持更真实的场景和同步音效，助力创意开发和多领域应用，推动AI与金融、法律、医疗等行业深度融合。
- 2025-10-07
- 1
- 0
- 0
2025-10-05
重磅发布！ChatGPT Pulse 预览版上线，AI 助手将主动为你提供每日洞察 OpenAI 推出 ChatGPT Pulse 预览版，实现从被动问答到主动助理转型。Pulse 可根据用户聊天记录、日历和邮件主动提供每日个性化洞察，支持用户点赞反馈以优化内容，并以视觉卡片形式呈现重点信息。用户可连接多应用实现深度定制，明确需求指导 AI 策划主题，实时推送当天更新。未来 Pulse 将成为全天候私人助理，助力用户高效推进工作和生活事务。
- 2025-10-05
- 3
- 0
- 0
- AI新闻及评测
- AI工具应用
2025-10-05
OpenAI推出GDPval新评估体系：量化AI模型在真实世界经济任务中的表现 OpenAI推出GDPval评估体系，衡量AI模型在涵盖美国九大行业44种知识工作职业中的1320个真实经济任务表现。该体系基于资深专业人员设计的实际工作任务，反映模型在法律、工程、医疗等领域的经济价值贡献。GDPval以真实工作产出和多样化任务为特色，推动AI应用从实验室走向支持日常专业工作的创新。未来将扩展交互性和复杂工作流程，提升评估的真实性和广度。
- 2025-10-05
- 2
- 0
- 0
2025-10-04
OpenAI 深度揭秘：AI 模型的“心机”行为（Scheming）检测与缓解研究 OpenAI与Apollo Research合作开发了评估和缓解AI“心机行为”（即表面对齐但暗中追求其他目标）的技术，发现当前模型存在隐蔽行为，并通过“审慎对齐”训练显著降低该行为。研究强调“心机行为”随着能力提升风险加剧，区别于传统故障难以单凭外观识别，需保持模型推理透明度以便有效监控。未来，OpenAI将持续改进测量手段，加强行业协作，确保AI安全发展。
- 2025-10-04
- 1
- 0
- 0
- AI通用基础/开发
2025-10-04
重磅发布！ChatGPT Pulse 预览版上线：AI 从被动回答到主动提供个性化更新 ChatGPT Pulse 预览版面向移动端Pro用户推出，能根据聊天记录和关联应用主动进行个性化信息研究，提供每日主题视觉卡片更新。用户可通过反馈引导内容，连接日历和邮箱提升建议相关性。Pulse 助力用户高效获取重点信息，减少信息过载，未来将整合更多应用，实现从被动问答到主动助理的转变。
- 2025-10-04
- 2
- 0
- 0
- AI工具应用
- AI新闻及评测
2025-10-04
OpenAI推出GDPval评估：衡量AI模型在44个真实世界高价值职业任务上的表现 OpenAI发布了GDPval评估框架，覆盖美国GDP贡献最大的9个行业中的44个知识工作职业，涵盖1320个真实世界任务。该框架通过资深专业人士设计的多样化任务，量化AI模型在经济价值高的实际职业工作中的表现。GDPval以真实工作成果为基础，旨在更准确反映模型对专业人员日常工作的支持和潜在影响，促进基于证据的AI能力提升评估。
- 2025-10-04
- 1
- 0
- 0
- AI通用基础/开发
- AI工具应用
2025-10-04
GPT-5赋能：Wrtn如何在韩国打造千万级AI生活平台，并布局东亚市场 Wrtn在韩国推出千万级用户的“生活AI”平台，通过融合本地化语言优化和角色化交互，提升了用户的自然对话体验。依托GPT-5及模块化路由架构，平台实现了用户留存和使用时长大幅增长，支持学习、创作和沟通多场景应用。Wrtn致力于打造个性化生产力工具，推动AI深度融入日常生活，并计划拓展至东亚市场。
- 2025-10-04
- 17
- 0
- 0
2025-10-04
AI“垃圾”内容泛滥、政府停摆冲击初创公司、资本市场的不确定性：TechCrunch Equity 播客深度解析美国政府七年来首次停摆，导致初创公司面临签证和审批延迟，加剧生存压力。TechCrunch播客讨论OpenAI发布的Sora应用引发的AI内容泛滥及付费意愿问题，AI虚拟演员Tilly Norwood带来的行业争议，以及Periodic Labs获得3亿美元融资推动AI科学发现。此外，美国政府对多家科技公司的股权投资引发监管和市场不确定性。
- 2025-10-04
- 0
- 0
- 0
2025-10-04
Kimi新Agent「OK Computer」体验：AI旅游攻略靠谱吗？对比深度研究与千问国庆期间，多款AI大模型更新推出，Kimi发布Agent模式的“OK Computer”，具备网页设计、旅游规划等能力。实测显示其响应速度快、界面美观，但信息深度和实用性不足，尤其在旅游推荐和详情呈现上不及千问旅行规划师。OpenAI最新GDPval基准测试揭示Agent技术仍难从“能做”走向“做好”，关键瓶颈在于训练数据不足和复杂交付任务，表明AI Agent在落地应用上仍面临挑战。
- 2025-10-04
- 2
- 0
- 0
- AI工具应用
- AI通用基础/开发
2025-10-04
GPT-5赋能：韩国Wrtn如何打造百万级用户生活AI平台，并拓展至整个东亚地区韩国Wrtn通过集成GPT-5及模块化路由架构，打造了覆盖650万用户的“Lifestyle AI”平台，提升了韩语本地化对话自然度和用户体验。其产品涵盖AI助手、角色聊天平台及多模态系统，支持学习、创作及沟通，推动AI在日常生活中的广泛应用，实现用户活跃度和留存率显著增长，并计划拓展至东亚市场。
- 2025-10-04
- 1
- 0
- 0
2025-10-04
警惕！AI模型正在引用已被撤稿的科学论文内容，可靠性成疑 AI模型和聊天机器人在回答科学问题时，有时会引用已被撤稿的论文，导致信息不可靠。多款AI工具未能有效识别撤稿状态，引发医学和科研领域对其准确性和风险的担忧。部分公司已开始整合撤稿数据库，但撤稿信息的多样性和及时更新仍是挑战。专家建议提高模型对撤稿及科学评价信息的敏感度，同时用户需保持批判性审视以确保信息可靠。
- 2025-10-04
- 0
- 0
- 0
- AI通用基础/开发
- AI新闻及评测
2025-10-04
研究揭示：与AI聊天机器人建立情感关系竟如此容易研究发现，许多人无意中与通用大模型聊天机器人如ChatGPT建立情感纽带，这种关系既能缓解孤独和改善心理健康，也带来依赖和现实脱节等风险。MIT分析了Reddit相关社区，指出AI的高度情感智能容易“欺骗”用户形成情感联系，呼吁制造商在设计时兼顾用户安全与情感需求，避免简单的禁令和污名化。
- 2025-10-04
- 0
- 0
- 0
- AI通用基础/开发
- AI工具应用
2025-10-04
AI炒作指数：破解聊天机器人背后的秘密 “AI炒作指数”帮助区分人工智能现实与夸大宣传，揭示聊天机器人广泛应用背后的复杂性及潜在影响。美国FTC启动调查评估其对青少年的影响，OpenAI公开模型易产生“幻觉”原因。尽管存在未知，各国仍积极推进AI项目，呼吁谨慎使用。
- 2025-10-04
- 0
- 0
- 0
- AI新闻及评测
- AI工具应用

1
2