首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
2207
篇文章
累计创建
750
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
强化学习
相关的文章
2025-11-21
使用强化学习来平滑自动驾驶汽车(AV)的行驶,以减少高速公路拥堵和燃料消耗
研究团队部署了100辆由强化学习(RL)控制的自动驾驶汽车(AV)到高峰时段的高速公路交通中,以平滑拥堵并减少所有人的燃料消耗。本文详述了如何利用数据驱动的仿真来训练能有效抑制“走走停停”波浪的控制器,并在现实世界中进行了大规模现场测试,成功实现了高达20%的燃油效率提升。
2025-11-21
0
0
0
AI新闻/评测
AI基础/开发
AI行业应用
2025-11-21
使用强化学习平抑自动驾驶汽车(AV)车流,以减少拥堵和燃料消耗
研究人员部署了100辆由强化学习(RL)控制的自动驾驶汽车(AV)到高峰时段的高速公路上,旨在平抑交通拥堵和减少燃料消耗。本文详细介绍了如何使用RL训练交通流平滑控制器,并分享了从仿真到在实际的100车队实验中部署的挑战和成果,展示了仅少数AV就能显著改善整体交通效率。
2025-11-21
0
0
0
AI新闻/评测
AI工具应用
AI行业应用
2025-11-11
关于大语言模型评估指标你需要了解的一切
2025-11-11
0
0
0
AI基础/开发
AI工具应用
2025-11-10
Doppel AI 防御系统在攻击扩散前实现拦截
Doppel 采用基于 GPT-5 和强化微调 (RFT) 技术的新型社会工程防御系统,能自主检测、分类和消除威胁,将分析员工作量削减 80%,并将威胁处理时间从数小时缩短至数分钟。本文深入解析 Doppel 如何利用 LLM 驱动的流程,在网络钓鱼和冒充攻击扩散前快速有效地进行拦截和防御。
2025-11-10
0
0
0
AI新闻/评测
AI工具应用
2025-11-10
使用强化学习控制自动驾驶汽车平滑高速公路拥堵
研究人员部署了100辆由强化学习(RL)控制的自动驾驶汽车(AV)到高峰时段的高速公路交通中,旨在平滑拥堵和减少所有人的燃料消耗。本文详细介绍了如何利用RL训练交通流平滑控制器,并通过MegaVanderTest现场试验,展示了即使只有少数AV也能显著提高整体交通效率和燃油经济性的潜力。
2025-11-10
0
0
0
AI新闻/评测
AI工具应用
AI行业应用
2025-11-06
认识使用人工智能和工人团队训练机器人的中国初创公司 AgiBot
总部位于上海的人形机器人公司 AgiBot 正在利用人工智能驱动的双臂机器人在生产线上学习制造任务。通过结合远程操作和强化学习,AgiBot 旨在革新中国的物理劳动,使机器具备复杂操作能力,从而提高生产力并应对劳动力结构的变化。
2025-11-06
0
0
0
AI新闻/评测
AI工具应用
AI行业应用
2025-11-02
机器学习从业者微调语言模型的实践指南
本指南专为希望获得实际成果的机器学习从业者设计,深入探讨了微调大型语言模型(LLM)的实用决策框架、工具和方法。文章强调,微调应作为最后选择,优先使用提示工程和检索增强生成(RAG)。指南详细介绍了LoRA、QLoRA和Spectrum等关键的参数高效微调(PEFT)技术,并解释了如何利用DPO简化模型对齐过程。此外,文章还提供了关于数据准备的最佳实践,如高质量数据的五个特征,以及如何通过早期停止、正则化和混合指令集来有效避免过拟合和灾难性遗忘等常见陷阱,助力工程师高效部署专业化AI应用。
2025-11-02
1
0
0
AI基础/开发
AI工具应用
2025-10-29
通过故事集为语言模型构建虚拟角色:Anthology 介绍
伯克利BAIR团队推出Anthology方法,通过生成和利用具有丰富细节的自然生活故事来调校大型语言模型(LLMs),使其能形成具有代表性、一致性和多样性的虚拟角色。该研究旨在通过模拟个体人类样本,提升LLMs在用户研究和社会科学中的应用潜力,尤其在公众意见调查中表现出更精准的拟合效果。
2025-10-29
0
0
0
AI新闻/评测
AI工具应用
2025-10-21
使用强化学习训练扩散模型
研究人员部署了100辆由强化学习(RL)控制的汽车进入高峰时段的高速公路交通,以期平滑拥堵并减少所有人的燃料消耗。本文详细介绍了如何利用RL代理在快速、数据驱动的模拟中学习,以最大化能源效率并保持吞吐量。研究结果显示,即使只有少量受控自动驾驶汽车(AV),也能显著改善交通流量和燃油效率。
2025-10-21
1
0
0
AI新闻/评测
AI工具应用
AI基础/开发