首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台
行动起来,活在当下
累计撰写
4195
篇文章
累计创建
1543
个标签
累计收到
0
条评论
栏目
首页
AI内容归档
AI新闻/评测
AI基础/开发
AI工具应用
AI创意设计
AI行业应用
AI行业应用
AI相关教程
CG资源/教程
在线AI工具
全网AI资源导航
青云聚合API
注册送免费额度
300+大模型列表
详细的教程文档
关于青云TOP
目 录
CONTENT
以下是
推理
相关的文章
2025-12-26
使用 BentoML 的 LLM-Optimizer 在 Amazon SageMaker AI 上优化 LLM 推理
本文深入探讨了在 Amazon SageMaker AI 上使用 BentoML 的 LLM-Optimizer 来系统化优化大型语言模型(LLM)推理性能的方法。通过自动化基准测试和参数调优,您可以告别繁琐的手动试错,快速找到满足延迟和吞吐量服务水平协议(SLA)的最佳配置,从而显著提升自托管模型的效率和成本效益。
2025-12-26
0
0
0
AI工具应用
AI基础/开发
AI行业应用
2025-12-10
Amazon SageMaker HyperPod 的托管分层 KV 缓存和智能路由
本文介绍了 Amazon SageMaker HyperPod 中新增的托管分层 KV 缓存和智能路由功能,旨在解决大型语言模型(LLM)推理中因上下文长度增加导致的延迟和成本问题。这些新功能通过优化 KV 缓存管理和请求路由,可将 TTFT 降低高达 40%,并将吞吐量提升高达 24%,显著降低推理成本。
2025-12-10
0
0
0
AI行业应用
AI工具应用
2025-11-28
DeepSeek 发布 DeepSeekMath-V2 模型,主打自验证数学推理能力
DeepSeek近日发布了DeepSeekMath-V2模型,该模型聚焦于提升模型的自验证数学推理能力,旨在解决仅依赖最终答案正确率带来的推理链条不严谨问题。通过引入基于LLM的验证器自动审查证明过程,并利用扩展计算生成高难度训练样本,DeepSeekMath-V2在多项顶级数学竞赛中展现出卓越性能。该模型在IMO 2025和CMO 2024中达到金牌水准,并在Putnam 2024中取得接近满分的成绩,为构建更可靠的数学智能系统奠定了基础。
2025-11-28
0
0
0
AI基础/开发
AI工具应用
2025-11-27
Amazon SageMaker HyperPod 现支持托管分层 KV 缓存和智能路由
为应对长文档和多轮对话带来的LLM推理性能挑战,AWS推出Amazon SageMaker HyperPod的托管分层KV缓存和智能路由功能。这些新特性通过优化注意力缓存管理和请求分发,能将首个Token时间(TTFT)最多降低40%,吞吐量提升,并将成本降低高达25%,显著提升了生产级LLM部署的效率和经济性。
2025-11-27
0
0
0
AI工具应用
AI基础/开发
AI行业应用