目 录CONTENT

文章目录

AI21 Labs的Jamba:小型语言模型的新标杆——30亿参数实现惊人推理能力与25万超长上下文

青云TOP
2025-10-09 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://venturebeat.com/ai/ai21s-jamba-reasoning-3b-redefines-what-small-means-in-llms-250k-context-on

原文作者:Kyle Wiggers


AI21 Labs推出Jamba:重新定义小型语言模型的性能边界

AI21 Labs的最新模型Jamba正在颠覆我们对“小型”语言模型的认知。这款模型在保持相对较小规模的同时,展现出了惊人的推理能力和极长的上下文处理能力。

Jamba模型架构创新:Mamba与Transformer的融合

Jamba基于AI21 Labs与斯坦福大学合作开发的“混合架构”,它巧妙地将Transformer架构与Mamba结构相结合,实现了效率与性能的完美平衡。

“我们认为,通过这种方式,我们可以同时获得Transformer的稳定性和Mamba的效率,”AI21 Labs的首席研究科学家Tal Perry表示。“Jamba在性能上优于同等规模的模型,并且在许多基准测试中甚至超越了更大的模型。”

该模型的参数量仅为30亿,但其性能表现出色,特别是其在推理和长文本理解方面的能力。

超长上下文窗口:25万个Token的处理能力

Jamba最引人注目的特性之一是其25万个Token的上下文窗口,这使其能够处理极其庞大的信息输入。

“我们相信,对于许多实际应用场景来说,25万个Token的上下文窗口是目前最实用的,”Perry解释道。“这足以让模型阅读一整本书,或者处理数小时的会议记录,并在此基础上进行准确的推理。”

在测试中,Jamba在处理长文档和复杂逻辑推理任务时表现出了卓越的准确性。

开源与商业可用性

AI21 Labs宣布,Jamba的30亿参数版本将对社区开放,允许研究人员和开发者在其基础上进行构建和实验。同时,他们也提供了更高性能的商业版本。

“我们致力于推动AI技术的普及,”AI21 Labs联合创始人兼CEO Yoav Shoham说。“通过开源Jamba的核心模型,我们希望激发更多创新,并为社区提供一个强大的工具来开发下一代AI应用。”

模型下载和更详细的性能报告可在Hugging Face上获取。

关键性能指标摘要:

  • 参数量: 3B
  • 架构: 混合Transformer-Mamba
  • 上下文长度: 256k Token(可扩展至250k)
  • 推理能力: 优于同等规模模型,可媲美更大规模模型

Jamba的发布标志着小型化LLM领域的一个重要里程碑,证明了高效架构设计能够带来与庞大模型相媲美的强大功能。

Jamba模型架构示意图


🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型:https://api.qingyuntop.top/pricing

详细的调用教程及文档:https://api.qingyuntop.top/about

0

评论区