📢 转载信息
原文作者:Jagmeet Singh
印度AI实验室Sarvam于周二发布了新一代大型语言模型,它押注于更小、更高效的开源AI模型将能够从其规模更大、更昂贵的美国和中国竞争对手那里夺取部分市场份额。
此次发布是在新德里举行的印度AI影响峰会上宣布的,这与新德里为减少对外国AI平台的依赖并根据本地语言和用例定制模型而做出的努力相一致。
Sarvam表示,新的产品系列包括300亿和1050亿参数的模型;一个文本到语音模型;一个语音到文本模型;以及一个用于解析文档的视觉模型。这标志着公司自2024年10月发布20亿参数的Sarvam 1模型以来的大幅升级。
Sarvam表示,300亿和1050亿参数的模型采用了混合专家架构(mixture-of-experts architecture),该架构一次只激活其总参数的一小部分,从而显著降低了计算成本。300亿参数的模型支持32,000个token的上下文窗口,旨在实现实时对话应用,而较大的模型则提供128,000个token的窗口,用于更复杂的多步骤推理任务。
Sarvam表示,这些新的AI模型是从头开始训练的,而不是基于现有开源系统进行微调的。它提到,300亿参数的模型是在大约16万亿个token的文本上预训练的,而1050亿参数的模型则是在跨多种印度语言的数万亿个token上进行训练的。
这家初创公司表示,这些模型旨在支持实时应用,包括印度语言的语音助手和聊天系统。
这家初创公司表示,这些模型是使用印度政府支持的IndiaAI Mission提供的计算资源训练的,并获得了数据中心运营商Yotta的基础设施支持和英伟达(Nvidia)的技术支持。
Sarvam的高管表示,公司计划采取审慎的态度来扩展其模型,重点关注实际应用而非原始规模。
Sarvam联合创始人Pratyush Kumar在发布会上表示:”我们希望在扩展规模时保持审慎的态度。我们不想盲目地扩展。我们希望了解在规模化应用中真正重要的任务,并为之构建。”
Sarvam表示计划开源300亿和1050亿参数的模型,但没有明确说明训练数据或完整的训练代码是否也会公开。
该公司还概述了构建专业AI系统的计划,包括代码导向的模型以及在其名为Sarvam for Work的产品下的企业工具,以及一个名为Samvaad的对话式AI代理平台。
Sarvam成立于2023年,已筹集了超过5000万美元的资金,其投资者包括Lightspeed Venture Partners、Khosla Ventures和Peak XV Partners(前身为红杉资本印度分部)。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区