📢 转载信息
原文作者:Connie Loizos
OpenAI正在大力押注音频AI,而这不仅仅是为了让ChatGPT听起来更好。据The Information的最新报道,在过去两个月里,该公司整合了多个工程、产品和研究团队,全面改进其音频模型,为预计在大约一年后推出的音频优先的个人设备做准备。
这一举动反映了整个科技行业的发展方向——一个屏幕将成为背景噪音,音频占据中心舞台的未来。智能音箱已经使语音助手成为美国超过三分之一家庭的标配。Meta刚刚为其Ray-Ban智能眼镜推出了一个新功能,该功能利用五麦克风阵列来帮助用户在嘈杂的房间中听清对话——本质上是将用户的脸变成了定向收听设备。与此同时,谷歌自六月份以来一直在试验“音频概览”(Audio Overviews),将搜索结果转化为对话式摘要。特斯拉则将Grok和其他LLM集成到其车辆中,通过自然对话创建可以处理从导航到气候控制等一切事务的对话式语音助手。
下注的不仅仅是科技巨头。涌现出了一批怀有相同信念的初创公司,尽管成功程度不一。Humane AI Pin的制造商在他们无屏幕可穿戴设备成为一个警示故事之前,烧掉了数亿美元。Friend AI吊坠(一款声称可以记录你的生活并提供陪伴的项链)在引发隐私担忧的同时,也激发了同等的存在主义恐慌。现在,至少有两家公司,包括Sandbar和一家由Pebble创始人Eric Migicovsky领导的公司,正在研发预计于2026年推出的AI戒指,让佩戴者可以名副其实地“对你的手说话”。
形式因素可能各不相同,但其核心理念是相同的:音频是未来的界面。每一个空间——你的家、你的车,甚至是你的脸——都正在成为一个控制界面。
OpenAI新的音频模型定于2026年初发布,据报道它听起来会更自然,能像真正的对话伙伴一样处理打断,甚至在你说话时也能插话,这是当今模型无法做到的。该公司还设想了一系列设备,可能包括眼镜或无屏幕智能音箱,它们更像伴侣而不是工具。
这一切都不算太令人意外。《The Information》指出,前苹果设计主管Jony Ive通过该公司在五月对其公司io进行的65亿美元收购加入了OpenAI的硬件工作,他将减少设备成瘾作为优先事项,认为音频优先的设计是“纠正”过去消费电子产品“错误”的机会。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区