目 录CONTENT

文章目录

Amazon Nova 多模态嵌入的实用指南

Administrator
2026-02-06 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://aws.amazon.com/blogs/machine-learning/a-practical-guide-to-amazon-nova-multimodal-embeddings/

原文作者:Yunyi Gao and Sharon Li


嵌入模型是许多现代应用程序的驱动力——从语义搜索和检索增强生成(RAG)到推荐系统和内容理解。然而,选择一个嵌入模型需要仔细考虑——在摄取数据后,迁移到不同的模型意味着需要重新嵌入整个语料库、重建向量索引并从头开始验证搜索质量。正确的嵌入模型应提供强大的基线性能,适应您的特定用例,并支持您现在和未来需要的模态。

Amazon Nova 多模态嵌入 模型可以为您特定的用例生成定制的嵌入——从单模态文本或图像搜索到跨越文档、视频和混合内容的复杂多模态应用。

在本文中,您将学习如何针对您的特定用例使用 Amazon Nova 多模态嵌入:

  • 简化架构 通过跨模态搜索和视觉文档检索
  • 优化性能 通过选择与您的工作负载匹配的嵌入参数
  • 实现常见模式 通过媒体搜索、电子商务发现和智能文档检索的解决方案演练

本指南为配置 Amazon Nova 多模态嵌入以用于媒体资产搜索系统、产品发现体验和文档检索应用程序提供了实用的基础。

多模态业务用例

您可以在多个业务场景中使用 Amazon Nova 多模态嵌入。下表提供了典型的用例和查询示例:

模态 内容类型 用例 典型查询示例
视频检索 短视频搜索 资产库和媒体管理 “孩子们打开圣诞礼物”、“蓝鲸跃出海面”
长视频片段搜索 电影和娱乐、广播媒体、安全监控 “电影中的特定场景”、“新闻中的特定镜头”、“监控中的特定行为”
重复内容识别 媒体内容管理 类似或重复视频识别
图像检索 主题图像搜索 资产库、存储和媒体管理 “红色敞篷车沿着海岸线行驶”
图像参考搜索 电子商务、设计 “与此相似的鞋子” +<image>
反向图像搜索 内容管理 根据上传的图像查找相似内容
文档检索 特定信息页面 金融服务、营销材料、广告手册 文本信息、数据表、图表页面
跨页综合信息 知识检索增强 从多页文本、图表和表格中提取综合信息
文本检索 主题信息检索 知识检索增强 “反应堆退役程序的后续步骤”
文本相似性分析 媒体内容管理 重复标题检测
自动主题聚类 金融、医疗保健 症状分类和总结
上下文关联检索 金融、法律、保险 “公司检查事故违规的最大索赔金额”
音频和语音检索 音频检索 资产库和媒体资产管理 “圣诞音乐铃声”、“自然宁静的声音效果”
长音频片段搜索 播客、会议记录 “播客主持人讨论神经科学和睡眠对大脑健康的影响”

针对特定用例优化性能

Amazon Nova 多模态嵌入模型使用 embeddingPurpose 参数设置针对特定用例优化其性能。它具有不同的向量化策略:检索系统模式ML 任务模式

  • 检索系统模式(包括 GENERIC_INDEX 和各种 *_RETRIEVAL 参数)针对信息检索场景,区分存储/INDEX查询/RETRIEVAL两个非对称阶段。请参阅下表了解检索系统类别和参数选择。
阶段 参数选择 原因
存储阶段(所有类型) GENERIC_INDEX 优化索引和存储
查询阶段(混合模态存储库) GENERIC_RETRIEVAL 在混合内容中搜索
查询阶段(纯文本存储库) TEXT_RETRIEVAL 在纯文本内容中搜索
查询阶段(纯图像存储库) IMAGE_RETRIEVAL 在图像中搜索(照片、插图等)
查询阶段(纯文档图像存储库) DOCUMENT_RETRIEVAL 在文档图像中搜索(扫描件、PDF 截图等)
查询阶段(纯视频存储库) VIDEO_RETRIEVAL 在视频中搜索
查询阶段(纯音频存储库) AUDIO_RETRIEVAL</td> 在音频中搜索
  • ML 任务模式(包括 CLASSIFICATIONCLUSTERING 参数)针对机器学习场景。此参数使模型能够灵活适应不同类型的下游任务需求。
  • CLASSIFICATION:生成的向量更适合区分分类边界,有助于下游分类器训练或直接分类。
  • CLUSTERING:生成的向量更适合形成聚类中心,有助于下游聚类算法。

构建多模态搜索和检索解决方案的演练

Amazon Nova 多模态嵌入专为多模态搜索和检索而构建,这是多模态代理式 RAG 系统的基础。下图展示了如何构建一个多模态搜索和检索解决方案。

RAG solution with Amazon Nova Multimodal Embeddings

在前面的图中所示的多模态搜索和检索解决方案中,原始内容——包括文本、图像、音频和视频——首先通过嵌入模型转换为向量表示,以封装语义特征。随后,这些向量存储在向量数据库中。用户查询也以相同向量空间内的查询向量形式转换。通过计算查询向量与索引向量之间的相似度,实现前 K 个最相关项的检索。这种多模态搜索和检索解决方案可以封装为 模型上下文协议 (MCP) 工具,从而便于在多模态代理式 RAG 解决方案中进行访问,如下所示:

Agentic RAG solution with Amazon Nova Multimodal Embeddings

多模态搜索和检索解决方案可以分为两个独立的数据流:

  1. 数据摄取
  2. 运行时搜索和检索

下表列出了每个数据流中的常见模块,以及相关的工具和技术:

数据流 模块 描述 常用工具和技术
数据摄取 生成嵌入 将输入(文本、图像、音频、视频等)转换为向量表示 嵌入模型。
将嵌入存储在向量存储中 将生成的向量存储在向量数据库或存储结构中,以便后续检索 流行的向量数据库
运行时搜索和检索 相似度检索算法 计算查询向量与索引向量之间的相似度和距离,检索最接近的项目 常见距离:余弦相似度、内积、欧几里得距离数据库对 k-NN 和 ANN 的支持,如 Amazon OpenSearch k-NN
Top K 检索和投票机制 从检索结果中选择最接近的 K 个邻居,然后可能组合多种策略(投票、重新排序、融合) 例如,前 K 个最近邻,关键字检索和向量检索的融合(混合搜索)
集成策略和混合检索 组合多种检索机制或模态结果,例如关键字和向量或文本和图像检索融合 混合搜索(如 Amazon OpenSearch 混合)

我们将探讨几种跨模态业务用例,并概述如何使用 Amazon Nova 多模态嵌入来解决它们。

用例:产品检索和分类

电子商务应用需要能够自动对产品图像进行分类并识别相似物品,而无需手动标记。下图说明了一个高层解决方案:

Product categorization with Amazon Nova Multimodal Embeddings

  1. 使用 Amazon Nova 多模态嵌入将产品图像转换为嵌入
  2. 在向量数据库中存储嵌入和标签作为元数据
  3. 查询新的产品图像并找到最相似的 K 个产品
  4. 使用检索结果上的投票机制来预测类别

关键嵌入参数:

参数 目的
embeddingPurpose GENERIC_INDEX(索引)和 IMAGE_RETRIEVAL(查询) 优化产品图像检索
embeddingDimension 1024 平衡准确性和性能
detailLevel STANDARD_IMAGE 适用于产品照片

用例:智能文档检索

金融分析师、法律团队和研究人员需要快速查找复杂多页文档中的特定信息(表格、图表、条款),而无需手动审查。下图说明了一个高层解决方案:

generate graphic document embeddings with Amazon Nova Multimodal Embeddings

  1. 将每个 PDF 页面转换为高分辨率图像
  2. 为所有文档页面生成嵌入
  3. 将嵌入存储在向量数据库中
  4. 接受自然语言查询并转换为嵌入
  5. 根据语义相似性检索最相关的 K 个页面
  6. 返回包含财务表格、图表或特定内容的页面

关键嵌入参数:

参数 目的
embeddingPurpose GENERIC_INDEX(索引)和 DOCUMENT_RETRIEVAL(查询) 优化文档内容理解
embeddingDimension 3072 针对复杂文档结构提供最高精度
detailLevel DOCUMENT_IMAGE 保留表格、图表和文本布局

在处理缺乏视觉元素的基于文本的文档时,建议提取文本内容并应用分块策略,并使用 GENERIC_INDEX 进行索引和 TEXT_RETRIEVAL 进行查询。

用例:视频片段搜索

媒体应用程序需要高效的方法来使用自然语言描述从大量的视频库中定位特定视频片段。通过将视频和文本查询转换为统一语义空间中的嵌入,可以使用相似性匹配来检索相关的视频片段。下图说明了一个高层解决方案:

Video clip search with Amazon Nova Multimodal Embeddings

  1. 使用 invoke_model API 为短视频或使用 start_async_invoke API 为长视频(带分段)生成嵌入
  2. 将嵌入存储在向量数据库中
  3. 接受自然语言查询并转换为嵌入
  4. 从向量数据库中检索最相关的 K 个视频片段以供审查或进一步编辑

关键嵌入参数:

参数 目的
EmbeddingPurpose GENERIC_INDEX(索引)和 VIDEO_RETRIEVAL(查询) 优化视频索引和检索
embeddingDimension 1024 平衡精度和成本
embeddingMode AUDIO_VIDEO_COMBINED 融合视觉和音频内容。

用例:音频指纹识别

音乐应用和版权管理系统需要识别重复或相似的音频内容,并将音频片段与源音轨进行匹配,以进行版权检测和内容识别。下图说明了一个高层解决方案:

Audio fingerprinting with Amazon Nova Multimodal Embeddings

  1. 使用 Amazon Nova 多模态嵌入将音频文件转换为嵌入
  2. 将嵌入与流派和其他元数据一起存储在向量数据库中
  3. 使用音频片段进行查询,找到最相似的 K 个音轨
  4. 比较相似度得分以识别源匹配和检测重复项

关键嵌入参数:

参数 目的
embeddingPurpose GENERIC_INDEX(索引)和 AUDIO_RETRIEVAL(查询) 优化音频指纹识别和匹配
embeddingDimension 1024 平衡音频相似性的准确性和性能

结论

您可以使用 Amazon Nova 多模态嵌入在一个统一的语义空间中处理各种数据类型。通过支持文本、图像、文档、视频和音频,并提供灵活的、针对特定目的优化的嵌入 API 参数,您可以构建更有效的检索系统、分类管道和语义搜索应用程序。无论您是实现跨模态搜索、文档智能还是产品分类,Amazon Nova 多模态嵌入都为您提供了从非结构化数据中大规模提取见解的基础。立即开始探索 Amazon Nova 多模态嵌入:代理式 RAG 和语义搜索的尖端嵌入模型GitHub 示例,将 Amazon Nova 多模态嵌入集成到您的应用程序中。


关于作者

Yunyi Gao 是亚马逊云计算(AWS)的生成式 AI 专家解决方案架构师,负责咨询 AWS AI/ML 和 GenAI 解决方案和架构的设计。

Sharon Li 是亚马逊云计算(AWS)的 AI/ML 专家解决方案架构师,驻扎在马萨诸塞州波士顿。Sharon 热衷于利用尖端技术,走在开发和部署 AWS 云平台上创新生成式 AI 解决方案的前沿。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区