目 录CONTENT

文章目录

关于特征商店的一切

Administrator
2026-02-18 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://www.kdnuggets.com/all-about-feature-stores

原文作者:Iván Palomares Carrascosa


All About Feature Stores
Image by Editor

 

特征商店简介

 
特征商店(Feature stores)不再是小众的基础设施,而是帮助推动数据管道边界的关键前端,特别是在涉及机器学习和其他人工智能系统的管道中。它们之所以成为今年的一个趋势,主要是由于行业正从实验性的机器学习模型构建转向将可扩展的AI驱动的解决方案、产品和服务投入生产运营的需求。

本文旨在温和地介绍特征商店,描述它们的起源、主要特征、当前重要性的原因以及目前流行的工具。

追溯特征商店的起源与演变

 
“特征商店”一词由Uber于2017年提出,旨在简化他们所称的“数据管道丛林”,并强制执行特征治理和一致性。因此,他们创建了一个集中的存储库,用于在多个机器学习模型和项目中存储、共享和重用特征,同时保持训练数据和生产数据之间的一致性。

不久之后,于2019年,第一家企业级第三方特征商店供应商Tecton成立,由Uber内部特征商店的同一批前工程师创建。他们的目标是将商业特征商店解决方案带给整个企业市场,其产品于2020年发布。与此同期,云原生特征商店解决方案开始在亚马逊AWS谷歌云微软Azure等主要平台中出现。这些通常与各自的机器学习框架紧密集成,这些托管服务至今仍在不断发展和成熟。

但特征商店究竟是什么?它可以被定义为一个集中的平台或系统,其中定义和管理所有与整个机器学习领域(即具有相同总体业务目标的一组模型)或组织相关的数据特征,而不是仅与单个特定数据集相关的特征。在特征商店中,特征是通过声明性方式描述的,指定其业务语义、源数据、转换逻辑、关联的元数据及其用于离线训练和在线模型推理或服务的可用性。

因此,特征商店可以被视为一个(通常面向业务的)领域内特征的单一事实来源。特征重用、确保模型训练和服务之间的一致性,以及为治理、监控和扩展机器学习操作奠定基础,是现代特征商店系统的其他显著特征(如果你愿意,也可以称为“特性”)。

在特征商店中,特征是通过声明性方式描述的,指定其业务语义、源数据、转换逻辑、关联的元数据及其用于离线训练和在线模型推理或服务的可用性。

通过一个示例理解特征商店

 
为了更好地理解与特征商店相关的关键概念和功能,让我们考虑一个电子商务公司构建一套用于欺诈检测的机器学习模型的场景。

该公司的特征商店已在云服务提供商的协助下设计,用于定义和管理跨欺诈检测模型共享的相关特征。这些相关特征包括:过去24小时内启动的用户交易次数、过去一周的平均交易金额、用户在过去一个月内使用的不同支付方式数量,以及自用户上次交易以来经过的时间等。

现在,让我们仔细看看其中一个特征,以便更好地理解特征商店对它的“说明”是什么。考虑示例特征 user_transaction_count_24h

  • 业务语义:此特征描述了给定用户在过去24小时内启动的交易次数。
  • 源数据:该特征来源于transactions表中的数据——这是一个事件类型表,包含user_idtransaction_timestampsstatus列。
  • 转换逻辑:要获取该特征,需要计算按不同user_id分组的、状态为initiated的交易计数,其时间跨度为滚动窗口的24小时。
  • 关联元数据:
    • 所有者:欺诈机器学习团队。
    • 类型:integer
    • 窗口:24h
    • 新鲜度SLA(服务水平协议):5分钟。
  • 可用性:可用于离线训练和在线服务。

重要的是,新鲜度SLA指的是特征值应该多新才被视为对模型有效。这是特征商店的一种机制,有助于确保机器学习模型行为的可靠性和一致性。

 

Example feature specifications in a feature store 特征商店中示例特征规范 | 作者提供图片

 

探索2026年特征商店的热潮与流行工具

 
尽管特征商店不是一个全新的范式,但当前它已成为一个重要的数据科学和AI趋势,原因有多种。以下是其中一些原因:

  • 随着智能体式AI(agentic AI)的兴起,特征商店的价值倍增,因为它们提供了尖端AI智能体执行复杂、多步骤任务所需的高质量、实时数据特征
  • 组织越来越认识到数据基础设施的重要性,而不是孤立地构建机器学习模型。特征商店是帮助他们实现这种转变的粘合剂和基础。
  • 特征商店通过使经过精心策划且可投入生产的特征的重用成为新常态,有助于避免数据工程团队的重复工作。
  • 特征商店符合更严格的新AI法规,特别是在集中化和与透明度标准保持一致性方面。
  • 对于特定于领域的指标和KPI,例如超个性化(在零售等行业),特征商店推动了实时分析的边界。
  • 在成本方面,特征商店有助于管理不断上涨的基础设施成本和效率,从而防止数据处理冗余并减少计算开销。

许多公司利用现代AI应用来利用的最流行的特征商店工具包括:

  1. Feast:一个开源商店,非常适合拥有足够工程资源并希望避免供应商锁定的团队。
  2. Tecton (Databricks):最近被Databricks收购,Tecton是一个完全托管、可扩展的企业级解决方案,非常适合管理复杂的实时数据管道。
  3. Google Cloud Vertex AI Feature Store:其亮点在于与Google BigQuery和尖端生成式AI模型的集成。
  4. Amazon SageMaker Feature Store:与AWS紧密集成,优雅地支持批量和实时模型推理中的特征检索。

总结

 
随着最新的AI进展以及组织跟上持续进步和不断变化的目标与需求,特征商店如今获得了极大的关注。本文旨在提供一个温和的介绍,概述特征商店是什么、它们的特征、演变以及重要的工具。
 
 

Iván Palomares Carrascosa是AI、机器学习、深度学习和LLM领域的领导者、作家、演说家和顾问。他培训并指导他人如何在现实世界中利用AI。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。

0

评论区