📢 转载信息
原文链接:https://machinelearningmastery.com/7-advanced-feature-engineering-tricks-using-llm-embeddings/
原文作者:Jason Brownlee
特征工程是机器学习中的关键一步,它涉及将原始数据转换为可用于模型训练的特征。随着大型语言模型(LLMs)的出现,我们现在可以利用这些模型强大的语言理解能力来创建前所未有的丰富特征。
本指南将探讨七种使用LLM嵌入技术进行高级特征工程的技巧。这些技巧超越了基本的TF-IDF或词袋模型,能够捕获文本的深层语义信息。
为什么使用LLM嵌入进行特征工程?
传统的文本特征工程方法,如词袋(Bag-of-Words)或TF-IDF,往往只能捕捉词频信息,忽略了词语和文本的语义和上下文关系。LLM嵌入(例如来自OpenAI的text-embedding-ada-002)将文本映射到高维向量空间中,其中语义相似的文本在空间中彼此靠近。
使用LLM嵌入作为特征,可以为机器学习模型提供更丰富、信息量更大的输入,尤其是在处理复杂或抽象的文本数据时。
七个使用LLM嵌入的高级特征工程技巧
1. 直接使用嵌入向量作为特征
最直接的方法是将LLM生成的一组嵌入向量视为模型的输入特征。如果一个嵌入向量有1536个维度(如text-embedding-ada-002),那么这1536个浮点数就是你的特征集。
优点:简单、快速、保留了模型对文本的全面理解。
2. 计算文本相似度
如果你有一个基准(或“黄金标准”)文本,或者需要衡量两个文本片段之间的关系,可以使用嵌入向量之间的余弦相似度作为特征。余弦相似度衡量了两个向量在方向上的相似性,范围通常在-1到1之间。
例如,你可以计算一个文档与公司使命宣言的相似度,或者计算评论与负面反馈示例的相似度。
3. 生成合成特征(基于距离或角度)
除了直接的相似度分数,还可以基于嵌入向量计算更复杂的特征,例如:
- 与中心点的距离:计算特定类别(如“正面情绪”)所有样本嵌入的平均向量(中心点),然后计算新样本嵌入到该中心点的距离。
- 角度特征:计算嵌入向量与某个特定方向(例如,代表“积极性”的向量)之间的角度。
4. 使用嵌入进行聚类
虽然聚类(如K-Means)通常用于无监督学习,但聚类ID本身可以作为一种强大的分类特征输入到监督学习模型中。
步骤:
- 使用LLM嵌入作为输入。
- 应用聚类算法(如K-Means)来识别潜在的主题或分组。
- 将每个样本的聚类标签(Cluster ID)作为新的分类特征添加到数据集中。
5. 利用嵌入进行降维和可视化
高维嵌入向量(如1536维)可能包含冗余信息,并且难以直接可视化。使用降维技术(如PCA、t-SNE或UMAP)可以将这些嵌入压缩到2D或3D空间。
降维后的坐标(例如,新的2个特征)可以作为额外的特征,帮助模型理解文本的低维结构。
6. 组合不同类型的嵌入
如果你的数据源包含多种类型的文本数据(例如,产品描述、用户评论和技术规格),可以为每种类型生成单独的嵌入向量,然后将它们拼接(Concatenate)起来。
这使模型能够分别学习每种文本类型的特征表示,然后在一个统一的向量中捕获整体信息。
7. 基于嵌入的文本去重或相似性筛选
在构建训练数据集时,确保数据多样性至关重要。可以使用嵌入向量来识别并移除高度相似(冗余)的样本,从而防止模型过度拟合于重复信息。
设置一个相似度阈值(例如,余弦相似度 > 0.98),如果两个样本的嵌入距离过近,则只保留其中一个。
实施考虑
使用LLM嵌入进行特征工程时,需要注意以下几点:
- 计算成本:生成嵌入需要API调用或强大的计算资源,这比计算TF-IDF要昂贵得多。
- 模型选择:嵌入模型的选择会影响特征的质量。
text-embedding-ada-002通常是一个很好的起点,但特定任务可能需要微调的模型。 - 特征缩放:虽然余弦相似度是无尺度的,但如果将原始嵌入向量作为特征输入,进行标准化或归一化通常是推荐的做法。
结论
LLM嵌入为特征工程开辟了强大的新途径。通过将文本的深层语义编码为可操作的向量,我们可以超越传统的稀疏表示,构建出对复杂数据更敏感的机器学习模型。尝试将这些技巧——特别是相似度计算和聚类ID生成——集成到你的工作流中,将为你的文本分析项目带来显著的性能提升。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,文档丰富,小白也可以简单操作。
评论区