杀死机器学习项目的5个关键特征工程错误-青云TOP-AI综合资源站平台|青云聚合API大模型调用平台|全网AI资源导航平台

📢 转载信息

原文链接：https://www.kdnuggets.com/5-critical-feature-engineering-mistakes-that-kill-machine-learning-projects

原文作者：Rachel Kuznetsov

5 Critical Feature Engineering Mistakes That Kill Machine Learning Projects

Image by Editor

# 引言

特征工程是机器学习中默默无闻的英雄，同时也是最常见的反派。当团队纠结于使用XGBoost还是神经网络时，输入这些模型的特征却悄悄决定了项目的生死。残酷的真相是？大多数机器学习项目失败，不是因为算法不好，而是因为特征不好。

本文涵盖的五个错误是无数次部署失败、数月开发时间浪费以及“在Jupyter Notebook中运行良好”的综合症的罪魁祸首。每一个错误都是可以预防的，每一个错误都是可以修复的。理解它们会将特征工程从一场猜测游戏，转变为一个系统性的学科，从而产生值得部署的模型。

# 1. 数据泄露与时间完整性：沉默的模型杀手

// 问题所在

数据泄露是特征工程中最具破坏性的错误。它制造了一种成功的假象，显示出卓越的验证准确率，但在生产环境中保证完全失败，因为性能通常会骤降至随机水平。当训练周期之外的信息，或在预测时无法获得的信息影响特征时，就会发生泄露。

// 表现形式

→ 未来信息泄露

预测客户流失时，使用了包括未来信息在内的完整交易历史。
使用诊断后医疗检查来预测诊断本身。
在历史数据上训练，但使用未来的统计数据进行归一化。

→ 预分割污染

在整个数据集上拟合缩放器（scalers）、编码器（encoders）或插补器（imputers），然后才进行训练/测试分割。
计算跨越训练集和测试集的聚合统计数据。
允许测试集统计数据影响训练过程。

→ 目标泄露

在没有交叉验证的情况下计算目标编码（target encodings）。
创建了作为目标变量完美代理的特征。
使用目标变量来创建“具有预测性”的特征。

// 实际案例

一个欺诈检测模型在开发中取得了卓越的准确率，因为它包含了“交易撤销（transaction_reversal）”作为特征。问题在于，撤销操作只在欺诈被确认后才会发生。在生产环境中，这个特征在预测时不存在，准确率下降到仅比抛硬币好一点。

// 解决方案

→ 防止时间泄露
总是先分割数据，再进行特征工程。在特征创建过程中，绝不要接触测试集。

# Preventing test set leakage from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler # NOT PREFERRED: Test set leakage scaler = StandardScaler() # This uses test set statistics which is a form of leakage scaler.fit(X_full) X_train_leak, X_test_leak, y_train_leak, y_test_leak = train_test_split(X_scaled, y) # PREFERRED: No leakage X_train, X_test, y_train, y_test = train_test_split(X, y) scaler = StandardScaler() scaler.fit(X_train) # Only training data X_train_scaled = scaler.transform(X_train) X_test_scaled = scaler.transform(X_test)

→ 使用基于时间的验证
对于时间序列数据，随机分割是不合适的。基于时间（顺序）的分割才能尊重时间上的先后顺序。

# Time-based validation from sklearn.model_selection import TimeSeriesSplit tscv = TimeSeriesSplit(n_splits=5) for train_idx, test_idx in tscv.split(X): X_train, X_test = X.iloc[train_idx], X.iloc[test_idx] y_train, y_test = y.iloc[train_idx], y.iloc[test_idx] # Engineer features using only X_train # Validate on X_test

# 2. 维度陷阱：多重共线性和冗余

// 问题所在

创建相关、冗余或不相关的特征会导致过拟合，模型会记住训练数据中的噪声而不是学习真实的模式。这会产生令人印象深刻的验证分数，但在生产中却会完全崩溃。维度灾难意味着，当特征数量相对于样本数量增加时，模型需要指数级增加的数据量才能保持性能。

// 表现形式

→ 多重共线性和冗余

同时包含年龄（age）和出生年份（birth_year）。
添加原始特征及其聚合（对相同数据的求和、平均值、最大值）。
创建同一底层信息的多种表示形式。

→ 高基数编码灾难

对邮政编码进行独热编码（One-hot encoding），创建数以万计的稀疏列。
对用户ID、产品SKU或其他唯一标识符进行编码。
创建的列数多于训练样本数。

// 实际案例

一个客户流失模型包含了高度相关的特征和高基数编码，导致总共超过800个特征。在只有5,000个训练样本的情况下，该模型取得了令人信服的验证准确率，但在生产中表现不佳。在系统地修剪到30个经验证的特征后，生产准确率显著提高，训练时间急剧下降，并且模型变得足够可解释，可以指导业务决策。

// 解决方案

→ 保持健康的维度比例
样本与特征的比例是防御过拟合的第一道防线。推荐的最小比例是 10:1，即每增加一个特征对应十个训练样本。对于稳定、可泛化的模型，20:1或更高的比例是更理想的选择。

→ 验证每个特征的贡献
最终模型中的每个特征都应该凭实力占据一席之地。通过暂时移除每个特征并衡量对交叉验证分数的影响，可以揭示冗余或有害的特征。

# Test each feature's actual contribution from sklearn.model_selection import cross_val_score # Establish a baseline with all features baseline_score = cross_val_score(model, X_train, y_train, cv=5).mean() for feature in X_train.columns: X_temp = X_train.drop(columns=[feature]) score = cross_val_score(model, X_temp, y_train, cv=5).mean() # If the score doesn't drop significantly (or improves), the feature might be noise if score >= baseline_score - 0.01: print(f"Consider removing: {feature}")

→ 使用学习曲线诊断问题
学习曲线揭示了模型是否正遭受高维度的困扰。训练准确率（高）和验证准确率（低）之间存在持续的巨大差距，这预示着过拟合。

# Learning curves to diagnose problems from sklearn.model_selection import learning_curve import numpy as np train_sizes, train_scores, val_scores = learning_curve( model, X_train, y_train, cv=5, train_sizes=np.linspace(0.1, 1.0, 10) ) # Large gap between curves = overfitting (reduce features) # Both curves low and converged = underfitting

# 3. 目标编码陷阱：当特征秘密包含答案时

// 问题所在

目标编码通过使用目标变量的统计数据（如每个类别的目标平均值）来替换类别值。如果操作得当，它非常强大。如果操作不当，它会创建将目标信息直接泄露到训练数据中的特征，产生在生产中会完全崩溃的惊人验证指标。模型没有学习到模式；它只是记住了答案。

// 表现形式

朴素目标编码：使用整个训练集计算类别平均值，然后用相同的数据进行训练。在没有任何正则化或平滑的情况下应用目标统计数据。
验证污染：在训练-验证分割之前拟合目标编码器。使用包含验证集或测试集行的全局目标统计数据。
稀有类别灾难：对只有一两个样本的类别使用其确切的目标值进行编码。未对低频类别进行全局平均值平滑。

// 解决方案

→ 使用“样本外”（Out-of-Fold）编码
基本规则很简单：绝不能让某一行数据看到从它自身计算出的目标统计数据。最稳健的方法是k折编码，即将训练数据分成多个折（folds），并且仅使用其他折计算出的统计数据对每个折进行编码。

→ 对稀有类别应用平滑
小样本量会产生不可靠的统计数据。平滑是将特定类别的平均值与全局平均值混合，权重由样本大小决定。一个常见的公式是：

\[ \text{平滑后} = \frac{n \times \text{类别平均值} + m \times \text{全局平均值}}{n + m} \]

其中 \( n \) 是类别计数，\( m \) 是平滑参数。

# Safe target encoding with cross-validation from sklearn.model_selection import KFold import numpy as np def safe_target_encode(X, y, column, n_splits=5, min_samples=10): X_encoded = X.copy() global_mean = y.mean() kfold = KFold(n_splits=n_splits, shuffle=True, random_state=42) # Initialize the new column X_encoded[f'{column}_enc'] = np.nan for train_idx, val_idx in kfold.split(X): fold_train = X.iloc[train_idx] fold_y_train = y.iloc[train_idx] # Calculate stats on training fold only stats = fold_train.groupby(column)[y.name].agg(['mean', 'count']) stats.columns = ['mean', 'count'] # Rename for clarity # Apply smoothing smoothing = stats['count'] / (stats['count'] + min_samples) stats['smoothed'] = smoothing * stats['mean'] + (1 - smoothing) * global_mean # Map to validation fold X_encoded.loc[val_idx, f'{column}_enc'] = X.iloc[val_idx][column].map(stats['smoothed']) # Fill missing values (unseen categories) with global mean X_encoded[f'{column}_enc'] = X_encoded[f'{column}_enc'].fillna(global_mean) return X_encoded

→ 验证编码的安全性
编码后，检查编码特征与目标之间的相关性，有助于识别潜在的泄露。合法的目标编码通常显示 0.1 到 0.5 之间的相关性。高于 0.8 的相关性是危险信号。

# Check encoding safety import numpy as np def check_encoding_safety(encoded_feature, target): correlation = np.corrcoef(encoded_feature, target)[0, 1] if abs(correlation) > 0.8: print(f"DANGER: Correlation {correlation:.3f} suggests target leakage") elif abs(correlation) > 0.5: print(f"WARNING: Correlation {correlation:.3f} is high") else: print(f"OK: Correlation {correlation:.3f} appears reasonable")

# 4. 异常值管理不当：摧毁模型的那些数据点

// 问题所在

异常值是显著偏离其余数据的极端值。对它们处理不当——无论是盲目移除、朴素地封顶（capping），还是完全忽略——都会破坏模型对现实的理解。关键的错误在于将异常值处理视为一个机械步骤，而不是一个需要理解异常值存在原因的、基于领域知识的决策。

// 表现形式

盲目移除：在没有调查的情况下，删除所有超过 1.5 IQR 的点。在未考虑底层分布的情况下，使用 Z 分数阈值。
朴素封顶：在任意百分位数上对所有特征进行温莎化处理（Winsorizing）。封顶那些代表合法稀有事件的值。
完全无视：在存在极端值（这些值扭曲了学习到的关系）的原始数据上进行训练。让数据录入错误渗透到整个流程中。

// 实际案例

一家保险公司的定价模型删除了所有高于第99百分位数的索赔作为“异常值”，但没有进行调查。这恰恰消除了模型需要正确定价的合法灾难性索赔。该模型在处理平均索赔时表现出色，但在处理高风险客户的保单时表现灾难性。那些“异常值”并非错误；它们是整个数据集中最重要的观测值。

// 解决方案

→ 行动前进行调查
在不了解异常值来源的情况下，切勿移除或转换它们。问对问题至关重要：这些是数据输入错误吗？这些是合法的稀有事件吗？它们是否来自不同的人群？

# Investigate outliers before acting import numpy as np def investigate_outliers(df, column, threshold=3): mean, std = df[column].mean(), df[column].std() outliers = df[np.abs((df[column] - mean) / std) > threshold] print(f"Found {len(outliers)} outliers") print(f"Outlier summary: {outliers[column].describe()}") return outliers

→ 创建异常值指示器而非移除
将异常值信息保留为特征而不是移除，可以在缓解失真的同时保留有价值的信号。

# Create outlier features instead of removing import numpy as np def create_outlier_features(df, columns, threshold=3): df_result = df.copy() for col in columns: mean, std = df[col].mean(), df[col].std() z_scores = np.abs((df[col] - mean) / std) # Flag outliers as a feature df_result[f'{col}_is_outlier'] = (z_scores > threshold).astype(int) # Create capped version while keeping original lower, upper = df[col].quantile(0.01), df[col].quantile(0.99) df_result[f'{col}_capped'] = df[col].clip(lower, upper) return df_result

→ 使用鲁棒方法而非移除
鲁棒缩放使用中位数和 IQR 而非均值和标准差。基于树的模型对异常值具有天然的鲁棒性。

# Robust methods instead of removal from sklearn.preprocessing import RobustScaler from sklearn.linear_model import HuberRegressor from sklearn.ensemble import RandomForestRegressor # Robust scaling: Uses median and IQR instead of mean and std robust_scaler = RobustScaler() X_scaled = robust_scaler.fit_transform(X) # Robust regression: Downweights outliers huber = HuberRegressor(epsilon=1.35) # Tree-based models: Naturally robust to outliers rf = RandomForestRegressor()

# 5. 模型-特征不匹配和过度工程

// 问题所在

不同的算法在从数据中学习模式方面具有根本不同的能力。一个常见且代价高昂的错误是无论使用哪种模型，都采用相同的特征工程方法。这会导致精力浪费、不必要的复杂性，并通常导致更差的性能。此外，过度工程会产生不必要的复杂特征转换，这些转换不增加预测价值，但会大大增加维护负担。

// 表现形式

对树模型的过度工程：为随机森林或 XGBoost 创建多项式特征。在树模型可以自动学习交互作用时，手动编码交互作用。
对线性模型的工程不足：将原始特征用于线性/逻辑回归。期望线性模型在没有明确交互项的情况下学习非线性关系。
管道泛滥：链接数十个转换器，而三个就足够了。构建具有数百个配置选项的“灵活”系统，但这些选项没有人能理解。

// 模型能力矩阵

模型类型	非线性?	交互作用?	需要缩放?	缺失值?	特征工程
线性/逻辑	否	否	是	否	高
决策树	是	是	否	是	低
XGBoost/LGBM	是	是	否	是	低
神经网络	是	是	是	否	中等
SVM	核函数	核函数	是	否	中等

// 解决方案

→ 从基线开始
在增加复杂性之前，始终使用最少预处理来确定性能基线。这为衡量额外工程是否有价值提供了一个参考点。

# Start with baselines from sklearn.pipeline import Pipeline from sklearn.preprocessing import StandardScaler from sklearn.model_selection import cross_val_score from sklearn.linear_model import LogisticRegression # Start simple, add complexity only when justified baseline_pipeline = Pipeline([ ('scaler', StandardScaler()), ('model', LogisticRegression()) ]) # Pass the full pipeline to cross_val_score to prevent leakage baseline_score = cross_val_score( baseline_pipeline, X, y, cv=5 ).mean() print(f"Baseline: {baseline_score:.3f}")

→ 衡量复杂性成本
管道中的每一项增加都应该由可衡量的改进来证明。跟踪性能增益和计算成本有助于做出明智的决策。

# Measure complexity cost import time from sklearn.model_selection import cross_val_score def evaluate_pipeline_tradeoff(simple_pipe, complex_pipe, X, y): start = time.time() simple_score = cross_val_score(simple_pipe, X, y, cv=5).mean() simple_time = time.time() - start start = time.time() complex_score = cross_val_score(complex_pipe, X, y, cv=5).mean() complex_time = time.time() - start improvement = complex_score - simple_score time_increase = complex_time / simple_time if simple_time > 0 else 0 print(f"Performance gain: {improvement:.3f}") print(f"Time increase: {time_increase:.1f}x") print(f"Worth it: {improvement > 0.01 and time_increase < 5}")

→ 遵循“三法则”
在实施自定义解决方案之前，验证三种标准方法都已失败，可以防止不必要的复杂性。

# Try standard approaches first (Rule of Three) from sklearn.preprocessing import LabelEncoder, OneHotEncoder from category_encoders import TargetEncoder from sklearn.model_selection import cross_val_score from sklearn.compose import ColumnTransformer from sklearn.pipeline import make_pipeline # Example setup for categorical feature evaluation def evaluate_encoders(X, y, cat_cols, model): strategies = [ ('onehot', OneHotEncoder(handle_unknown='ignore')), ('target', TargetEncoder()), ] for name, encoder in strategies: preprocessor = ColumnTransformer( transformers=[('enc', encoder, cat_cols)], remainder='passthrough' ) pipe = make_pipeline(preprocessor, model) score = cross_val_score(pipe, X, y, cv=5).mean() print(f"{name}: {score:.3f}") # Only build custom solution if ALL standard approaches fail

# 结论

特征工程仍然是机器学习中杠杆率最高的活动，但它也是项目失败最多的地方。本文涵盖的五个关键错误代表了最常见和最致命的陷阱，它们使机器学习项目走向失败。

数据泄露会造成成功的幻觉，这种幻觉在生产中会烟消云散。维度陷阱会导致因冗余和相关特征而产生的过拟合。目标编码陷阱允许特征秘密地包含答案。异常值管理不当要么破坏有价值的信号，要么允许错误腐蚀模型。最后，模型-特征不匹配和过度工程在不必要的复杂性上浪费了资源。

掌握这些概念可以极大地提高构建实际运行的模型的几率。关键原则是一致的：在转换数据之前深入了解数据，验证每个特征的贡献，尊重时间边界，使工程努力与模型能力相匹配，并倾向于简单而不是复杂性。遵循这些指导方针可以节省数周的调试时间，并将特征工程从失败的根源转变为竞争优势。

Rachel Kuznetsov拥有商业分析硕士学位，热衷于解决复杂的数据难题并寻找新的挑战。她致力于让复杂的科学概念更容易理解，并正在探索人工智能影响我们生活的各种方式。在持续学习和成长的征程中，她记录下自己的旅程，以便他人可以与她一起学习。您可以在领英（LinkedIn）上找到她。

🚀 想要体验更好更全面的AI调用？

欢迎使用青云聚合API，约为官网价格的十分之一，支持300+全球最新模型，以及全球各种生图生视频模型，无需翻墙高速稳定，文档丰富，小白也可以简单操作。

目录CONTENT

杀死机器学习项目的5个关键特征工程错误

# 引言

# 1. 数据泄露与时间完整性：沉默的模型杀手

// 问题所在

// 表现形式

// 实际案例

// 解决方案

# 2. 维度陷阱：多重共线性和冗余

// 问题所在

// 表现形式

// 实际案例

// 解决方案

# 3. 目标编码陷阱：当特征秘密包含答案时

// 问题所在

// 表现形式

// 解决方案

# 4. 异常值管理不当：摧毁模型的那些数据点

// 问题所在

// 表现形式

// 实际案例

// 解决方案

# 5. 模型-特征不匹配和过度工程

// 问题所在

// 表现形式

// 模型能力矩阵

// 解决方案

# 结论

评论区