目 录CONTENT

文章目录

数据预处理大比拼:MinMax、Standard 和 Robust Scaler 哪种缩放器更适合处理偏态数据?

青云TOP
2025-10-09 / 0 评论 / 0 点赞 / 0 阅读 / 0 字

📢 转载信息

原文链接:https://machinelearningmastery.com/minmax-vs-standard-vs-robust-scaler-which-one-wins-for-skewed-data/

原文作者:Jason Brownlee


揭秘数据预处理:偏态数据下的三种缩放器对决

在机器学习中,特征缩放(Feature Scaling)是至关重要的一步,尤其是在处理偏态(Skewed)数据时。不同的缩放方法会以不同的方式影响数据的分布和模型的性能。

本文将深入探讨三种常用的缩放器:MinMaxScalerStandardScalerRobustScaler,并对比它们在处理明显偏态数据集时的表现。

我们将通过一个简单的实验来验证:哪种缩放器能产生最“正常”的分布,从而可能带来更好的模型性能。

为什么偏态数据需要特殊处理?

许多机器学习算法,特别是那些基于距离或梯度下降的算法(如 K 均值、支持向量机、神经网络),在特征呈正态分布时效果最佳。

当数据严重偏态时,少数极端值(异常值)可能会主导缩放过程,导致大多数数据点被压缩在一个非常小的范围内,从而影响模型训练的效率和准确性。

三种缩放器的工作原理

理解它们的工作原理是做出正确选择的关键:

1. MinMaxScaler (最小-最大缩放器)

MinMaxScaler 将数据线性地变换到指定的范围内,通常是 [0, 1]。

公式:$X_{scaled} = \frac{X - X_{min}}{X_{max} - X_{min}}$

缺点: 对异常值非常敏感。如果数据集中存在异常值,这些异常值会决定缩放的最大值和最小值,从而极大地压缩了非异常值数据的范围。

2. StandardScaler (标准缩放器)

StandardScaler 使得数据的均值为 0,标准差为 1(即 Z-Score 标准化)。

公式:$X_{scaled} = \frac{X - \mu}{\sigma}$

缺点: 与 MinMaxScaler 类似,它基于均值和标准差计算,因此对异常值非常敏感。异常值会拉高均值或增大标准差,从而扭曲整体分布。

3. RobustScaler (鲁棒缩放器)

RobustScaler 旨在通过使用对异常值不敏感的统计量来缩放数据。它使用中位数(Median)和四分位距(IQR)。

公式:$X_{scaled} = \frac{X - Median}{IQR}$

优点: 它通过剔除最大值和最小值的影响(基于 IQR),使缩放过程对异常值具有很强的鲁棒性。这使得它成为处理偏态或含有大量异常值数据的首选。

MinMaxScaler, StandardScaler, 和 RobustScaler 在处理偏态数据时的效果对比图
MinMaxScaler, StandardScaler, 和 RobustScaler 在处理偏态数据时的效果对比图。

实验设置:使用偏态数据

为了进行公平的比较,我们需要一个已知是偏态的合成数据集。我们使用 make_blobs 生成数据,然后故意引入一个大的异常值,使数据呈现右偏态。

1. 生成基准偏态数据

我们生成一个具有明显右偏态特征的数据集。

2. 应用三种缩放器

我们对同一份偏态数据集分别应用 MinMaxScaler、StandardScaler 和 RobustScaler。

3. 结果可视化

绘制每个缩放器处理后的数据的直方图(Histogram)和 Q-Q 图(Quantile-Quantile Plot)。Q-Q 图是判断数据是否近似正态分布的黄金标准。

实验结果分析

观察实验结果,可以得出以下关键发现:

  • MinMaxScaler: 由于异常值的存在,MinMaxScaler 的输出分布被极大地拉伸,**最不像正态分布**。大部分数据集中在 0 到 0.2 之间,而异常值被推到了 1.0 附近。
  • StandardScaler: StandardScaler 试图将数据集中在 0 附近,但由于异常值的影响,其分布仍然是高度偏斜的,**标准差很大**,看起来比原始数据稍微好一点,但仍然不理想。
  • RobustScaler: RobustScaler 的表现最为出色。它有效地处理了异常值的影响,使得**缩放后的数据点最接近一条直线**(Q-Q 图显示),表明其分布最接近正态分布。
三种缩放器处理后数据的Q-Q图对比
不同缩放器处理后数据的 Q-Q 图对比:RobustScaler 的点最贴近对角线。

结论:应对偏态数据,RobustScaler 胜出

对于含有明显异常值或本身就严重偏态的数据集,使用 **RobustScaler** 进行特征缩放是最佳选择。

它的优势在于:

  1. 它使用中位数和 IQR,对极端值具有天然的抵抗力。
  2. 它能使数据分布更接近正态分布,从而更好地满足依赖正态性假设的算法要求。

什么时候使用其他缩放器?

  • StandardScaler: 当数据本身近似正态分布,或者当算法(如线性回归、逻辑回归)对异常值不那么敏感,并且你需要一个标准化的(均值为0,方差为1)结果时。
  • MinMaxScaler: 当你的算法要求输入数据必须在特定范围内(例如,某些神经网络的激活函数),并且你确信数据中没有或只有很少的异常值时。

总而言之,面对偏态数据带来的挑战,RobustScaler 提供的鲁棒性使其成为数据预处理工具箱中最可靠的选择之一。




🚀 想要体验更好更全面的AI调用?

欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。

青云聚合API官网https://api.qingyuntop.top

支持全球最新300+模型:https://api.qingyuntop.top/pricing

详细的调用教程及文档:https://api.qingyuntop.top/about

0

评论区