📢 转载信息
原文作者:Jason Brownlee
揭秘数据预处理:偏态数据下的三种缩放器对决
在机器学习中,特征缩放(Feature Scaling)是至关重要的一步,尤其是在处理偏态(Skewed)数据时。不同的缩放方法会以不同的方式影响数据的分布和模型的性能。
本文将深入探讨三种常用的缩放器:MinMaxScaler、StandardScaler 和 RobustScaler,并对比它们在处理明显偏态数据集时的表现。
我们将通过一个简单的实验来验证:哪种缩放器能产生最“正常”的分布,从而可能带来更好的模型性能。
为什么偏态数据需要特殊处理?
许多机器学习算法,特别是那些基于距离或梯度下降的算法(如 K 均值、支持向量机、神经网络),在特征呈正态分布时效果最佳。
当数据严重偏态时,少数极端值(异常值)可能会主导缩放过程,导致大多数数据点被压缩在一个非常小的范围内,从而影响模型训练的效率和准确性。
三种缩放器的工作原理
理解它们的工作原理是做出正确选择的关键:
1. MinMaxScaler (最小-最大缩放器)
MinMaxScaler 将数据线性地变换到指定的范围内,通常是 [0, 1]。
公式:$X_{scaled} = \frac{X - X_{min}}{X_{max} - X_{min}}$
缺点: 对异常值非常敏感。如果数据集中存在异常值,这些异常值会决定缩放的最大值和最小值,从而极大地压缩了非异常值数据的范围。
2. StandardScaler (标准缩放器)
StandardScaler 使得数据的均值为 0,标准差为 1(即 Z-Score 标准化)。
公式:$X_{scaled} = \frac{X - \mu}{\sigma}$
缺点: 与 MinMaxScaler 类似,它基于均值和标准差计算,因此对异常值非常敏感。异常值会拉高均值或增大标准差,从而扭曲整体分布。
3. RobustScaler (鲁棒缩放器)
RobustScaler 旨在通过使用对异常值不敏感的统计量来缩放数据。它使用中位数(Median)和四分位距(IQR)。
公式:$X_{scaled} = \frac{X - Median}{IQR}$
优点: 它通过剔除最大值和最小值的影响(基于 IQR),使缩放过程对异常值具有很强的鲁棒性。这使得它成为处理偏态或含有大量异常值数据的首选。

实验设置:使用偏态数据
为了进行公平的比较,我们需要一个已知是偏态的合成数据集。我们使用 make_blobs 生成数据,然后故意引入一个大的异常值,使数据呈现右偏态。
1. 生成基准偏态数据
我们生成一个具有明显右偏态特征的数据集。
2. 应用三种缩放器
我们对同一份偏态数据集分别应用 MinMaxScaler、StandardScaler 和 RobustScaler。
3. 结果可视化
绘制每个缩放器处理后的数据的直方图(Histogram)和 Q-Q 图(Quantile-Quantile Plot)。Q-Q 图是判断数据是否近似正态分布的黄金标准。
实验结果分析
观察实验结果,可以得出以下关键发现:
- MinMaxScaler: 由于异常值的存在,MinMaxScaler 的输出分布被极大地拉伸,**最不像正态分布**。大部分数据集中在 0 到 0.2 之间,而异常值被推到了 1.0 附近。
- StandardScaler: StandardScaler 试图将数据集中在 0 附近,但由于异常值的影响,其分布仍然是高度偏斜的,**标准差很大**,看起来比原始数据稍微好一点,但仍然不理想。
- RobustScaler: RobustScaler 的表现最为出色。它有效地处理了异常值的影响,使得**缩放后的数据点最接近一条直线**(Q-Q 图显示),表明其分布最接近正态分布。

结论:应对偏态数据,RobustScaler 胜出
对于含有明显异常值或本身就严重偏态的数据集,使用 **RobustScaler** 进行特征缩放是最佳选择。
它的优势在于:
- 它使用中位数和 IQR,对极端值具有天然的抵抗力。
- 它能使数据分布更接近正态分布,从而更好地满足依赖正态性假设的算法要求。
什么时候使用其他缩放器?
- StandardScaler: 当数据本身近似正态分布,或者当算法(如线性回归、逻辑回归)对异常值不那么敏感,并且你需要一个标准化的(均值为0,方差为1)结果时。
- MinMaxScaler: 当你的算法要求输入数据必须在特定范围内(例如,某些神经网络的激活函数),并且你确信数据中没有或只有很少的异常值时。
总而言之,面对偏态数据带来的挑战,RobustScaler 提供的鲁棒性使其成为数据预处理工具箱中最可靠的选择之一。
🚀 想要体验更好更全面的AI调用?
欢迎使用青云聚合API,约为官网价格的十分之一,支持300+全球最新模型,以及全球各种生图生视频模型,无需翻墙高速稳定,小白也可以简单操作。
青云聚合API官网https://api.qingyuntop.top
支持全球最新300+模型:https://api.qingyuntop.top/pricing
详细的调用教程及文档:https://api.qingyuntop.top/about
评论区