1.核心定义与目标

星博讯 AI基础认知 2026-04-09 56

数据归一化 是指将数据按比例缩放，使之落入一个特定的、统一的尺度范围（通常是[0,1]或[-1,1]）的过程。

1.核心定义与目标-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

根本目标：消除数据特征之间因量纲和尺度不同而带来的消极影响，使不同特征具有可比性，从而确保模型能够公平、有效地学习所有特征，加速训练过程，并提升模型性能。

为什么必须归一化？—— 动机与原因

想象一个数据集有两个特征：

如果不归一化,会引发以下问题：

模型偏见：
- 对于像梯度下降为核心的模型（线性回归、逻辑回归、神经网络、SVM等），优化算法会“感知”到尺度大的特征（房屋面积）的微小变化比尺度小的特征（房间数）大得多，模型会过度关注尺度大的特征，而“轻视”尺度小的特征，即使后者可能更重要。
收敛速度慢：
- 梯度下降的路径会非常曲折,因为它需要在不同尺度的特征轴上反复调整步长，导致需要更多迭代才能找到最优解，归一化后，损失函数的轮廓更“圆”，梯度可以更直接地指向最小值，极大加快收敛速度。
距离敏感型模型失真：
- 对于KNN、K-Means、PCA、SVM（RBF核） 等基于距离或相似度计算的模型，房屋面积（差值可达150）对距离计算的影响将完全主导房间数（差值仅为4），这会导致模型结果几乎只由大尺度特征决定，失去意义。
正则化失效：

使用L1/L2正则化时，正则项会对所有特征的权重进行惩罚，如果特征尺度不一，大尺度特征对应的权重自然较小，从而“逃避”了应有的惩罚，导致正则化效果打折扣。

根据数据分布和需求,选择不同的方法：

最小-最大归一化
- 公式： ( X{\text{norm}} = \frac{X - X{\text{min}}}{X{\text{max}} - X{\text{min}}} )
- 效果：将数据映射到 [0, 1] 区间。
- 优点：简单直观，保持原始分布形状。
- 缺点： 对异常值极度敏感，一个极端最大值会使所有其他值都挤在0附近。
- 适用场景：图像处理（像素值0-255）、已知边界的数据、需要严格限定范围时。
Z-Score 标准化
- 公式： ( X_{\text{std}} = \frac{X - \mu}{\sigma} )
- 效果：将数据转换为均值为0，标准差为1的标准正态分布（并非严格，但尺度一致）。
- 优点： 对异常值有一定鲁棒性（因为使用均值和标准差，异常值影响有限）。
- 缺点：新数据的范围不固定，可能超出[-1,1]。
- 适用场景： 最通用的方法，尤其适用于特征分布近似正态、或存在异常值的情况，是许多机器学习算法的默认选择。

当数据不服从正态分布,或存在严重的偏态时使用。

Robust Scaling（稳健缩放）
- 公式：使用中位数和四分位距（IQR） 进行缩放。
- 优点： 对异常值极其鲁棒，完全不受极端值影响。
- 适用场景：数据中含有大量异常值。
分位数转换 / 幂变换
- 将数据映射到一个均匀分布或正态分布，不仅缩放尺度，还改变了数据分布形状。
- 适用场景：需要满足模型对数据分布的假设时（如某些线性模型假设残差正态）。

通常需要归一化/标准化	通常不需要归一化/标准化
基于梯度下降的模型：神经网络、逻辑回归、线性回归、SVM	树形模型及其衍生模型：决策树、随机森林、XGBoost、LightGBM，它们基于特征阈值分裂，对尺度不敏感。
基于距离的模型：KNN、K-Means、DBSCAN、SVM（RBF核）	概率模型：朴素贝叶斯，它处理的是概率而非距离。
需要计算特征协方差/相关的模型：PCA、LDA	模型内建了缩放机制：有些深度学习框架（如批归一化层）或模型（如SVM with scaling）内部会处理。
特征尺度差异巨大时（如“收入” vs “年龄”）	数据本身已在同一尺度（如所有特征都是百分比）

一个简单原则： 如果不确定，先做标准化（Z-Score）通常是一个安全且有益的选择，树模型做了也无害，只是不必要。

数据泄露！
- 黄金法则： 只能从训练集计算归一化参数（如min, max, mean, std），然后用这些参数去转换验证集和测试集。
- 为什么：如果用全数据集（包括测试集）来计算参数，相当于让模型在训练时“窥见”了未来测试集的信息，会得到过于乐观的评估结果，在实际应用中会失效。
归一化 vs. 标准化
- 这两个词常被混用,
  - 归一化 通常指缩放到一个固定范围（如[0,1]）。
  - 标准化 通常指将数据调整为均值为0，方差为1。
- 在实践中,标准化（Z-Score）更常用，因为它对异常值更稳健。
不是万能药
- 归一化解决的是尺度问题,不解决其他数据问题，如缺失值、类别不平衡、特征冗余、非线性关系等。