区别
对于最为普遍的的定义,它们是不同的。标准化是去除均值并按标准差缩放数据,而规范化通常是指将数据缩放为[0,1]。但是请注意,标准化有不同的定义。PCA目的是使方差最大化并缩放数据,从而以不同方式改变PCA向量的方向。 例如,对于以下多元高斯分布,相对于数据的标准偏差(左侧)缩放数据,按比例缩放(右侧)缩放数据会给出不同的PCA向量。一种极端的情况是,当两个不相关的变量具有相同的标准偏差时(即在标准化之后),PCA向量纯粹是由噪声驱动的,并且会产生误导作用(如左侧的箭头)。
何时使用
我尚未在PCA中遇到标准化问题。问题之一是归一化会在某些情况下歪曲分布并模糊变量的物理含义。如果随机变量之一存在异常。例如,在上述情况下x2的最大值为5,则归一化期间的缩放比例将使x2大量偏斜-导致归一化后的PCA向量不同。 应用PCA时,应首先从数据中的每个变量中减去平均值。是否使用标准化取决于数据。例如,如果x1是收入,x2是年龄,我们想评估它们对一个人在黑色星期五上花费的金额的影响。 标准化后,可以将第一个PCA向量解释为它们对人们行为的相对影响。标准化的好处之一是当变量的数量级不同时避免数值精度误差。当两个变量具有相关的物理含义时,最好避免标准化。 有时,我们不应该对数据进行标准化。我对PCA的应用主要是将其等效项应用于流体动力学-适当的正交分解(POD)。这与对速度矢量进行PCA相同,因此,不应该缩放数据,因为它们的比例是由物理定律确定的。这个答案更直观,但在统计上可能并不严格。 在应用标准化和随后对PCA的解释时,应慎重考虑上述效用(标准化变量和数值误差的物理含义)。 转载自:https://www.quora.com/Is-standardization-and-normalization-the-same-in-PCA-When-should-or-should-not-we-normalize-data-in-PCA