0
主成分分析
主成分分析算法有多种版本,但是大多数会选择最大方差的第一个主成分。但是仅当每种度量单位之间的差异同等重要时,这样做才有意义。即使度量单位相同,也可能不正确。如果度量单位是不同的,例如以英寸和美元为单位,巧合的是,一英寸与一美元可能会同等重要。
拓展数据
有些算法在将每个度量除以标准偏差(或其他缩放因子)后自动将其标准化,然后再将其放入PCA算法中(某些PCA算法具有内置的缩放功能,可以执行相同的操作)。尽管这比仅输入原始数据要少一些随意性,但也不一定是正确的。 例如,下图显示了不同学院的录取学生的高中GPA的中位数与GPA的中位数。这就是我们通常可以绘制数据图的方式。从比例表中可以看出,0.5 GPA与SAT的100点相同。PCA将选择通过这些点的线的最宽角度,该角度大约为45度,这使得这两个度量同样重要。 但是,如果不按比例对PCA算法使用相同数据就会出现以下情况。在此图中,X和Y轴都从0到1600;表示所有GPA看上去都与零没有区别。 如果PCA算法将选择中值SAT作为唯一重要的变量。点最宽的角度为0度,就会出现下图这样的情况。 要正确进行此分析,就必须考虑1点GPA与1点SAT的相对含义。通过数据中的标准偏差来缩放每个坐标是合理的,这类似于是第一张图的做法,但事实并非如此。在进行处理之前,我们必须考虑想知道的事情。如果要对大学进行分类,则权重可能会与对学生进行分类的权重不同。
收藏