1
数据规范化
数据规范化又称标准化(standardization),通过将属性的取值范围进行统一,避免不同的属性在数据分析的过程中具有不平等的地位.
最小-最大法
假设需要映射到目标区间为[L,R]。原来的取值范围 为[l, r],则根据等比例映射的原理,一个值x映射到新区间后的值v的计算方法如下 例如,对于描述客户的属性“年收入(万元)”, 如果原来的取值范围为[3,200],新的取值范围为[0,1],则若某客户的年收入为60万元,规范化后为(60-3)/(200-3)=0.29
z-score
z-score,又称零均值规范化(zero-mean normalization)。给定一个属性A,设其取值的均值为μa,标准差为σa,A的某个取值x规范化后的值v 计算如下: 均值为μa和标准差为σa通过已有样本的属性值进行计算。规范化后的属性A取值的均值为零 例如,年收入属性的均值为82,标准差为39,则年收入60万规范化后为-0.31
收藏