如何处理类别不平衡的问题?
0 1361
1
该提问暂无详细描述
收藏
2021-01-21 14:46 更新 小眼的铁板烧 •  3526
共 1 个回答
高赞 时间
0

类别不平衡就是指分类任务中不同类别的训练样例数目差别很大的情况。现有的解决类别不平衡主要有三种做法。 欠采样:直接去除训练集中数目较大的样例,使得正反例样本数目接近,然后再进行学习。 过采样:对训练集数目较少的类别样本进行过采样,即增加以下样本使得正反例样本数目接近,然后再进行学习。 欠采样的时间开销通常小于过采样,因为前者丢弃了很多样例,而过采样增加了很多样例。但是要注意的是过采样不能直接对于原有样例进行重复选择,否则会引起严重的过拟合,过采样的典型算法SMOTE使用插值法产生额外的样例。另外,欠采样虽然开销较小,但是丢弃了很多样例可能会损失很多重要的信息。 阈值移动:直接基于原始训练集进行学习。 我们可以从线性分类器的角度来理解阈值移动,在线性分类器中我们使用y=wx+b对样本x进行线性分类时,用预测的y与一个已经确定的阈值进行比较,例如通常y>0.5则认为是正例,反之则为反例。Y表达了其为正例的可能性,而几率y/(1-y)反映了正例可能性与反例可能性之间的比值。若y/(1-y)>1则预测为正例。 在训练集正例反例数目不同时,令m+表示正例数目,m-表示反例数目,则有y/(1-y)> m+/ m-时预测为正例。 但是分类器仍然基于y/(1-y)>1进行预测,因此需要对于预测值进行调整,使其在执行y/(1-y)>1时实际上实在执行y/(1-y)> m+/ m-

收藏
2021-01-21 14:47 更新 空心人 •  3374