0
你可以对模型进行以下更改:
使用可抵抗异常值的模型。基于树的模型通常不受异常值的影响,而基于回归的模型则受其影响。如果要执行统计测试,请尝试使用非参数测试而不是参数测试。
使用更可靠的错误度量。正如彼得·米尔斯(Peter Mills )在其出色的回答中提到的那样,从均方误差切换为均值绝对差(或类似Huber损失的东西)可以减少异常值的影响。
我在“为什么中位数是集中趋势的度量?”一文中解释了为什么会这样?它与数据集的任何其他值都不相关,那么它如何“描述”数据集?
你可以对数据进行以下更改:
- Winsorize你的数据。人为地限制数据的上限。请参见winsorization的一些应用程序?
- 转换你的数据。如果数据的右尾非常明显,请尝试对数转换。
- 删除异常值。如果它们很少,并且你可以确定它们是异常现象并且不值得预测,则此方法有效。
该回答来自:https://qr.ae/pNmuNh
收藏