0
首先,我需要解释一下过拟合现象产生的原因。在大多数情况下,我们希望模型捕获数据中的信号,而不是噪声。然而,现实生活中的数据都会有某种程度的噪声(或异常值)。这意味着,导出的模型非常适合建模的数据,但不能很好地推广到建模过程中未包含的其他样本。 我们会发现,对于训练模型的数据来说,模型的精度很高,但随着新数据的增加,模型的精度显著下降时,可能会出现过拟合。该模型有效地学习了训练数据,但不具有泛化能力。这使得模型在预测等方面毫无用处。 在实践中检测这种影响的一种简单方法是交叉验证。给定一个数据集,其中的一部分被保留(比如说30%),而其余部分用于训练模型。训练模型后,将保留的数据用于检查准确性,并将其与从训练中使用的数据得出的准确性进行比较。
收藏