1
以下回答将假设你正在使用朴素贝叶斯。 1.数据预处理 举个例子,你可能要考虑拼写错误的单词。一些垃圾邮件可能将金钱拼写为m0ney(第二个字符应该为'o')。做到这一点的方法是使用单词的一些相似函数,如编辑距离。 2.估计后验概率 朴素贝叶斯最常见的问题之一是某些词可能具有零概率。如果是这种情况该怎么办? 解决该问题的一种常用方法是添加人为的先验。但是,也有有更好更复杂的方法可以执行此操作,你可能需要考虑其中的一些方法来改进模型。 3.交叉验证 提取特征的方法可能有很多,预处理数据的方法也有很多,但是哪种方法效果最好呢?你需要做交叉验证。 4.增强和混合模型 如果你完成上述所有操作,则模型的预测错误率应该会很低,但是如何做得更好呢?你可以尝试增强模型或混合模型。我没有在垃圾邮件分类器上尝试过这些方法,但是它们通常可以显着提高模型性能。 5.其他 上面的这些步骤是最基础的。你还可以尝试更多其他类别的方法。比如,考虑一下语义,语法,电子邮件,链接,附件等中的嵌入图片。这些是当你深入研究并真正理解你的问题,而不只是应用标准的ML算法时需要考虑的。
收藏
有个别重复字