关于r:Random Forest与Logistic回归


Random Forest vs Logistic Regression

我正在处理数据集。这是一个分类问题。数据集的一列中有300,000个观测值中约有11000个缺失值(这是一个分类变量,因此不可能像数字值那样进行缺失值插补)。

由于随机森林不受丢失值的影响,建议采用随机森林而不是逻辑回归吗?

在使用RF时,我是否还需要照顾自变量之间的多重共线性?


  • 尽管RFM可以处理噪声数据和遗漏值,但很难说它比后勤要好。因为物流还可以通过其他预处理(PCA或缺少数据插补)或整体方法来改进。

  • 我认为RF不必考虑多重共线性。这是因为变量是随机选择的,以创建不同的树并产生结果。在这个过程中,最重要的属性被选择并解释为解决具有相似趋势的多重共线性问题。