关于r：Random Forest与Logistic回归

r

Random Forest vs Logistic Regression

我正在处理数据集。这是一个分类问题。数据集的一列中有300,000个观测值中约有11000个缺失值(这是一个分类变量，因此不可能像数字值那样进行缺失值插补)。

由于随机森林不受丢失值的影响，建议采用随机森林而不是逻辑回归吗？

在使用RF时，我是否还需要照顾自变量之间的多重共线性？

相关讨论

尽管RFM可以处理噪声数据和遗漏值，但很难说它比后勤要好。因为物流还可以通过其他预处理(PCA或缺少数据插补)或整体方法来改进。

我认为RF不必考虑多重共线性。这是因为变量是随机选择的，以创建不同的树并产生结果。在这个过程中，最重要的属性被选择并解释为解决具有相似趋势的多重共线性问题。

相关讨论