Random Forest vs Logistic Regression
我正在处理数据集。这是一个分类问题。数据集的一列中有300,000个观测值中约有11000个缺失值(这是一个分类变量,因此不可能像数字值那样进行缺失值插补)。
由于随机森林不受丢失值的影响,建议采用随机森林而不是逻辑回归吗?
在使用RF时,我是否还需要照顾自变量之间的多重共线性?
尽管RFM可以处理噪声数据和遗漏值,但很难说它比后勤要好。因为物流还可以通过其他预处理(PCA或缺少数据插补)或整体方法来改进。
我认为RF不必考虑多重共线性。这是因为变量是随机选择的,以创建不同的树并产生结果。在这个过程中,最重要的属性被选择并解释为解决具有相似趋势的多重共线性问题。
- 使用RF时是否还需要进行离群值处理?还是RF会解决这个问题?
-
您不必担心,因为离群值也可以配置为单个节点。