关于 r:随机森林中的预测器会导致拟合不足吗?

Can a predictor in random forest cause underfitting?

我在我的随机森林模型中使用纬度和经度以及 Landsat 数据作为预测变量,该模型旨在预测整个景观中是否存在黑色云杉树。纬度显示为具有很高的重要性,您可以在映射的预测中看到尖锐的纬度线的影响。此外,使用 tunerF,mtry 仅针对 2 个预测变量进行了优化,纬度是其中之一。我的模型是否欠拟合?


选择 mtry=2,并不意味着您完全放弃了第三个参数。事实上,恰恰相反。首先,您应该在训练 RF 模型中包含所有合理的预测变量。降低 mtry 将使在每个节点中测试的变量少于所有变量。这允许较少的主导变量对最终预测做出更多贡献。低 mtry 有点类似于岭(正则化)回归。正则化会增加偏差但会降低方差。有时粗糙和健壮会更好,有时则不然。您会通过交叉验证知道。

听起来你有大约 500 个样本(很多)并且只有 3-6 个变量(很少)。我会开始懒惰并简单地将 mtry 手动更改为所有 3-6 个值并查看返回的报告 OOB-CV 值。