关于机器学习:样本大小和特征向量维度之间的经验法则是什么?

What is the rule-of-thumb relation between sample size and feature vector dimension?

众所周知,编号越大。在构成特征向量的特征中,训练分类器所需的样本数量越多。在我的例子中,我在一个由大约 256 个特征组成的特征向量的两类问题中使用了反向传播多层感知器。

现在我的样本量不是无限的。大约 2000 个正样本和 2000 个负样本。

在制定一些降维程序之前,我想弄清楚 no 之间是否存在这种关系。样品和没有。特征向量中的维度。


两者之间没有实际的直接关系,因为所需的训练数据量还取决于模型的复杂性和所使用的训练过程。

从实际的angular来看,我建议先运行一个简单的判别分类器,看看它如何与所有特征一起工作,然后可能会应用某种特征选择。