关于机器学习:集群标签的无偏预测

Unbiased prediction of cluster labels

我对评估通过无监督聚类发现的聚类标签的可预测性感兴趣。假设我有一个由患者组成的数据集,并且我使用了一种无监督的聚类技术根据他们的基因表达谱对他们进行分组。我的方法发现了4个簇。现在,我想从表达式数据中找出该簇成员身份是否可预测。使用全数据非监督群集标签作为输出变量,我以交叉验证的方式训练了监督分类器。因此,我使用80%的数据训练分类器,并评估其他20%的准确性。

此方法是否有偏见,因为从完整数据中了解了输出集群标签?如果是的话,我该如何公正地做到这一点?如果我以交叉验证的方式进行聚类,那么我认为我需要在每个不同折痕之间手动关联聚类。由于我对四个聚类之一相对于其他聚类的可预测性特别感兴趣,因此,我必须通过某种手动分析来找出数据的每个折叠聚类中哪个聚类。


说实话,整个问题似乎不正确。如果您有一个构建数据分区的算法(集群技术),那么它总是可以通过监督方法来预测的。实际上,在了解了所使用的一组簇的知识之后,一个人可以提出理想的分类器(准确率接近100%)。您应该重新考虑问题陈述。特别是,可以通过添加一些必须将元素放置在同一群集中的约束,将每种群集技术转换为分类器。因此,如果使用聚类器C,则可以简单地将C转换为半监督方法,该方法必须根据给定的标签对在训练集中获得的元素进行聚类。这样,我们几乎总是会创建完全相同的标签,从而实现100%的准确性。

创建有效假设的唯一方法是由某些专家分配这些标签,因为这样我们就不能构造分类器,即"有约束的专家"。因此上述推理将失败。换句话说-如果您想测试某种标签是否可以通过监督的方式进行预测,则需要以一种难以建模的方式(例如,人类专家,自然,物理学,实验,昂贵的数值评估)来获得这些标签,而并非诸如集群模型之类的东西很简单,因为监督学习的全部目的是找到这种基础模型。如果此模型是事先已知的(不是算法本身,而是我们自己),则整个推理是不正确的。您将只回答以下问题:

Is the family of models analyzed by selected clustering technique similar to the family of used classifier's hypothesis space.

或更正式地

Is used classifier consistant with the distribution induced by the selected clustering algorithm ran on a considered dataset.