首页

标记样本规模对半监督文本聚类算法的影响 09月14日

【摘要】近年来,机器学习领域中半监督学习引起了广泛的关注。众所周知,有标记的样本的规模会显著地影响学习的结果。然而,究竟多少样本才完美符合是一个悬而未决的问题。在本文中,我们会尝试在文本聚类领域中揭示这个问题的规律以及最佳解决方案。在两种经典的的聚类算法k-均值和AP聚类的基础上,我们实现了五个改进的半监督文本聚类算法,分别是种子k-均值聚类算法(SeedK-means),约束k-均值聚类算法(C […]