首页

基于特征、先验和约束的主题建模算法 06月30日

【摘要】潜在狄利克雷分配(LatentDirichletAllocation,LDA)是一种用来分析大规模文档的概率主题模型,它从文档的单词表示中抽取出语义相关的主题集合,将文档从单词空间变换到主题空间,得到文档在低维主题空间中的表达。然而LDA的使用者往往会遇到两个问题:一是公用词和停用词几乎占据了所有的主题,LDA的主题分布向高频词倾斜,能够代表主题的关键词被少量的高频词掩盖,从而导致较差的主 […]