基于概率主题模型的文档聚类
作者:魏宝刚;袁杰;王李冬
作者单位:浙江大学计算机科学与技术学院,浙江杭州310027;浙江大学计算机科学与技术学院,浙江杭州310027;杭州师范大学,浙江杭州310012
加工时间:2014-05-15
信息来源:《电子学报》
关键词:主题模型;LDA模型;TC_LDA模型;文档聚类
摘 要:为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(Latent Dirichlet Allocation)模型和TC_ LDA模型的聚类算法.TC_ LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法不同,基于主题模型的聚类算法能将具备同一主题的文档聚为一类.实验结果表明从主题分析角度出发实现的聚类算法优于传统的聚类算法.