资源描述:
《文本聚类中的贝叶斯后验模型选择》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、文本聚类中的贝叶斯后验模型选择摘要:作者:姜宁-被引用次数:24-相关文章关键词:类别:专题技术来源:牛档搜索(Niudown.COM)11-1本文系牛档搜索(Niudown.COM)根据用户的指令自动搜索的结果,文中内涉及到的资料均来自互联网,用于学习交流经验,作品其著作权归原作者所有。不代表牛档搜索(Niudown.COM)赞成本文的内容或立场,牛档搜索(Niudown.COM)不对其付相应的法律责任!11-2文本聚类中的贝叶斯后验模型选择方法①②姜宁史忠植①(中国科技大学研究生院计算机学部北京100039)②(中国科学院计算技术研究所北京100080)(
2、deanjiang@hotmail.com,shizz@ics.ict.ac.cn)摘要文章对聚类分析中的模型选择特别是混合模型方法进行了较全面地介绍与总结,对其中的关键技术逐一进行了讨论。在此基础上,文中提出了贝叶斯后验模型选择方法,并把它与文档产生特征序列的物理模型相结合,给出了一个用于聚类分析的概率模型。对真实文本数据的测试中该模型取得了非常好的效果。同时本文对不同贝叶斯估计方法取得的效果进行了对比。关键词文本聚类、贝叶斯后验模型选择、混合模型、期望最大化、贝叶斯估计中图法分类号TP181BayesianPosteriorModelSelectionfo
3、rTextClustering①②JIANGNingSHIZhong-Zhi①(Dept.OfComputerScience,GraduateSchool,UniversityofScience&TechnologyofChina,Beijing100039)②(InstituteofComputingTechnologies,ChineseAcademyofSciences,Beijing,100080)(deanjiang@hotmail.com,shizz@ics.ict.ac.cn)AbstractModelselectionhasbeenshowna
4、sanefficienttechniqueforclusteringanalysis,inparticularusedwiththemixturemodel.Inthispaper,theauthorsproposeanewmodelselectionapproach,Bayesianposteriormodelselection,whichgreatlyreducescomputationalcomplexityofusingmixturemodelsandimprovesaccuracyofChinesetextclustering.Toestimatep
5、arametersinaposteriormodel,wecomparetwodifferentBayesianestimationtechniques,MaximumLikelihoodEstimationandConditionalExpectationEstimation.Thispaperalsodescribesahierarchicalclusteringalgorithmfortextclusteringbasedonposteriormodelselection.Resultsofhighaccuracyhavebeenachievedinex
6、perimentsforreal-worldtextclustering.KeywordsTextClustering,BayesianPosteriorModelSelection,MixtureModel,ExpectationMaximization,BayesianEstimation匹配问题,提出了一系列新的聚类算法。同时1.引言这方面的研究也表明,许多传统的聚类算法都与结构化的信息相比,非结构化的文本信可以解释为某种概率模型的近似。常用的K均息更加丰富与繁杂。随着互联网络的发展,Web值算法和Ward’s方法也可以用特定情形下的多上的文本资源在几年
7、间呈现爆炸式的增长。这元正态模型加以解释[2]。些文本信息数据量大、内容繁杂而且处在不断本文介绍了基于模型选择进行聚类分析的变化之中。随着信息资源的日益丰富,如何充理论,和相关的基本算法。在此基础上讨论了分有效的利用信息成为人们关注的焦点。聚类一种特征序列的“随机发生”模型,给出了一分析作为一种数据挖掘的重要手段,在文本挖个基于贝叶斯后验概率的模型选择方法。其中掘中也扮演着非常重要的角色。对于参数的学习,我们采用了两种不同的贝叶在最近几年的研究文献中[1],一类基于概斯估计策略,最大后验估计和条件期望估计,率模型的聚类分析技术逐渐被研究者所关注。并进行了比较。
8、基于本文的后验模型,结合层研究人员通过