贝叶斯层次聚类及其在文本挖掘中的应用.doc

贝叶斯层次聚类及其在文本挖掘中的应用.doc

ID:55615840

大小:2.00 MB

页数:72页

时间:2020-05-19

贝叶斯层次聚类及其在文本挖掘中的应用.doc_第1页
贝叶斯层次聚类及其在文本挖掘中的应用.doc_第2页
贝叶斯层次聚类及其在文本挖掘中的应用.doc_第3页
贝叶斯层次聚类及其在文本挖掘中的应用.doc_第4页
贝叶斯层次聚类及其在文本挖掘中的应用.doc_第5页
资源描述:

《贝叶斯层次聚类及其在文本挖掘中的应用.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、1摘要贝叶斯层次聚类及其在文本挖掘中的应用姜宁(计算机软件与理论)(导师:史忠植)随着互联网中信息的日益增长,通过文本挖掘,快速、准确地检索信息和分类信息成为人们日益迫切的要求,具有广泛的应用前景和实用价值。本文对文本数据挖掘中的一种重要方法——聚类分析进行了广泛而深入的探讨。通过对以文本数据为代表的高维特征空间特点的分析,本文主要从概率角度,特别是用贝叶斯方法,来研究文本数据的聚类分析。本文的研究工作主要集中在以下几个方面:1)基于文档信息量变化的概率层次聚类。依据信息论的思想,从文档信息量变化的角度,对文本聚类的过程进行了分析,研究了信息量在层次聚类过程中所呈现的规律性,进而提出一种基于信

2、息量模型的聚类分析算法。采用贝叶斯方法对算法进行深入地分析表明,信息量聚类的概率解释就是贝叶斯模型的对数似然比。2)贝叶斯模型选择在聚类分析中的应用。通过研究该算法的概率解释,文中从问题域出发,对文章中特征序列的随机产生过程进行了讨论,给出了一个具体的物理模型。同时,我们对聚类分析中的模型选择,特别是混合模型方法,做出了较全面地介绍与总结,对其中的关键技术逐一进行了讨论。在此基础上,我们给出了贝叶斯后验模型,并把它与物理模型相结合,提出一个采用贝叶斯后验概率模型的层次聚类算法。对真实文本数据的测试中,该算法获得了很高的聚类准确率。3)无监督学习中聚类准确度的评价。不同于分类问题,在聚类分析中如

3、何客观的评价聚类结果并没有一个普遍认同的标准。本文对聚类算法的评价中采用了平均准确率,为此深入的讨论了PA、NA指标在无监督学习中对查全率和查准率地反映。发现了它们和召回率、精度之间的内在联系。1)高维特征空间中的特征约简特征约简可以大幅度的提高聚类的速度,而对聚类的准确率影响不大。本文的最后,讨论了一种基于特征联合概率的、高效的特征相似性度量,将其应用于特征聚类,并对文中涉及的各种算法进行了实验,取得了满意的效果。值得一提的是,一些算法在约简后的特征集中进行聚类时,准确率获得了大幅度的提高。关键词:文本挖掘,层次聚类,信息熵,模型选择,混合模型,贝叶斯后验模型,贝叶斯估计,平均准确率,PA/

4、NA,特征聚类ABSTRACTHierarchicalBayesianClusteringanditsApplicationtoTextMiningJiangNing(ComputerSoftwareandTheory)SupervisedbyProfessorShiZhongzhiWithrapidgrowthofinformationonInternet,advancedinformationretrievaltechniquesofhighperformanceandhighaccuracyareincreasinglydemandedbyindustry,whichmayhaveapo

5、tentialtoleadtoarevolutioninthewaythatpeopleareusingInternet.Textclustering,orunsupervisedtextclassification,isaprimarymethodusedininformationretrieval.Themethodhasbeenreceivingincreasingattentionfromthecommunity,asitdoesnotneedmanuallyclassifiedtextfortrainingandthereforemoresuitableforlarge-scaleI

6、nternettextclassificationtasks.Thisthesisdiscussestextclusteringtechniquesindepth.ThethesisinvestigatestextclusteringfromaprobabilisticpointofviewwithemphasisonBayesianapproaches.Thecontentisorganisedintothefollowingsections:1)Probabilistichierarchicalclusteringbasedondocumentinformationquantity.Fro

7、maninformationtheoryangle,westudylatentrelationsbetweendocumentinformationquantityanddocumentclassification.Ahierarchicaltextclusteringalgorithmisproposedbasedondocumentinformationquantity.Theoretical

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。