正文描述:《基于多向量的中文新闻话题检测》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、HEBEIUNIVERSITY密级:分类号:学校代码:10075学号:20131289硕士学位论文基于多向量的中文新闻话题检测学位申请人:李欣雨指导教师:袁方教授学位类别:工学硕士学科专业:计算机科学与技术授予单位:河北大学答辩日期:二〇一六年五月ClassifiedIndex:CODE:10075U.D.C:NO:20131289ADissertationfortheDegreeofM.EngineeringApproachtoChineseNewsTopicDetectionBasedonMulti-VectorModel
2、Candidate:LiXinyuSupervisor:Prof.YuanFangAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScienceandTechnologyUniversity:HebeiUniversityDateofOralExamination:May,2016摘要摘要话题检测是处理互联网新闻的一种重要方法,使用聚类方法对新闻文档进行处理是实现话题检测的一条重要途径。凝聚层次聚类算法由于具有较高聚类精确度,且聚类结果能够分层展示等特
3、点,具有较为广泛的应用。对话题检测结果具有重要影响的因素有很多,包括:话题的表示方法、向量的加权方法、聚类算法过程以及聚类个数的估计方法等。本文针对话题检测中的三个关键点:话题表示方法、向量的加权方法和聚类个数估计算法进行了研究,主要工作如下:1.在分析研究向量空间模型、主题模型以及多向量模型的基础上,将向量空间模型和主题模型相结合,给出了一种基于多向量模型的话题表示方法,同时结合基于簇中心的凝聚层次聚类过程,给出了基于多向量的凝聚层次聚类中的簇中心构造及更新方法。2.针对传统TFIDF算法中存在的对特征项在各个类中分布情况考
4、虑不充分的问题,通过将特征项在各个类中的文档分布信息引入到TFIDF算法当中,给出了对传统TFIDF的一种改进算法,并将改进算法与本文给出的基于多向量的凝聚层次聚类算法相结合,应用于簇中心的更新算法当中。3.对聚类个数估计方法进行了研究,通过对最小信息准则和贝叶斯信息准则进行分析,同时结合凝聚层次聚类算法过程,给出一种将两种聚类评价方法相结合的聚类个数估计方法。本文使用语言数据联盟在话题检测与追踪评测中用到的TDT4数据集中的中文数据集对给出的算法进行测试,实验结果表明,本文给出的基于多向量的话题检测方法能够得到较好的文档聚类
5、结果,通过对比试验可以发现本文给出的方法能够提高话题检测的召回率和准确率。关键词话题检测多向量模型TFIDF改进聚类个数估计IAbstractAbstractTopicdetectionisanimportantmethodtoprocessthenewsontheinternet.Usingclusteringmethodtoprocessthedocumentsofnewsisanimportantwaytorealizethetopicdetection.Agglomerativehierarchicalclusteri
6、ngalgorithmcanrichahighlevalofclusteringaccuracyandshowlayeredfeatures,thereforeitiswidelyused.Therearemanyfactorshavegreatinfluenceontheclusteringresultofclusteringalgorithmontopicdetection,includingtherepresentationmethodofdocumentsandtopics,theweightingmethodofve
7、ctors,theclusteringmethodandclusternumberestimationmethodetc..Thispaperfocusonthreekeytechniquesintopicdetection:therepresentationmethodoftopic,theweightmethodofvectorandtheestimationmethodofclusternumber.Themainworkofthispaperisasfollows:1.Firstofall,thecomparisona
8、ndanalysisofvectorspacemodel,topicmodelandmulti-vectormodelarecarriedout;then,bycombiningvectorspacemodelandtopicmodel,anewmethodbasedonmu
显示全部收起
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。