基于多语言话题发现的聚类算法改进

基于多语言话题发现的聚类算法改进

ID:35064032

大小:2.51 MB

页数:49页

时间:2019-03-17

基于多语言话题发现的聚类算法改进_第1页
基于多语言话题发现的聚类算法改进_第2页
基于多语言话题发现的聚类算法改进_第3页
基于多语言话题发现的聚类算法改进_第4页
基于多语言话题发现的聚类算法改进_第5页
资源描述:

《基于多语言话题发现的聚类算法改进》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:TP391密级:公开研究生学位论文论文题目(中文)基于多语言话题发现的聚类算法改进AnImprovedClusteringAlgorithmBasedon论文题目(外文)theMultilingualTopicFound研究生姓名王喜梅学科、专业计算机应用技术研究方向计算机网络与多媒体技术学位级别硕士导师姓名、职称屈志毅教授论文工作起止年月2015年3月至2016年5月论文提交日期2016年5月论文答辩日期2016年5月学位授予日期2016年6月校址:甘肃省兰州市原创性声明本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立进行研究所取得的成果。学位论

2、文中凡引用他人已经发表或未发表的成果、数据、观点等,均已明确注明出处。除文中已经注明引用的内容外,不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究成果做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人承担。论文作者签名:日期:关于学位论文使用授权的声明本人在导师指导下所完成的论文及相关的职务作品,知识产权归属兰州大学。本人完全了解兰州大学有关保存、使用学位论文的规定,同意学校保存或向国家有关部门或机构送交论文的纸质版和电子版,允许论文被查阅和借阅;本人授权兰州大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采

3、用任何复制手段保存和汇编本学位论文。本人离校后发表、使用学位论文或与该论文直接相关的学术论文或成果时,第一署名单位仍然为兰州大学。本学位论文研究内容:□可以公开□不宜公开,已在学位办公室办理保密申请,解密后适用本授权书。(请在以上选项内选择其中一项打“√”)论文作者签名:导师签名:日期:日期:基于多语言话题发现的聚类算法改进中文摘要移动设备的快速发展,已经以超出人们想象的速度占领了用户终端市场,尤其是以手机终端设备为代表,互联网已成为公众传播和获取信息的重要平台,微博在互联网生活中有着深刻的影响力,民众得到信息的最广泛直接的渠道成为了互联网。网络时代的到来,不仅使

4、信息来源变得日益广泛,用户对信息的准确度、广泛度、实时性和公正性也提出了越来越高的要求,我国民众已经不仅仅满足于获得国内的相关资讯,更期待同步了解国际大众对于同一信息的反馈,根据相关权威发布,目前世界上使用范围最广的语言是英语、法语,而英语、汉语、法语[1]是网络新闻中的使用频度最高的几门语言。同一事件,在不同的国度,不同的文化背景下,观点和看法不一致,用户更希望通过多语言、不同视角的报道中获取更全面、更完整的信息,为了从海量信息中及时快速广泛地得到用户需要的信息,研究者一直没有放弃对CLTDT(CrossLanguageTopicDetectionandTrac

5、king,多语言话题检测与跟踪)的研究。本文中,多语言话题发现系统模型共分五层:信息采集层、预处理和净化层、多语言转化层、文本聚类层和信息展示层,在每一层使用的算法中,都结合新闻媒体特点的进行了算法的改进和优化,形成了新闻话题发现系统的模型。首先,在多语言转化层中,鉴于目前机器翻译的水平已非常精确,本文将多语言通过Babylon翻译软件全部翻译为公共语言的汉语文档。其次,LDA(LatentDirichletAllocation,隐含狄利克雷分布)算法能快速找到核心词汇,不过身处大数据时代,在精准度方面还有欠缺,而TF-IDF(termfrequency-inve

6、rsedocumentfrequency,词频-逆向文件频率)算法可以将出现频次很高但并非实用的常用词汇进行剔除,本文中将二者结合使用在核心词汇获取中。同时,考虑到筛选出的核心词汇对文档来说都有其重要程度,因此,我们引进了核心词汇的权值计算,在这个算法设计里,本文应用了文献23提出的特征项权值计算方法,也就是TF-IDF中IDF部分的解决思路。通过相似度矩阵计算、核心词汇聚类发现话题和建立文本与话题关联完成了核心词汇的聚类。同时,在本文话题发现系统中,由于单通道聚类算法耗时少,符合新闻报道自身特点,但又存在聚类误差的缺陷,而层次聚类算法却可以随时定义簇的起始位置,

7、将两种算法应用在文本聚类的不同阶段,有效结I合使用,实现了话题聚类的在线更新。最后,在多语言话题发现系统中,由于本文的研究对象是网络新闻媒体,而新闻媒体的时间特性尤为重要,研究中借鉴了文献49中的思想,提出了利用逻辑函数Logistic(回归)函数加入时间因子权重的概念,对改善新闻媒体报道最终结果非常有效。本文基于上述工作实现了新闻话题发现系统模型,并在一定范围内进行了数据评测和实验分析,用部分新闻论坛数据验证了系统的有效性和可行性。关键词:多语言,话题发现,单语言,聚类方法,单通道聚类算法,层次聚类算法,时间因子,系统IIAnImprovedClustering

8、Algor

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。