文本聚类及其在话题检测中的应用研究.pdf

文本聚类及其在话题检测中的应用研究.pdf

ID:50350554

大小:3.39 MB

页数:58页

时间:2020-03-05

文本聚类及其在话题检测中的应用研究.pdf_第1页
文本聚类及其在话题检测中的应用研究.pdf_第2页
文本聚类及其在话题检测中的应用研究.pdf_第3页
文本聚类及其在话题检测中的应用研究.pdf_第4页
文本聚类及其在话题检测中的应用研究.pdf_第5页
资源描述:

《文本聚类及其在话题检测中的应用研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、单位代码:10293密级:A气考化《您硕女恰义*爭拍養囑论文题目:文本聚类及其在话题检测中的应用研巧二.?-缚一学号21204291Q方片斗1.|-■--;_YV,扛...‘.■..1:姓名'卢艳红辞七。山节托,导师普成卫青杂tV-山-.-■■■-?一专业学位类别工程硕±类型全日制专业(领域)数据挖掘论文提交曰期二零一五年王月ResearchonTextClusteringanditsAp

2、plicationinTopicDetectionAnalysisThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByYanhongLuSupervisor:AssociateProf.WeiqingChengMarch2015南京邮电大学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研巧工作及取得的研究成果。尽我所知,除了文中特别加1^^示注和致谢的地方外,论文

3、中不包含其他人己经发表或撰写过的硏充成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意与我。一本人学位论文及涉及相关资料若有不实,愿意承担切相关的法律责任。研巧生签名:村矣知日期::k、ir_k心南京邮电大学学位论文使用授权声明本人授权南京邮电大学可保留并向国家有关部口或机构送交论文的复印件和电子文档;允许论文被查阅和借阅:可每学位论文的全部或部分内容编入有关数据库进行检索:可臥采用影印、缩印或扫描等复

4、制手段保存、汇编本学位论文。本文电子文档的内容和纸质论文的内容相一致。论文的公布(包括刊登)授权南京邮电大学研究生院办理。涉密学位论文在解密后适用本授权书。研巧生签名:导师签名:日期;>矿心y_摘要随着网络技术的高速发展,互联网目前已经应用于各行各业,改变了人们工作和生活,同时也给我们带来了前所未有的挑战。由于网络数据急剧增加,收集组织相关的信息变得越来越困难,如何从海量的信息中获取所需信息,也成了当今急需解决的问题。话题检测与跟踪(TopicDetectionandTracking,TDT)就是为了解决该问题而提

5、出的一项技术,旨在对新闻媒体等数据源进行话题检测和跟踪,并从中筛选重要信息。TDT中最重要的研究任务之一是话题检测,其主要作用就是把话题类似的事件聚类到一起以方便筛选,因此,对其进行深入的研究具有重要的现实意义。本文主要的工作内容如下:(1)K均值聚类算法是目前最常用的聚类算法之一,因其算法思想简单、聚类速度较快得到了广泛应用,但此算法随意指定初始中心容易导致聚类陷入局部最优解的缺陷,使得聚类效果变差。针对这一缺陷,本文提出了一个自适应聚类算法,能够基于最大最小距离和误差平方和(SSE)选取初始聚类中心并自动确定簇数以优化聚类效果。

6、实验结果表明该算法可以在不增加迭代次数的情况下得到更准确的聚类结果。(2)在高速发展的互联网时代,网络上的各类新闻报道产生了数以万计的信息,从这些新闻报道中抽取出有价值的信息就成了当今信息过滤技术中一个重要的研究方向。本文结合回顾式话题检测技术及检测过程中文本集是随时会增加的这一特点,提出了一种话题特征选择方法,结合词性提取话题特征词,并针对后期话题检测逐步修正特征权重,以提高具有高话题辨别能力的特征词的权重。实验结果表明提出的结合词性选择特征词以及用辨别话题能力权重修正特征词的权重能提高后期话题检测的效果,验证了所提出的话题特征选

7、择方法是可行且有效的。关键字:K均值聚类算法,最大最小距离,初始中心,话题特征选择,辨别话题能力IAbstractWiththerapiddevelopmentoftheInternet,theInternethasbeenusedinvariousindustries,changingpeople’sworkandlife,andalsobroughtunprecedentedchallenges.DuetotherapiddevelopmentofInternettechnology,howtocollectandorganiz

8、erelevantinformationhasbecomemoreandmoredifficult.Howtoobtaintherequiredinformationfromthefloodofinformation,hasbecom

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。