欢迎来到天天文库
浏览记录
ID:50350554
大小:3.39 MB
页数:58页
时间:2020-03-05
《文本聚类及其在话题检测中的应用研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、单位代码:10293密级:A气考化《您硕女恰义*爭拍養囑论文题目:文本聚类及其在话题检测中的应用研巧二.?-缚一学号21204291Q方片斗1.|-■--;_YV,扛...‘.■..1:姓名'卢艳红辞七。山节托,导师普成卫青杂tV-山-.-■■■-?一专业学位类别工程硕±类型全日制专业(领域)数据挖掘论文提交曰期二零一五年王月ResearchonTextClusteringanditsAp
2、plicationinTopicDetectionAnalysisThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByYanhongLuSupervisor:AssociateProf.WeiqingChengMarch2015南京邮电大学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研巧工作及取得的研究成果。尽我所知,除了文中特别加1^^示注和致谢的地方外,论文
3、中不包含其他人己经发表或撰写过的硏充成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意与我。一本人学位论文及涉及相关资料若有不实,愿意承担切相关的法律责任。研巧生签名:村矣知日期::k、ir_k心南京邮电大学学位论文使用授权声明本人授权南京邮电大学可保留并向国家有关部口或机构送交论文的复印件和电子文档;允许论文被查阅和借阅:可每学位论文的全部或部分内容编入有关数据库进行检索:可臥采用影印、缩印或扫描等复
4、制手段保存、汇编本学位论文。本文电子文档的内容和纸质论文的内容相一致。论文的公布(包括刊登)授权南京邮电大学研究生院办理。涉密学位论文在解密后适用本授权书。研巧生签名:导师签名:日期;>矿心y_摘要随着网络技术的高速发展,互联网目前已经应用于各行各业,改变了人们工作和生活,同时也给我们带来了前所未有的挑战。由于网络数据急剧增加,收集组织相关的信息变得越来越困难,如何从海量的信息中获取所需信息,也成了当今急需解决的问题。话题检测与跟踪(TopicDetectionandTracking,TDT)就是为了解决该问题而提
5、出的一项技术,旨在对新闻媒体等数据源进行话题检测和跟踪,并从中筛选重要信息。TDT中最重要的研究任务之一是话题检测,其主要作用就是把话题类似的事件聚类到一起以方便筛选,因此,对其进行深入的研究具有重要的现实意义。本文主要的工作内容如下:(1)K均值聚类算法是目前最常用的聚类算法之一,因其算法思想简单、聚类速度较快得到了广泛应用,但此算法随意指定初始中心容易导致聚类陷入局部最优解的缺陷,使得聚类效果变差。针对这一缺陷,本文提出了一个自适应聚类算法,能够基于最大最小距离和误差平方和(SSE)选取初始聚类中心并自动确定簇数以优化聚类效果。
6、实验结果表明该算法可以在不增加迭代次数的情况下得到更准确的聚类结果。(2)在高速发展的互联网时代,网络上的各类新闻报道产生了数以万计的信息,从这些新闻报道中抽取出有价值的信息就成了当今信息过滤技术中一个重要的研究方向。本文结合回顾式话题检测技术及检测过程中文本集是随时会增加的这一特点,提出了一种话题特征选择方法,结合词性提取话题特征词,并针对后期话题检测逐步修正特征权重,以提高具有高话题辨别能力的特征词的权重。实验结果表明提出的结合词性选择特征词以及用辨别话题能力权重修正特征词的权重能提高后期话题检测的效果,验证了所提出的话题特征选
7、择方法是可行且有效的。关键字:K均值聚类算法,最大最小距离,初始中心,话题特征选择,辨别话题能力IAbstractWiththerapiddevelopmentoftheInternet,theInternethasbeenusedinvariousindustries,changingpeople’sworkandlife,andalsobroughtunprecedentedchallenges.DuetotherapiddevelopmentofInternettechnology,howtocollectandorganiz
8、erelevantinformationhasbecomemoreandmoredifficult.Howtoobtaintherequiredinformationfromthefloodofinformation,hasbecom
此文档下载收益归作者所有