基于改进cure算法的短文本聚类研究与实现

基于改进cure算法的短文本聚类研究与实现

ID:13950588

大小:2.15 MB

页数:116页

时间:2018-07-25

基于改进cure算法的短文本聚类研究与实现_第1页
基于改进cure算法的短文本聚类研究与实现_第2页
基于改进cure算法的短文本聚类研究与实现_第3页
基于改进cure算法的短文本聚类研究与实现_第4页
基于改进cure算法的短文本聚类研究与实现_第5页
资源描述:

《基于改进cure算法的短文本聚类研究与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、分类号密级UDC工程硕士学位论文基于改进CURE算法的短文本聚类研究与实现研究生姓名罗姗姗指导教师姓名、职称龙华教授学科专业电子与通信工程研究方向信息处理技术论文工作起止日期2011年1月~2012年4月论文提交日期2012年4月1昆明理工大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下(或我个人……)进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在论文中作了明确的说明并表示了谢意。本声明的法律结果由本人承担。学位论文作者

2、签名:日期:年月日…………………………………………………………………………………关于论文使用授权的说明本人完全了解昆明理工大学有关保留、使用学位论文的规定,即:学校有权保留、送交论文的复印件,允许论文被查阅,学校可以公布论文的全部或部分内容,可以采用影印或其他复制手段保存论文。、、、、、、、、、、、、、、、、、、、、、(保密论文在解密后应遵守)导师签名:论文作者签名:日期:年月107107摘要摘要在网络作为媒体传播信息日渐频繁的今天,如何从海量的网络文本中,特别是类似新浪微博、twitter这些信息量大、更新速度快的平台所产生的短文本中得到当下热点话题

3、或者是焦点问题显得十分必要。文本聚类这一技术近年来一直被用于信息检索和舆情发现,结合其自身优势,并考虑到网络短文本数据量大、更新速度快等特点,可将文本聚类运用于分析网络短文本话题。本文首先深入了解并分析了现有各种聚类算法的特性、适用范围以及优缺点。根据网络短文本的特性,选定了CURE算法作为基础进行聚类。保留了CURE算法中通过引入系数来选取代表点以表示类的形状等步骤,再考虑到网络文本集中孤立点较多的特殊情况,特别加入对孤立点的预处理过程,保证了在聚类前就去除掉大部分孤立点,从而减少聚类中一些不必要的计算同时降低了孤立点对聚类结果的干扰。在验证算法的过

4、程中,还发现在文本表示中所使用的TFIDF公式并不十分适宜于短文本的聚类,所以也将其进行了改进,从而大大提高了聚类准确率。本文提出了网络短文本聚类算法实现设计,为了验证文中提出的改进算法的聚类效果,从语料库中整理出网络短文本,通过该设计实现了对语料的聚类结果输出。并通过对由查准率和查全率构成的F-measure聚类评价指标和孤立点数量的统计,证明了改进后的算法在F-measure性能指标上优于改进前,并且能更好的避免孤立点对聚类的影响。关键词:聚类;短文本;CURE;TFIDF107摘要107ABSTRACTABSTRACTThenetworkasme

5、diabecomesmoreandmorefrequentdaybyday,howtodigtheTalkingPointfromalargeamountofwebshorttext,especiallythesimilarmicro-blog,twitterbecomeverynecessary.Inrecentyears,textclusteringhasbeenusedininformationretrievalandpublicopiniondiscovery.Consideringitsownadvantagesandtheamountofs

6、horttextinnetworkislargeandupdatedfrequently,wecanapplythetextclusteringintotheanalysisofnetworkshorttexttopic.Thispaperdeeplyanalyzesthecharacteristicssuchasapplicationscope,advantagesanddisadvantagesoftheexistingclusteringalgorithms.Accordingtothecharacteristicsofwebshorttext,

7、weselectedtheCUREalgorithmasabasisforclustering.RetainingintherepresentativepointsofCUREalgorithmweaddtheprocessofHandlingOutlierstofilterthelargeamountofoutliers.Ensurethemostofoutlierscanberemovedbeforecluster.Bythismeans,wecanreducingthenumberofunnecessarycalculationincluster

8、ing,atthesametimereducingtheinterferenceofoutli

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。