欢迎来到天天文库
浏览记录
ID:12098711
大小:218.00 KB
页数:0页
时间:2018-07-15
《面向企业竞争情报的文本聚类技术的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、面向企业竞争情报的文本聚类技术的研究与应用代号10701学号092212152110701分类号TP391密级公开TP311题(中、英文)目面向企业竞争情报的文本聚类技术的研究与应用ResearchandApplicationonTechnologiesofTextClusteringOrientedtoEnterpriseCompetitiveIntelligence作者姓名唐恺指导教师姓名、职务刘志镜教授学科门类工学学科、专业计算机应用技术提交论文日期二○一二年一月创新性声明本人声明所呈交的论文是我个人在导师的指导下进行的研究工作及取得
2、的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究工作所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文若有不实之处,本人承担一切相关责任。本人签名:日期:关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为西
3、安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后遵守此规定)本学位论文属于保密在____年解密后适用本授权书。本人签名:日期:摘要摘要伴随着因特网的快速发展,网络上的数据信息急速膨胀。这些海量的数据蕴含巨大的价值,并且主要以文本形式存在。为了实现对大规模文本的分析并从中提取有用信息,文本聚类作为文本挖掘技术的一个重要分支,得到了深入的研究和快速的发展。其中K-means作为一种经典的聚类算法,具有线性的时间复杂度,并且其算法
4、过程简单易于实现,在大规模文本处理方面有着广泛的应用。但是其聚类效果很容易受到初始中心的影响,导致陷入局部最优解,从而降低聚类结果的准确性。本文针对K-means算法的缺点对其初始中心选择的过程进行重点研究,提出了“近邻”的概念,并以Web文档为聚类对象,详细阐述了文本聚类的整个过程,包括:文本预处理、聚类分析和质量评价。基于“近邻”的思想,本文设计了一种初始中心选择的改进方法。算法改进的思想是使得被选为簇中心的文档之间具有的较低的相似度,并拥有足够多的近邻,从而避免了聚类结果陷入局部最优解的情况,改善了聚类算法的稳定性与准确性。本文在多个
5、文档集上进行聚类实验,验证了改进K-means算法的有效性。同时在理论研究的基础上,将改进算法应用于企业竞争情报系统的核心模块——文档聚类系统,并在企业竞争情报的分析任务中取得了良好的效果。关键词:竞争情报文本聚类K-means算法数据挖掘面向企业竞争情报的文本聚类技术的研究与应用AbstractAbstractWiththerapiddevelopmentofInternet,thedataonthenetworkexpandsdrastically.Thesemassivedatacontainsgreatvalue,andmostof
6、themareintextform.Inordertoanalysisthelarge-scaletextandobtainusefulinformationfromit,textclusteringasanimportantmethodoftextmininghasbeenstudiedindepthanddevelopsrapidly.InwhichK-meansasaclassicclusteringalgorithmhaslineartimecomplexityandbecauseofitseasyimplementation,it
7、haswideapplicationinthelarge-scaletextprocessing.However,theclusteringresultofK-meansalgorithmiseasilyinfluencedbyitsinitialcentroids,andthiswillresultinfallingintolocaloptimalsolutionandreducetheaccuracyofclusteringresults.Inthispaper,wemainlystudytheselectionofinitialclu
8、stercentroidsforthedrawbackofK-meansalgorithm,a“neighbor”conceptisproposedandWebdocumenti
此文档下载收益归作者所有