欢迎来到天天文库
浏览记录
ID:33495332
大小:2.14 MB
页数:51页
时间:2019-02-26
《基于web文本的聚类算法的应用研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、湖北工业大学硕士学位论文基于Web文本的聚类算法的应用研究姓名:许英杰申请学位级别:硕士专业:计算机应用技术指导教师:孙俊逸20090501湖北工业大学硕士学位论文摘要随着因特网的讯速发展,互联网的数据信息量越来越大。如何对互联网的信息进行分析,便捷准确的挖掘出需要的信息知识急需解决。对聚类分析的研究可在相当程度上解决这个问题,不仅可以节省时间,并且可以提高效率。将聚类研究理论用于Web挖掘具有深刻的理论意义和重要的实际价值。本文从理论和实践两个方面分析与研究了聚类技术在Web文本挖掘中的应用。Web文本挖掘涉及众多领域的重要内容,包括:数据挖掘、信息
2、检索、智能算法等。而本文研究的文本聚类技术是其中的重要内容之一,它不仅是一种非指导学习方法,而且不需干涉,可由计算机自动处理。本文研究的重点是通过文本聚类技术对中文文本对象进行聚类操作,首先有侧重点的对挖掘过程中的重要阶段进行研究,主要包含文本的预处理阶、聚类分析阶段。在预处理阶段,根据特征选取的特点,利用遗传学的基本知识采用一种基于遗传策略的特征选取方法。它可以在非监督学习的情况下对用特征向量来表示的文本个体进行降维操作,可以起到降低聚类算法的复杂度,保证聚类精度的作用。在聚类算法阶段,通过比较各种聚类算法的优缺点,重点分析了经典的K.means算法
3、,然后提出一种对孤立点先检测再提取最后归并的改进K.means(WlPD)算法。改进的WIPD算法首先遍历整个样本数据集,找出所有的孤立点等异常数据进行提取,接下来对提取后的样本集进行聚类,在处理时采用自适应策略与基于最大距离的聚类中心相结合的选取方法,在相当程度上避免了聚类结果陷入局部最优的局面,在聚类完成后再将这些孤立点整理后归并入聚类结果当中,从而确保聚类结果的完整性,排除孤立点对聚类结果的影响。通过在matlab平台的实验证明改进的WIPD算法具有优良的属性,并且新算法具有的特点比原算法要好的多。最后,本文将改进前后的聚类算法应用到实际的系统当
4、中,实现了中文Web文本聚类的整个过程,通过系统和实验证明了新算法的可行性和有效性。关键词:Web文本;特征选择;遗传算法;孤立点;聚类。湖北工业大学硕士学位论文AbstractWiththedevelopmentoftheInteract.ithasalargeamountsofinformation,andithasbecomemoreandmore.NOWhowtoanalyzeinformationoftheInternethavetoberesolved.Theresearchofclusteringcansolvethisproblemto
5、someextent;byusingit.userswillnotonlysavetimebutalsoCangreatlyimproveefjficiency.ThisthesiswilldiSCUSSthetheoryandapplicationsofclusteringtechnology.TextminingiSaninterdisciplinaryresearchfieldinclude:informationretrieval.datamining,intelligentalgorithmanSOon.Inthispaper,thetext
6、oftheclusteringtechnologyiSoneoftheimportantcontents.itisnotonlyanon.directivelearning.andwithoutinterference,andcanbeautomaticprocessedbycomputer.InthePaper,thetargetofChineseW曲.basedTextClusteringiSte:Xtdata.ThereiSafocusontheChineseWebtextminingtodealwiththevariousstagesofthe
7、reseachofChineseWebincludingthestageoftextpre.treatmentandthestageoftextclustering.Byusingbasicknowledgeofgenetics,amethodbasedongeneticalgorithmfeatureselectionhasbeenproposedonthestageoftextpre.treatment.Itnotonlycanreducethedimensionalityoftextfeature,butalsoCallreducethecomp
8、lexityofclusteringoperation,andmakeagoodfoudati
此文档下载收益归作者所有