欢迎来到天天文库
浏览记录
ID:34589376
大小:1.11 MB
页数:64页
时间:2019-03-08
《web文本分类关键技术的研究和实现的论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、创新性声明本人声明所呈交的论文是我个人在导师的指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究工作所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文若有不实之处,本人承担一切相关责任。本人签名:日期:关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保
2、证毕业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后遵守此规定)本学位论文属于保密在____年解密后适用本授权书。本人签名:日期:摘要摘要当今的世界,信息充斥着各个角落,以电子形式存在的Web文本已逐渐成为人们最重要的信息来源。然而,Web文本是无结构的、动态的,并且Web页面的复杂程度远远超过了文本文档。因此,如何有效的、快速的从浩瀚的网络信息中获取到所需要的、可以利用的知识,已成为
3、近年来人们研究的主要课题,并形成了一门新的技术:Web文本挖掘。它主要包括四个方面的内容:Web文本分类、Web文本聚类、信息抽取和信息检索。本文主要是对Web文本分类进行研究。在Web文本分类中,支持向量机得到了广泛的应用。它是建立在统计学习理论和结构风险最小化原则基础上的一种机器学习方法,能够很好的解决小样本下的学习问题。与传统的机器学习方法相比,支持向量机具有很强的泛化能力,而且能够得到全局最优解,很好地解决了过学习、维数灾难、局部极值等问题,成为现在科学领域的一个研究热点。然而作为一个相对较新的理论,支持向量机还有待进一步的研究、改进。其中,对大
4、规模数据集的分类问题及数据集更新后如何重新分类是研究的重点和难点之一。本文首先对Web文本挖掘分类进行了研究,分析了其关键技术。然后研究了统计学习和支持向量机的基本概念及相关理论,并针对支持向量机在求解大规模数据集时存在的缺陷,如占用较高内存、收敛速度很慢、在数据集更新后又重新对所有样本进行分类等,提出了一种改进的基于相对分离度的算法,用来解决多分类问题。继而,在该算法的基础之上,提出了基于相对分类度的多分类增量学习算法。该算法将支持向量机和增量学习结合起来,当数据集更新后,该算法保留了以前学习的结果,仅对新增加的数据进行再学习,从而形成一个连续的学习过
5、程。最后,将改进的算法应用于Web文本挖掘系统中,并取得了较好的分类效果。关键词:Web文本分类支持向量机多分类问题增量学习Web文本分类关键技术的研究与实现AbstractAbstractNowadays,theworldisfilledwithallkindsofinformation;theWebTextwhichexistsintheelectronicformhasgraduallybecomethemostimportantsourceofpeople’sinformation.However,theWebTextisunorganizeda
6、nddramatic,andthewebpageisfarmorecomplexthanthetextdocuments.So,recently,theproblemhowtoobtaintheinformationwhichisrequiredandusefulfromtheInternetwithanefficientandrapidmethodhasbecomeamaintopicofthescientificfield.Andbasedontherequirement,anewtechniquewhichiscalledWebTextMining
7、hasformed.Thistechniquecontainsfouraspects:webtextclassification,webtextclustering,informationextraction,informationretrieval.Thispapermainlydiscussesthewebtextclassification.Inthefieldofwebtextclassification,thesupportvectormachine(SVM)hasbeenwidelyused.Thistheorywhichisbasedont
8、hestatisticallearningtheoryandthestructu
此文档下载收益归作者所有