欢迎来到天天文库
浏览记录
ID:34624632
大小:7.01 MB
页数:57页
时间:2019-03-08
《基于vsw扩展算法和经典聚类算法的web挖掘研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、首都经济贸易大学硕士学位论文THESISOFDOCTOR(I/ASTER)DEGREE论文题目:基于VSM扩展算法和经典聚类算法的Web挖掘研究院系:专业:学号:独创性声明本人郑重声明:今所呈交的《基于VSM扩展算法和经典聚类算法的Web挖掘研究》论文是我个人在导师指导下进行的研究工作及取得的科研成果。尽我所知,文中除了特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的内容及科研成果,也不包含为获得首都经济贸易大学或其它教育机构的学位或证书所使用过的材料。作者签名:日期:丝堡年』月』日关于论文使用授权的说明本人
2、完全了解首都经济贸易大学有关保留、使用学位论文的有关规定,即:学校有权保留送交论文的复印件,允许论文被查阅、借阅或网络索引;学校可以公布论文的全部或部分内容,可以采取影印、缩印或其它复制手段保存论文。(保密的论文在解密后应遵守此规定)日期:丝年上月上日中文摘要随着互联网的迅猛发展,潜藏在海量网页信息下的知识亟待被人们所发现。本文介绍了文本挖掘这一数据挖掘新兴分支的背景与起源,介绍了Web文本挖掘的流程与步骤,以及Web文本挖掘中文本表达与文本处理的相关概念及经典度量算法。此外,本文还对于传统的VSM向量空间模型作出了扩展,
3、重新定义了TFIDF权值的计算过程,并以将此算法与经典聚类算法相结合,用Reuters网站上不同新闻板块的文章做数据源进行实证研究。本文所进行的实验为对比实验,实验变量为TFIDF算法的不同,实验平台为Weka开源软件,通过实验结果证明了改进VSM算法对于聚类有效性的提升。主题词:Web挖掘,VSM模型,TFIDF权值,特征表示,聚类算法AbstractWiththerapiddevelopmentpaceofWWWapplication,peoplenowaremoreandmorerealizingthereisSOm
4、uchknowledgewhichwedesiretofindouthiddeninthecontentsoftrillionsofwebsitepages.InthispaperIprovideyoutheknowledgeofWebminingorigin,aswellasthebasicstepsofhowtodoWebMiningapplications.ThewayhowwedemonstratetheunstructuredtextintostructuraldataformatandsomeclassicWe
5、bMiningalgorithmarealsoincludedinthispaper.Moreover,inthisarticle,IalsoprovideanextendedVSMmodelinwhichtheTFIDFalgorithmisredefined.Atthelatterpartofthepaper,IconductanexperimentbasedontheextendedVSMmodelI’vedeclaredontheenvironmentofWekasoftware.Throughtheanalysi
6、sbasedontheexperimentresultImakeaconclusionthatthisextendedmodelcontributestotheWebMiningefficiency.KeyWords:WebMining,VSM,TFIDF,clusteringalgorithm,Characterdemonstration董查丝鲞堡墨盘鲎塑±鲎焦迨圭堡迨叁±!墅芏壁差鎏墨丝基銎差差鲞盟堂垒蕉垫堑壅整目录第1章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.11.1本文研究背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
7、.11.2国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..21.3本文主要内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.4第2章文本挖掘概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..52.1文本挖掘概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.52.1.1文本挖掘的产生背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.52.1.2文本⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯62.1.3文本挖掘的概念⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..72.1.4文本挖掘的任务⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯72.1.5文本挖掘系统的通用体系结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯92.
8、2Web挖掘⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..102.2.1Web挖掘概念⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯102.2.2Web挖掘分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯102.2.3Web挖掘流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯112.2.4Web挖掘关键技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..12第3
此文档下载收益归作者所有