欢迎来到天天文库
浏览记录
ID:34234203
大小:2.08 MB
页数:51页
时间:2019-03-04
《基于关键词web文档自动分类算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、合肥工业大学硕士学位论文基于关键词的Web文档自动分类算法研究姓名:李毅申请学位级别:硕士专业:计算机软件与理论指导教师:王浩20090401基于关键词的Web文档自动分类算法研究摘要随着网络的发展,电子文档大量涌现,Web文档自动分类以迅速、快捷、客观等手工分类无可比拟的优势,使得其实用价值得到充分体现。Web文档分类越来越受到人们的重视,在网络信息检索中尤其突出。传统的Web文档分类主要利用文档之间特征词的余弦相似度计算实现的,由于文档中的特征词过大,缺少对Web结构的分析,同时对文档不进行语义分析,从而导致Web文档分类的质量不高。为了克服传统方法的缺点,本文在利用文档结构的
2、分析和TF-IDF的计算提取关键词的基础上,提出了一种基于语义关系的Web文档自动分类方法,以网络中的Web文档为处理对象,通过中文分词从web文档中抽取候选关键词,然后对文档结构的分析和候选关键词的TF-IDF计算提取关键词,利用《知网》中的语义关系层次结构图,使用改进的概念重要度计算参数,对文档间候选关键词进行语义相似度计算,构建出拓扑结构图,通过本文提出的聚类算法进行合理的优化分割合并操作,最终归纳实现Web文档的分类。本文中关键词的提取方法能很好的表达了文档的主旨内容,提高向量空间模型表示文章内容的准确性,同时实现了Web文档聚类的降维,利用了文档间同义词关系的词语,增强了
3、文档之间的相似度,更加提高Web文档分类的效率。关键字:文档关键词,语义相似度,聚类算法,知网,拓扑网络图,中文分词WebdocumentautomaticclassificationbasedonkeywordsAbstractWiththedevelopmentofnetwork,alargenumberofelectronicdocumentsareproduced,automaticclassificationofdocumentsthanthemanualclassificationwithitstherapid,efficient,objectiveandotherad
4、vantages,it’Spracticalvaluebefullyreflectedinfact.Webdocumentcategorizationhasbeengainingattentioninthenetworkinformationretrievalparticularlyconspicuous.Thetraditionalclassificationofdocuments,computesimilaritybetweendocumentsbyusingthemaintermsofthecosinevalue,Becauseoftheterms‘ofthedocument
5、istoolarge,atthesametimethelackofanglicizingstructureandadocumentsemantic,resultinginthequalityofdocumentcategorizationisnothigh.Inordertoovercometheshortcomingsoftraditionalmethods,Inthisthesis,theuseofdocumentstructureanalysisandtheimprovementoftheTF—IDFcalculationbasedontheextractionofkeywo
6、rds,arelationshipbasedonthesemanticdocumentautomaticclassificationmethods,Webdocumentsareobjecttodealwith,throughtheChinesewordextraction,gettingcandidatewordsfromwebdocuments,thenbyanglicizingthedocumentstructureandcalculatingtheweightofcandidatekeywordsandextractingkeywords.Usingthelevelrela
7、tionshipofsemanticstructureintheHowNet,usingimprovementofthecalculationofparametersandcalculatingcandidatekeywordsemanticsimilaritybetweendocumentsandbuildingatopologymap.Throughtheclusteringalgorithmproposedinthisthesis,whichisreasonab
此文档下载收益归作者所有