基于关键词web文档自动分类算法的研究

基于关键词web文档自动分类算法的研究

ID:34234203

大小:2.08 MB

页数:51页

时间:2019-03-04

基于关键词web文档自动分类算法的研究_第1页
基于关键词web文档自动分类算法的研究_第2页
基于关键词web文档自动分类算法的研究_第3页
基于关键词web文档自动分类算法的研究_第4页
基于关键词web文档自动分类算法的研究_第5页
资源描述:

《基于关键词web文档自动分类算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、合肥工业大学硕士学位论文基于关键词的Web文档自动分类算法研究姓名:李毅申请学位级别:硕士专业:计算机软件与理论指导教师:王浩20090401基于关键词的Web文档自动分类算法研究摘要随着网络的发展,电子文档大量涌现,Web文档自动分类以迅速、快捷、客观等手工分类无可比拟的优势,使得其实用价值得到充分体现。Web文档分类越来越受到人们的重视,在网络信息检索中尤其突出。传统的Web文档分类主要利用文档之间特征词的余弦相似度计算实现的,由于文档中的特征词过大,缺少对Web结构的分析,同时对文档不进行语义分析,从而导致Web文档分类的质量不高。为了克服传统方法的缺点,本文在利用文档结构的

2、分析和TF-IDF的计算提取关键词的基础上,提出了一种基于语义关系的Web文档自动分类方法,以网络中的Web文档为处理对象,通过中文分词从web文档中抽取候选关键词,然后对文档结构的分析和候选关键词的TF-IDF计算提取关键词,利用《知网》中的语义关系层次结构图,使用改进的概念重要度计算参数,对文档间候选关键词进行语义相似度计算,构建出拓扑结构图,通过本文提出的聚类算法进行合理的优化分割合并操作,最终归纳实现Web文档的分类。本文中关键词的提取方法能很好的表达了文档的主旨内容,提高向量空间模型表示文章内容的准确性,同时实现了Web文档聚类的降维,利用了文档间同义词关系的词语,增强了

3、文档之间的相似度,更加提高Web文档分类的效率。关键字:文档关键词,语义相似度,聚类算法,知网,拓扑网络图,中文分词WebdocumentautomaticclassificationbasedonkeywordsAbstractWiththedevelopmentofnetwork,alargenumberofelectronicdocumentsareproduced,automaticclassificationofdocumentsthanthemanualclassificationwithitstherapid,efficient,objectiveandotherad

4、vantages,it’Spracticalvaluebefullyreflectedinfact.Webdocumentcategorizationhasbeengainingattentioninthenetworkinformationretrievalparticularlyconspicuous.Thetraditionalclassificationofdocuments,computesimilaritybetweendocumentsbyusingthemaintermsofthecosinevalue,Becauseoftheterms‘ofthedocument

5、istoolarge,atthesametimethelackofanglicizingstructureandadocumentsemantic,resultinginthequalityofdocumentcategorizationisnothigh.Inordertoovercometheshortcomingsoftraditionalmethods,Inthisthesis,theuseofdocumentstructureanalysisandtheimprovementoftheTF—IDFcalculationbasedontheextractionofkeywo

6、rds,arelationshipbasedonthesemanticdocumentautomaticclassificationmethods,Webdocumentsareobjecttodealwith,throughtheChinesewordextraction,gettingcandidatewordsfromwebdocuments,thenbyanglicizingthedocumentstructureandcalculatingtheweightofcandidatekeywordsandextractingkeywords.Usingthelevelrela

7、tionshipofsemanticstructureintheHowNet,usingimprovementofthecalculationofparametersandcalculatingcandidatekeywordsemanticsimilaritybetweendocumentsandbuildingatopologymap.Throughtheclusteringalgorithmproposedinthisthesis,whichisreasonab

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。