基于关键词web文档自动分类算法的研究

ID：34234203

大小：2.08 MB

页数：51页

时间：2019-03-04

资源描述：

《基于关键词web文档自动分类算法的研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、合肥工业大学硕士学位论文基于关键词的Web文档自动分类算法研究姓名：李毅申请学位级别：硕士专业：计算机软件与理论指导教师：王浩20090401基于关键词的Web文档自动分类算法研究摘要随着网络的发展，电子文档大量涌现，Web文档自动分类以迅速、快捷、客观等手工分类无可比拟的优势，使得其实用价值得到充分体现。Web文档分类越来越受到人们的重视，在网络信息检索中尤其突出。传统的Web文档分类主要利用文档之间特征词的余弦相似度计算实现的，由于文档中的特征词过大，缺少对Web结构的分析，同时对文档不进行语义分析，从而导致Web文档分类的质量不高。为了克服传统方法的缺点，本文在利用文档结构的

2、分析和TF-IDF的计算提取关键词的基础上，提出了一种基于语义关系的Web文档自动分类方法，以网络中的Web文档为处理对象，通过中文分词从web文档中抽取候选关键词，然后对文档结构的分析和候选关键词的TF-IDF计算提取关键词，利用《知网》中的语义关系层次结构图，使用改进的概念重要度计算参数，对文档间候选关键词进行语义相似度计算，构建出拓扑结构图，通过本文提出的聚类算法进行合理的优化分割合并操作，最终归纳实现Web文档的分类。本文中关键词的提取方法能很好的表达了文档的主旨内容，提高向量空间模型表示文章内容的准确性，同时实现了Web文档聚类的降维，利用了文档间同义词关系的词语，增强了

3、文档之间的相似度，更加提高Web文档分类的效率。关键字：文档关键词，语义相似度，聚类算法，知网，拓扑网络图，中文分词WebdocumentautomaticclassificationbasedonkeywordsAbstractWiththedevelopmentofnetwork，alargenumberofelectronicdocumentsareproduced，automaticclassificationofdocumentsthanthemanualclassificationwithitstherapid，efficient，objectiveandotherad

4、vantages，it’Spracticalvaluebefullyreflectedinfact．Webdocumentcategorizationhasbeengainingattentioninthenetworkinformationretrievalparticularlyconspicuous．Thetraditionalclassificationofdocuments，computesimilaritybetweendocumentsbyusingthemaintermsofthecosinevalue，Becauseoftheterms‘ofthedocument

5、istoolarge，atthesametimethelackofanglicizingstructureandadocumentsemantic，resultinginthequalityofdocumentcategorizationisnothigh．Inordertoovercometheshortcomingsoftraditionalmethods，Inthisthesis，theuseofdocumentstructureanalysisandtheimprovementoftheTF—IDFcalculationbasedontheextractionofkeywo

6、rds，arelationshipbasedonthesemanticdocumentautomaticclassificationmethods，Webdocumentsareobjecttodealwith，throughtheChinesewordextraction，gettingcandidatewordsfromwebdocuments，thenbyanglicizingthedocumentstructureandcalculatingtheweightofcandidatekeywordsandextractingkeywords．Usingthelevelrela

7、tionshipofsemanticstructureintheHowNet，usingimprovementofthecalculationofparametersandcalculatingcandidatekeywordsemanticsimilaritybetweendocumentsandbuildingatopologymap．Throughtheclusteringalgorithmproposedinthisthesis，whichisreasonab

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 51



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于关键词web文档自动分类算法的研究

基于关键词web文档自动分类算法的研究

相关文章

相关标签