基于机器学习主题web挖掘技术

ID：32009784

大小：1.54 MB

页数：49页

时间：2019-01-30

资源描述：

《基于机器学习主题web挖掘技术》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、山东师范大学硕士学位论文基于机器学习的主题Web挖掘技术姓名：张娜申请学位级别：硕士专业：计算机软件与理论指导教师：张化祥20070427山东师范大学硕士学位论文基于机器学习的主题Web挖掘技术摘要随着网络信息资源的急剧增长，人们越来越多地关注如何快速有效地从海量的网络信息中，获取潜在的、有价值的信息，使之有效地在管理和决策中发挥作用。但当用户面对这个海量、异构、半结构化的信息库时，常常发现要查找到所、需的信息要耗费大量的时间和精力，甚至难以找到，造成了“信息过载、知识匮乏”的现象。主题Web挖掘是近几年内兴起的一个被广泛关注的研究课题。它利

2、用主题页面在Web上的分布特点，根据用户或系统定义的目标主题，以智能的方法在线爬行Web页面，收集与目标主题相关的页面，并对收集到的页面进行智能分析和处理，最后将处理的页面集合以灵活方便的检索方式提供给用户使用。许多项目的研究结果表明，主题Web挖掘方法能够保持较高的主题相关度，提高查询的精度．这为提高用户查询效率，提供了一个新的研究方向．一本文的贡献和创新工作主要体现在以下几个方面：1．～本文研究和分析了Web挖掘技术和机器学习理论。Web挖掘根据挖掘对象的不同被分为三类，Web内容挖掘、Web结构挖掘、Web使用记录挖掘．文中介绍了主题W

3、eb挖掘的理论及当前的研究现状，结合主题Web页面在网络中的分布特征，阐明了进行主题Web挖掘的依据及存在的困难。机器学习是人工智能领域的一个重要分支，它主要研究计算机怎样模拟或实现人类的学习行为，有目的地自动增进其性能，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能．本中主要研究了机器学习理论，对机器学习的模型、分类、及发展历程作了介绍．同时，对机器学习在Web挖掘领域的应用前景作了描述。2．Web爬虫是一类可以通过下载Web页面、分析页面内容、并跟随其中的链接来递归遍历Web的计算机程序。主题Web爬虫能够根据用户或信

4、息检索定义的目标主题，以智能的方式在线爬行Web，在有限的时间和空间资源条件下，收集到尽可能多的主题相关Web页面。如何有效地控制主题爬虫爬行策略是影响Web挖掘成功的最重要因素之一．本文结合机器学习理论，引入反例样本学习理念，提出一种新的主题爬虫爬行策略。实验证明该策略能有效的提高查询的收获率。3．Web页面重要性的计算是进行Web挖掘的一个重要问题．本文在原有HITS算山东师范大学硕士学位论文法的基础上，加入了内容相关度的计算，提出了一种新的计算页面重要性的算法一嚣HITS算法。4．本文设计了基于机器学习的主题Web挖掘系统，并对各个模块

5、的作用进行了介绍。该系统能够根据用户的查询请求进行页面收集，对收集到的页面计算其重要性，最后把主题相关且重要的页面反馈给用户。同时，可根据用户的反馈信息，进行进一步的系统调整。关键字：Web挖掘；机器学习；主题爬虫；HITS分类号：TP391山东师范大学硕士学位论文TheTechnologyofTopicalWebMiningBasedonMachineLearningWiththewebinformationresourcesemergeabruptly，howtogetthosepotentialandvaluableinformatio

6、nfromnetworkhasattractedpeople’smoreandmoreattention．Confrontedwiththishuge，heterogeneousandsemi—structuralinformationrepository，Websurfersoftenhavetospendalotoftimeandeffortstofindinformationneeded，andeventhattheymayfailinmanycases；TopicalWebMiningisanewresearchdirectionin

7、recentyears，whichprovidesanewresearchdirection．Themaincontributionsofthethesiscanbesumnrizedasfollows：1．ThisarticlestudiesandanalysesWebMiningandMachineLearning．WebMiningisdividedintothreebranchesbydifferentobjects：WebContentMining、WebStructureMining、WebUsageMining．Accordin

8、gtothedistributionofthetopicWebpagesontheweb，TopicalWebMiningcollectsWebpageswhich

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 49



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于机器学习主题web挖掘技术

基于机器学习主题web挖掘技术

相关文章

相关标签