基于机器学习主题web挖掘技术

基于机器学习主题web挖掘技术

ID:32009784

大小:1.54 MB

页数:49页

时间:2019-01-30

基于机器学习主题web挖掘技术_第1页
基于机器学习主题web挖掘技术_第2页
基于机器学习主题web挖掘技术_第3页
基于机器学习主题web挖掘技术_第4页
基于机器学习主题web挖掘技术_第5页
资源描述:

《基于机器学习主题web挖掘技术》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、山东师范大学硕士学位论文基于机器学习的主题Web挖掘技术姓名:张娜申请学位级别:硕士专业:计算机软件与理论指导教师:张化祥20070427山东师范大学硕士学位论文基于机器学习的主题Web挖掘技术摘要随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,获取潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。但当用户面对这个海量、异构、半结构化的信息库时,常常发现要查找到所、需的信息要耗费大量的时间和精力,甚至难以找到,造成了“信息过载、知识匮乏”的现象。主题Web挖掘是近几年内兴起的一个被广泛关注的研究课题。它利

2、用主题页面在Web上的分布特点,根据用户或系统定义的目标主题,以智能的方法在线爬行Web页面,收集与目标主题相关的页面,并对收集到的页面进行智能分析和处理,最后将处理的页面集合以灵活方便的检索方式提供给用户使用。许多项目的研究结果表明,主题Web挖掘方法能够保持较高的主题相关度,提高查询的精度.这为提高用户查询效率,提供了一个新的研究方向.一本文的贡献和创新工作主要体现在以下几个方面:1.~本文研究和分析了Web挖掘技术和机器学习理论。Web挖掘根据挖掘对象的不同被分为三类,Web内容挖掘、Web结构挖掘、Web使用记录挖掘.文中介绍了主题W

3、eb挖掘的理论及当前的研究现状,结合主题Web页面在网络中的分布特征,阐明了进行主题Web挖掘的依据及存在的困难。机器学习是人工智能领域的一个重要分支,它主要研究计算机怎样模拟或实现人类的学习行为,有目的地自动增进其性能,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能.本中主要研究了机器学习理论,对机器学习的模型、分类、及发展历程作了介绍.同时,对机器学习在Web挖掘领域的应用前景作了描述。2.Web爬虫是一类可以通过下载Web页面、分析页面内容、并跟随其中的链接来递归遍历Web的计算机程序。主题Web爬虫能够根据用户或信

4、息检索定义的目标主题,以智能的方式在线爬行Web,在有限的时间和空间资源条件下,收集到尽可能多的主题相关Web页面。如何有效地控制主题爬虫爬行策略是影响Web挖掘成功的最重要因素之一.本文结合机器学习理论,引入反例样本学习理念,提出一种新的主题爬虫爬行策略。实验证明该策略能有效的提高查询的收获率。3.Web页面重要性的计算是进行Web挖掘的一个重要问题.本文在原有HITS算山东师范大学硕士学位论文法的基础上,加入了内容相关度的计算,提出了一种新的计算页面重要性的算法一嚣HITS算法。4.本文设计了基于机器学习的主题Web挖掘系统,并对各个模块

5、的作用进行了介绍。该系统能够根据用户的查询请求进行页面收集,对收集到的页面计算其重要性,最后把主题相关且重要的页面反馈给用户。同时,可根据用户的反馈信息,进行进一步的系统调整。关键字:Web挖掘;机器学习;主题爬虫;HITS分类号:TP391山东师范大学硕士学位论文TheTechnologyofTopicalWebMiningBasedonMachineLearningWiththewebinformationresourcesemergeabruptly,howtogetthosepotentialandvaluableinformatio

6、nfromnetworkhasattractedpeople’smoreandmoreattention.Confrontedwiththishuge,heterogeneousandsemi—structuralinformationrepository,Websurfersoftenhavetospendalotoftimeandeffortstofindinformationneeded,andeventhattheymayfailinmanycases;TopicalWebMiningisanewresearchdirectionin

7、recentyears,whichprovidesanewresearchdirection.Themaincontributionsofthethesiscanbesumnrizedasfollows:1.ThisarticlestudiesandanalysesWebMiningandMachineLearning.WebMiningisdividedintothreebranchesbydifferentobjects:WebContentMining、WebStructureMining、WebUsageMining.Accordin

8、gtothedistributionofthetopicWebpagesontheweb,TopicalWebMiningcollectsWebpageswhich

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。