基于机器学习的主题web挖掘技术

基于机器学习的主题web挖掘技术

ID:30994442

大小:75.00 KB

页数:4页

时间:2019-01-05

基于机器学习的主题web挖掘技术_第1页
基于机器学习的主题web挖掘技术_第2页
基于机器学习的主题web挖掘技术_第3页
基于机器学习的主题web挖掘技术_第4页
资源描述:

《基于机器学习的主题web挖掘技术》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于机器学习的主题Web挖掘技术摘要:本文研究和分析了Web挖掘技术和机器学习理论。机器学习是人工智能领域的一个重要分支,它主要研究计算机怎样模拟或实现人类的学习行为,有目的地自动增进其性能,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能.本中主要研究了机器学习理论,对机器学习的模型、分类、及发展历程作了介绍.同时,对机器学习在Web挖掘领域的应用前景作了描述。Web页面重要性的计算是进行Web挖掘的一个重要问题•本文在原有HITS算法的基础上,加入了内容相关度的计算,提出了一种新的计算页面重要性的算法一HITS算法

2、。关键字:A:Web挖掘;B:机器学习;C:H1TSTheTechnologyofTopicalWebMiningBasedonMachineLearningThisarticlestudiesandanalysesWebNliningandMachineLearning.MachineLearningisanimportantbranchofthefieldofartificialintelligence.ThispaperpresentsthemodelofMachineTxarning,classification?andthed

3、evelopmentprocessoMeanwhile,eNbchincLearninginthefieldofWebMiningapplicationisdescribed.ThecalculationofWebpage"sauthorityradioisanimportantissueforWebMining.BasedontheHITSalgorithm^wcadvanceanewalgorithmforcalculatingtheimportance——theWHITSalgorithmKeylrords:A:WebMining

4、;B:MachineLearning;A:HITS随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,获取潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。但当用户面对这个海量、异构、半结构化的信息库时,常常发现要查找到所需的信息要耗费大量的时间和精力,甚至难以找到,造成了“信息过载、知识匮乏”的现象。主题Web挖掘是近几年内兴起的一个被广泛关注的研究课题。它利用主题页面在Web上的分布特点,根据用户或系统定义的目标主题,以智能的方法在线爬行Web页面,收集与目标主题相关的页面,并对收集到的页面进行智能

5、分析和处理,最后将处理的页面集合以灵活方便的检索方式提供给用户使用。许多项目的研究结果表明,主题Web挖掘方法能够保持较高的主题相关度,提高查询的精度.这为提高用户查询效率,提供了一个新的研究方向.1.绪论1・1研究背景随着因特网(Internet)的迅速发展,网络对我们的影响已经越来越大,日渐成为人们获得信息的必要途径和重要手段.而在网上发展最为迅猛的WWW(WorldWideWeb)技术,以其直观、方便的使用方式和丰富的表达能力,己经发展成为一个全球化信息发展空间。随着信息时代的到来和发展,Web上的信息如雨后春笋般迅速增长起来。2

6、007年23口,中国互联网络信息中心(CNNIC)在北京发布'第十九次中国互联网络发展状况统计报告》。报告显示,截止到2006年12月31n,我国网民人数达到了13700万人,与去年同期相比增长了23.4%,其中宽带上网网民人数己突破一亿.目前,我国网民数和宽居世界第二'”・然而面对这个分散无序的海量信息库,Web用户经常发现难以找到能满足他们需要的息,造成“信息过载,知识匮乏”的现状.一方面网上的信息多种多样、丰富多彩,一方面用户却找不到他们所需要信息•这一矛盾的主要原因是人们在如此大的信息库里,很难用浏览的方式找到口己所需的信息。这

7、一现彖促使一种以Web搜索引擎为主的,用于提取网络有效资源的信息检索技术应运而生了。Google,Infoseek,Baidu,AltaVista>天网等国内外知名的搜索引擎正是人们为了解决网上信息检索的难题,而在信息检索领域进行大量研究后的成果。1.2Web挖掘与相关研究内容Web挖掘si就是从Web页面和Web用户访问活动屮发现、抽取感兴趣的潜在的模式和隐藏的信息。它是以从Web上挖掘有用知识为冃标,以数据挖掘、文本挖掘、体挖掘为基础,并综合运用计算机网络、数据库与数据仓储、人工智能、信息检索、可视化、自然语言理解等技术,将传统的数

8、据挖掘技术与Web结合起来的一门新兴学科。介绍一下Web挖掘相关领域的研究,以及它们与Web挖掘的联系。2.Web挖掘理论简介万维网作为一个巨大的、分布广泛的全球性信息服务小心,服务内容不仅涉及新闻、消费信

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。