web数据挖掘系统的设计及关键技术研究81474new

web数据挖掘系统的设计及关键技术研究81474new

ID:34508721

大小:61.19 KB

页数:4页

时间:2019-03-07

web数据挖掘系统的设计及关键技术研究81474new_第1页
web数据挖掘系统的设计及关键技术研究81474new_第2页
web数据挖掘系统的设计及关键技术研究81474new_第3页
web数据挖掘系统的设计及关键技术研究81474new_第4页
资源描述:

《web数据挖掘系统的设计及关键技术研究81474new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第35卷第1期航空计算技术Vol135No112005年3月AeronauticalComputerTechniqueMar12005Web数据挖掘系统的设计及关键技术研究刘敏钰,薛鸿民(陕西教育学院计算机系,陕西西安710061)摘要:Web数据挖掘是一种新兴的边缘科学技术,它涉及到机器学习、数据挖掘、信息检索、自然语言处理、数据库以及人工智能等技术,可用于网络检索、网站建设以及电子商务等方面。本文在对Web数据挖掘技术详细研究的基础上,提出了一个Web数据挖掘的通用系统框架,并对信息收集、信息选择和预处理、模式的提取和用户接口

2、等各个组成部分所使用的技术和存在的问题及解决的方法进行了讨论。本文结合Web自身的特点,提出了一个智能网页收集器WebCrawler,它除具有一般WebRobot的基本功能外,还采用了一种既考虑文本重要性又考虑链接结构的URL排序方法,从而确保收集的Web页面是Web比较优秀的部分。关键词:信息检索;数据挖掘;Web+中图分类号:TP274.2文献标识码:A文章编号:16712654X(2005)0120059204引言文本数据挖掘进行了研究,并指出基于知识的算法将[4]Internet及WWW(WorldWideWeb)的出现极

3、大会在Web数据挖掘中扮演重要的角色;B.Pinkerton地改变了人们的工作、学习和生活。Web上巨大的信对信息的收集和评价方法进行了讨论并引入了结构息使人们处于RichDataPoorInformation的境地。人挖掘来评价查询结果;Osmar.R.Zaiane等还对Web们获取信息的主要手段———搜索引擎存在着搜索范多媒体数据挖掘进行了研究,并提出了一个多媒体数[5]围比较窄、搜索结果不准确、基于句法的查询接口、不据挖掘的系统原型。1998年,S.Brin和L.Page提出能提供多媒体搜索服务等缺点,所以无法满足人们需了P

4、ageRank算法并将其应用到Google。求,而Web数据挖掘的出现能部分解决此类问题。与国外相比,国内对数据挖掘的研究稍晚,主要Web数据挖掘(DataMining)就是利用数据挖掘开始20世纪90年代中期。对数据挖掘的研究要在技术从网络文档和服务中发现和提取信息。数据挖1998年以后。南京大学、北京大学、中科院计算技术掘也称为KDD,是指从大量的、不完全的、有噪声的、研究所等等对Web内容挖掘进行了一定的研究,国防模糊的、随机的数据中,提取隐含在其中的、有用的信科技大学、上海交通大学、西安交通大学、复旦大学等[1][6]息和

5、知识的过程。对Web访问信息挖掘进行了大量研究。邹涛、王继[7][8][8][9]成、王实、高文、张卫丰等对Web内容挖掘1发展现状及面临的问题以及Web信息检索的技术进行了研究。国防科技大Web数据挖掘有两种方法———直接对Web文档学、上海交通大学、西安交通大学等对用户访问站点进行挖掘和构造Web数据仓库进行挖掘。传统的从的路径访问模式进行了初步研究。此外,一些数据挖Web上提取信息的搜索引擎和近来的从Web上智能掘和智能信息检索的学术团体也十分活跃,如数据挖提取信息的搜索工具都是直接对Web文档进行挖掘。掘讨论组、南京大学B

6、BS的数据挖掘版和智能信息检Web是一个没有标准、没有结构的异构系统,可以将索论坛等。但是国内的科研力量和研究水平与国外其转换并看作一个多层数据库,用数据库技术进行管有一定差距,还没有提出独到而又新颖理论和方法。理和挖掘。本文在对Web数据挖掘技术详细研究的基础上,IBM,NEC等机构对Web数据挖掘进行了大量的提出了一个Web数据挖掘的通用系统框架,并对信息[2][3]研究,并取得了一定的成果。S.Charkrabarti对超收集、信息选择和预处理、模式的提取和用户接口等收稿日期:2004211227作者简介:刘敏钰(1964-

7、),女,陕西合阳人,副教授,主要研究方向为信息技术教育及计算机网络。©1994-2006ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved.http://www.cnki.net·60·航空计算技术第35卷第1期各个组成部分所使用的技术和存在的问题及解决的方法进行了讨论。2WEB数据挖掘及分类“Web数据挖掘(WebMining)”一词是由O.Etzi2图2Web数据挖掘的分类oni在1996年提出的,他指出Web上的信息已经“结构化”,从而能够方便有效地

8、进行Web数据挖掘,同时将Web数据挖掘分为三个过程———资源发现(Source3Web数据挖掘系统的设计Finding)、信息提取(InformationExtraction)和概括Web数据挖掘系统划分为四个大的子功能模块:(Generaliz

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。