internet数据挖掘原理与实现

internet数据挖掘原理与实现

ID:33871738

大小:193.40 KB

页数:5页

时间:2019-03-01

internet数据挖掘原理与实现_第1页
internet数据挖掘原理与实现_第2页
internet数据挖掘原理与实现_第3页
internet数据挖掘原理与实现_第4页
internet数据挖掘原理与实现_第5页
资源描述:

《internet数据挖掘原理与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第13卷,第2期重庆邮电学院学报2001年6月Vol.13No.2JournalofChongqingUniversityofPostsandTelecommunicationsJun.2001文章编号:10045694(2001)02005804XInternet数据挖掘原理及实现宋伟,王举成,马根峰,赵济林(重庆邮电学院,重庆400065)摘 要:分析了Internet数据挖掘的特点、目标及其原理,重点探讨了文本知识挖掘及其CVSM模型、搜索引擎数据挖掘及其OEM模型及基于Intranet的多软件机器人体系结构和基于

2、Agent的个性化检索,最后指出了Internet数据挖掘的发展方向。关键词:Internet;数据挖掘;文本知识挖掘;搜索引擎;个性化检索中图分类号:TP393   文献标识码:AInternetDataMiningPrincipleandImplementationSONGWei,WANGJu2cheng,MAGen2feng,ZHAOJi2lin(InstituteofManagement,ChongqingUniversityofPostsandTelecommunications,Chongqing400065

3、,China)Abstract:Thisarticleanalysesthecharacteristics,targetandprincipleofInternetdatamining.ThenitdiscusseschieflythetextknowledgeminingwithitsCVSMmodel,thesearchingenginedataminingwithitsOEMmodel,themulti2softwarerobotarchitecturebasedonIntranetandtheindividual

4、searchingbasedonagent.Atlastthepaperpointsoutthefuturetrendofdevelopmentindatamin2ing.Keywords:Internet;datamining;textknowledgemining;searchengine;individualsearchingInternet数据挖掘与Internet数据组织形式有0 概 述着密切的关系。Internet中最多的是以HTML文档组成的Web页面,再就是Gopher,FTP,UseNet,Intern

5、et数据挖掘是个人、企业、网站从Inter2NewsGroup,BBS,MailList等,为了方便用户定位net提供的信息资源中,根据各自不同的目的和特网站,出现了一些相关的搜索引擎,如针对Gopher点,抽取有关数据并且从中发现数据中隐含的规则的WAIS,针对FTP的Archie,针对Web页面的引和知识,从而更进一步地获取数据的过程。擎最多,如Yahoo,Sohu等,还有一些用户通过In2Internet数据挖掘总的来讲,有3个目标:一是tranet实现Internet数据挖掘。不同的数据组织形精确度,即返回数据符

6、合用户需求的程度;二是覆盖式有着不同的特点,除Web站点内的数据主要为率,即有多少符合用户需求的数据被返回;三是效HTML格式的半结构化数据外,其余的多为层次化率,即响应速度。的结构化的形式。对于WAIS、Archie、Gopher、X收稿日期:20001128作者简介:宋伟(19762),男,湖北应城人,研究生,研究方向为管理信息系统;王举成(19732),男,重庆开县人,研究生,研究方向为管理信息系统;马根峰(19742),男,河南新郑人,研究生,研究方向为数据库理论及应用;赵济林(19462),重庆邮电学院管理学院

7、院长,副教授,硕士导师。·58·©1995-2006TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.宋伟、王举成、马根峰、赵济林:Internet数据挖掘原理及实现FTP、UseNet、BBS等结构化数据,一般通过在用户模型(CVSM:CharacteristicVectorSpaceModel)与它们之间增加中介检索代理来实现,比较简便;故的,一般过程如图1所示。本文主要讨论如何实现Web数据挖掘。它主要有下面的问题需要解决。(1)Web引擎如何高覆盖率、高速地

8、从Web网站及其网页获取数据并进行高精度的分类索引,传统的以人工搜索为主的方式显然是不够的。(2)普通用户如何通过引擎以及一般Web站点高精度、高覆盖率、高速地获取所需数据,传统的以直接漫游或在引擎上输入关键字的方式也是不够1.1 文档模型建立—文档结构化的。·预处理过程。一是要根据禁用词集去除文档(3)在Intra

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。