欢迎来到天天文库
浏览记录
ID:43603907
大小:200.02 KB
页数:21页
时间:2019-10-11
《【精品】论文格式举例》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于Agent的数据挖掘在WEB预取中的应用研究摘要随着INTERNET技术的飞速发展,WWW以其多媒体的传输及良好的交互性而倍受青睐。现在市面上已经有了许多用于WEB预取的软件,如CNET网络公司的NetSonic浏览器加速软件,它的SonicCache技术会预先读入由目前浏览网页所连结岀去网页的文字部分以节省时间,但它可能获取大量对用户无用的页而,这对于整个网络系统以及用户的花费(有些网络是按照用户访问的流量来计费的)是个较大的负扌口;还有如Naviscope公司的Naviscope软件,它是一种
2、站内快速检索引擎,当进入一个站点,它会将该站点的结构图显示出来,以便快速查到所需内容,并显示下传和上传信息,它也需要获取人量无用的WEB页面,而且使用起来对用户并不透明。针对上述问题,本文研究并提出了一个基于Agent的WEB预取系统。关键词:数据挖掘预取数据模型WWWAgent目录摘要i第一章综述1第二章预备知识22.1数据挖掘的发展22.2数据挖掘的定义2第三章基于Agent的智能数据挖掘系统83」系统结构83.2冃标表示及信息预处理93.3兴趣关联规则挖掘算法10第四章基于Agent的WEB预取
3、系统124」系统要求124.2系统模型124.3WEB文档的预取12第五章系统实现145.1系统功能145.2开发环境14结束语17致谢18参考文献19第一章综述随着INTERNET技术的飞速发展,WWW以其多媒体的传输及良好的交互性而倍受青睐。自从其1991年诞生以来,己经发展成为一个巨大的分布式信息空间,拥有上亿用户、几百万站点和几亿页面,而月.其信息容量仍在以指数形式飞速增长,为用户提供了一个巨大的信息源。虽然近儿年来网络速度得到了很大的提高,但是出于接入INTERNET的用户数量剧增以及WEB
4、服务和网络固有的延迟,使得网络越来越拥挤,用户的服务质量得不到很好的保证。WWW以请求/响应方式工作,由于HTTP协议的无状态性,使得WEB服务器不能很好地了解用户的需求,从而不能预测用户的请求。现在的浏览器一般都使用缓冲机制,它利用WWW访问的时间局部性,将曾经访问过的文档保存在非服务器站点,从而避免向远程服务器发送请求,或者避免由远程服务器发送完整的响应。单纯的cache技术只是利用了WWW访问模式的时间局部性,对于未曾访问过的内容无法缓冲,响应性能依然得不到改善,这一点在用户发现一个新的热点服务
5、器或服务器的页面经常更新时,感觉尤其明显。另外,如果用户机器或本地代理服务器用于WWW内容缓冲的空间不人,曾经访问过的内容被覆盖,单纯的cache机制也不会产生好的响应性能。根据用户以往的访问习惯和当前的请求,预测用户将来可能发出的访问请求,在用户浏览当前WEB页面时将预测的内容取到本地高速缓存中,这样用户在真正要访问这些页面时只需从本地高速缓存下载,从而在很大程度上减小用户的访问延迟。预取对用户未请求过的页面进行缓冲,是一种主动的cache,是cache机制由时间局部性向空间局部性的扩展。预取技术在
6、WEB中的应用可大大减少用户请求后的等待时间。第二章预备知识2.1数据挖掘的发展近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需耍将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和WWW等。主要工具作出了重要贡献。自80年代中期以来,数据库技术的特点是广泛接受关系技术,研究和开发新的、功能强大的数据库系统。这些使用了先进的数据模型,如扩充关系模型、面向对象模型、对象一关系模型和演绎模型,包括
7、空间的、时间的、多媒体的、主动的和科学的数据库、知识库、办公信息库在内的面向应用的数据库系统百花齐放。涉及分布性、多样性和数据共享问题被广泛研究。异种数据库和基于INTERNET的全球信息系统WWW也已出现,并成为信息产业的生力军。在过去的几十年中,计算机硬件稳定的、令人吃惊的进步导致了功能强大的计算机、数据收集设备和存储介质的人量供应。这些技术人人推进了数据库和信息产业的发展,使得人量数据库和信息存储用于事务管理、信息检索和数据分析。随着数据库技术和数据库管理系统的广泛应用,全球范围内数据库中存储的
8、数据量急剧增大。数据的有效性是有时间性的。数据的丰富和时效性带来了对强有力的数据分析工具的需求,人们希望能够在对己有的大量数据分析的基础上进行科学研究、商业决策或企业管理。但是,现有的数据分析工具很难对数据进行深层次的处理,人们只能望“数”兴叹。大量的数据被描述为“数据丰富、信息贫乏”。快速增长的海量数据收集、存放在大型和大量数据库中,没有强有力的工较好的效果,为人们的正确决策提供了很大的帮助。2.2数据挖掘的定义数据挖掘(datamining—DM)是
此文档下载收益归作者所有