web日志挖掘技术研究及应用

web日志挖掘技术研究及应用

ID:47628861

大小:811.15 KB

页数:61页

时间:2019-10-02

web日志挖掘技术研究及应用_第1页
web日志挖掘技术研究及应用_第2页
web日志挖掘技术研究及应用_第3页
web日志挖掘技术研究及应用_第4页
web日志挖掘技术研究及应用_第5页
资源描述:

《web日志挖掘技术研究及应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、第五章,原来是关联规则,现在要改成聚类的方式,算法为第四章的改进的蚁群算法。原来的功能图太宽跨界了,图不可以超过文档的内容部分。第一章,主要是研究现状及分析进行修改,其他的文字表述做相应修改查重率差不多达到10%1引言随着WebH志技术的急剧增长和快速普及,以及在电子商务和信息共享等方面的广泛应用,用户可以用很低的成本从网络上获得信息,Intemet已成为最丰富的信息来源地,为了更好地对这些大量、无序的网页信息进行排序和检索,需要提升搜索引擎对网络信息的处理和组织能力,因此在这样的形势下,产生了Web日志挖掘(Web日志Mining)111技术,目的在于从Web日

2、志的组织结构和链接关系中发掘出有用的模式和规律,该技术无疑成为数据挖掘中的热点,包括自然规则计算方法、神经网络、统计学、机器学习为主等人工智能相关技术。随着Internet/WWW的全球互通互连,从中取得的数据量难以计算,所以当处理这些数据并且从Web日志的服务中抽取信息时需要采用Web日志挖掘技术。WebH志挖掘需要从非结构化、半结构化或动态易混淆的数据中,抽取潜在的、易用的信息和模式的过程。根据Web日志数据类别的不同,可以将Web0志挖掘分为以下三类:Web日志内容挖掘、结构挖掘和使用挖掘。这三类挖掘分别作用于网页信息站点中的内容、结构和使用信息,并且已经在

3、发现用户访问模式、反竞争情报活动、建立数据仓库等很多方面得到了应用。1.1课题背景及研究意义随着万维网的迅速发展以及良好的发展趋势,尤其是电了商务的蓬勃发展为网络应用提供了强大的支撑。然而处理Web日志上海量的数据量,需耍一种能高效快捷地从Web日志页面中获取信息的工具,由此搜索引擎产生了。现有的搜索引擎技术在很大程度上方便了人们对信息的检索,不过仍然存在一些不足之处,比如搜索精度不高、覆盖率有限等问题,无法更好地发现Web日志上潜在、隐藏的知识。将传统的数据挖掘同WebH志相融合,从而发展出了WebH志挖掘,该技术就传统的数据挖掘来看存在较多优势。传统数据挖掘技

4、术只是对数据结构中结构化的数据进行挖掘,通过数据间的存储结构不同来发现知识,而WebH志挖掘是针对半结构化、杂乱、动态的数据进行挖掘,由于Web日志页面内容的复杂程度远超过普通文本的样式结果,所以导致了Web日志挖掘技术无法直接传承传统的数据库挖掘模型和技术。这就让挖掘的前提需耍将传统数据挖掘技术与Web日志挖掘相结合,融合各自的优点,使整个数据挖掘系统同数据库能更紧密的结合在一起。由于要对数据进行组织和整合,这就需要一个完整的Web口志挖掘体系,才能分析并得出自己需要的信息。因此进行挖掘之前需要找到相关的Web日志文档。各Web日志信息之间有着密切的关系,从中找

5、到正确的数据结构特点,利用自动化搜索的方法实现对Web日志上信息结构排序和内容的抽取,避免了各算法之间使用的重复性。蚁群算法是一种模拟进化的算法,它是借鉴蚂蚁在寻找食物过程中会白动搜寻最短路径而衍牛出来的。该算法具有优良的分布式计算、正反馈性等特点,特别是在解决组合最优的问题上已经吸引了很多屮外学者的关注。它也是继遗传算法、人工神经网络算法后又一个得到大家认可的研究性课题。1.2研究现状及分析WebH志挖掘无论在国内还是国外都是通过挖掘服务器存储的WebFl志,进而发现用户访问Web站点的访问模式。根据对WebH志数据源处理方法的不同,Web日志挖掘可以分为以下两

6、类:第一类是将Web日志记录中的数据进行转换,然后传递进传统的关系表中,再用常规的算法对关系表中的数据进行挖掘。第二类是在对Web日志记录的数据进行挖掘之前对数据先进行数据预处理操作。国外对Web口志挖掘的研究基本上可以从1996年算起,比较突出的有:1996年学者M.S.Chen、H.Mannila^T.Yan提出了可以将数据挖掘方法用于Web研究领域。Mannila和Chen在研究过程中都假设去掉了图形文件、声音文件以后的Web服务器日志如实地反映了用户在网站中访问的情况。Mannila⑵把用户访问页面当作事件,从网站访问日志中试着寻找用户访问网站的周期。Ch

7、en错误!未找到引用源。提出了最人向前参引路径,并提出用这种方法把用户的Session分解成为一个个访问事务,然后就可以在事务基础上,挖掘用户访问的模式。T.Yan研究了如何动态地根据将用户进行分类,并根据同类用户访问页面的情况提供推荐页面。1997年,PerKowitz141等人在人机界而研究领域提出了AdaPtiveWebSite的概念,主要研究的是如何以历史访问为依据,使服务器提供的页面可以自动或者半自动化地调整。1998年Han把Web服务器访问口志集成到数据立方体结构(Datacubestructure)中,这样就可以对访问日志用传统的在线数据分析处理过

8、程(oLA

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。