web日志挖掘技术研究及应用

ID：47628861

大小：811.15 KB

页数：61页

时间：2019-10-02

资源描述：

《web日志挖掘技术研究及应用》由会员上传分享，免费在线阅读，更多相关内容在工程资料-天天文库。

1、第五章，原来是关联规则，现在要改成聚类的方式，算法为第四章的改进的蚁群算法。原来的功能图太宽跨界了，图不可以超过文档的内容部分。第一章，主要是研究现状及分析进行修改，其他的文字表述做相应修改查重率差不多达到10%1引言随着WebH志技术的急剧增长和快速普及，以及在电子商务和信息共享等方面的广泛应用，用户可以用很低的成本从网络上获得信息，Intemet已成为最丰富的信息来源地，为了更好地对这些大量、无序的网页信息进行排序和检索，需要提升搜索引擎对网络信息的处理和组织能力，因此在这样的形势下，产生了Web日志挖掘（Web日志Mining）111技术，目的在于从Web日

2、志的组织结构和链接关系中发掘出有用的模式和规律，该技术无疑成为数据挖掘中的热点，包括自然规则计算方法、神经网络、统计学、机器学习为主等人工智能相关技术。随着Internet/WWW的全球互通互连，从中取得的数据量难以计算，所以当处理这些数据并且从Web日志的服务中抽取信息时需要采用Web日志挖掘技术。WebH志挖掘需要从非结构化、半结构化或动态易混淆的数据中,抽取潜在的、易用的信息和模式的过程。根据Web日志数据类别的不同，可以将Web0志挖掘分为以下三类：Web日志内容挖掘、结构挖掘和使用挖掘。这三类挖掘分别作用于网页信息站点中的内容、结构和使用信息，并且已经在

3、发现用户访问模式、反竞争情报活动、建立数据仓库等很多方面得到了应用。1.1课题背景及研究意义随着万维网的迅速发展以及良好的发展趋势，尤其是电了商务的蓬勃发展为网络应用提供了强大的支撑。然而处理Web日志上海量的数据量，需耍一种能高效快捷地从Web日志页面中获取信息的工具，由此搜索引擎产生了。现有的搜索引擎技术在很大程度上方便了人们对信息的检索，不过仍然存在一些不足之处，比如搜索精度不高、覆盖率有限等问题，无法更好地发现Web日志上潜在、隐藏的知识。将传统的数据挖掘同WebH志相融合，从而发展出了WebH志挖掘，该技术就传统的数据挖掘来看存在较多优势。传统数据挖掘技

4、术只是对数据结构中结构化的数据进行挖掘，通过数据间的存储结构不同来发现知识，而WebH志挖掘是针对半结构化、杂乱、动态的数据进行挖掘，由于Web日志页面内容的复杂程度远超过普通文本的样式结果，所以导致了Web日志挖掘技术无法直接传承传统的数据库挖掘模型和技术。这就让挖掘的前提需耍将传统数据挖掘技术与Web日志挖掘相结合，融合各自的优点，使整个数据挖掘系统同数据库能更紧密的结合在一起。由于要对数据进行组织和整合，这就需要一个完整的Web口志挖掘体系，才能分析并得出自己需要的信息。因此进行挖掘之前需要找到相关的Web日志文档。各Web日志信息之间有着密切的关系，从中找

5、到正确的数据结构特点，利用自动化搜索的方法实现对Web日志上信息结构排序和内容的抽取，避免了各算法之间使用的重复性。蚁群算法是一种模拟进化的算法，它是借鉴蚂蚁在寻找食物过程中会白动搜寻最短路径而衍牛出来的。该算法具有优良的分布式计算、正反馈性等特点，特别是在解决组合最优的问题上已经吸引了很多屮外学者的关注。它也是继遗传算法、人工神经网络算法后又一个得到大家认可的研究性课题。1.2研究现状及分析WebH志挖掘无论在国内还是国外都是通过挖掘服务器存储的WebFl志，进而发现用户访问Web站点的访问模式。根据对WebH志数据源处理方法的不同,Web日志挖掘可以分为以下两

6、类：第一类是将Web日志记录中的数据进行转换，然后传递进传统的关系表中，再用常规的算法对关系表中的数据进行挖掘。第二类是在对Web日志记录的数据进行挖掘之前对数据先进行数据预处理操作。国外对Web口志挖掘的研究基本上可以从1996年算起，比较突出的有：1996年学者M.S.Chen、H.Mannila^T.Yan提出了可以将数据挖掘方法用于Web研究领域。Mannila和Chen在研究过程中都假设去掉了图形文件、声音文件以后的Web服务器日志如实地反映了用户在网站中访问的情况。Mannila⑵把用户访问页面当作事件，从网站访问日志中试着寻找用户访问网站的周期。Ch

7、en错误!未找到引用源。提出了最人向前参引路径，并提出用这种方法把用户的Session分解成为一个个访问事务，然后就可以在事务基础上，挖掘用户访问的模式。T.Yan研究了如何动态地根据将用户进行分类，并根据同类用户访问页面的情况提供推荐页面。1997年，PerKowitz141等人在人机界而研究领域提出了AdaPtiveWebSite的概念，主要研究的是如何以历史访问为依据，使服务器提供的页面可以自动或者半自动化地调整。1998年Han把Web服务器访问口志集成到数据立方体结构（Datacubestructure)中，这样就可以对访问日志用传统的在线数据分析处理过

8、程(oLA

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 61



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

web日志挖掘技术研究及应用

web日志挖掘技术研究及应用

相关文章

相关标签