fl15111702+web日志挖掘技术的研究及应用

fl15111702+web日志挖掘技术的研究及应用

ID:11834949

大小:3.58 MB

页数:58页

时间:2018-07-14

fl15111702+web日志挖掘技术的研究及应用_第1页
fl15111702+web日志挖掘技术的研究及应用_第2页
fl15111702+web日志挖掘技术的研究及应用_第3页
fl15111702+web日志挖掘技术的研究及应用_第4页
fl15111702+web日志挖掘技术的研究及应用_第5页
资源描述:

《fl15111702+web日志挖掘技术的研究及应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第五章,原来是关联规则,现在要改成聚类的方式,算法为第四章的改进的蚁群算法。原来的功能图太宽跨界了,图不可以超过文档的内容部分。第一章,主要是研究现状及分析进行修改,其他的文字表述做相应修改查重率差不多达到10%1引言随着Internet/Web日志技术的急剧增长和快速普及,以及在电子商务和信息共享等方面的广泛应用,用户可以用很低的成本从网络上获得信息,Internet已成为最丰富的信息来源地,为了更好地对这些大量、无序的网页信息进行排序和检索,需要提升搜索引擎对网络信息的处理和组织能力,因此在这样的形势下,产生了Web日志挖掘(Web日志Mining)

2、[1]技术,目的在于从Web日志的组织结构和链接关系中发掘出有用的模式和规律,该技术无疑成为数据挖掘中的热点,包括自然规则计算方法、神经网络、统计学、机器学习为主等人工智能相关技术。随着Internet/WWW的全球互通互连,从中取得的数据量难以计算,所以当处理这些数据并且从Web日志的服务中抽取信息时需要采用Web日志挖掘技术。Web日志挖掘需要从非结构化、半结构化或动态易混淆的数据中,抽取潜在的、易用的信息和模式的过程。根据Web日志数据类别的不同,可以将Web日志挖掘分为以下三类:Web日志内容挖掘、结构挖掘和使用挖掘。这三类挖掘分别作用于网页信息

3、站点中的内容、结构和使用信息,并且已经在发现用户访问模式、反竞争情报活动、建立数据仓库等很多方面得到了应用。1.1课题背景及研究意义随着万维网的迅速发展以及良好的发展趋势,尤其是电子商务的蓬勃发展为网络应用提供了强大的支撑。然而处理Web日志上海量的数据量,需要一种能高效快捷地从Web日志页面中获取信息的工具,由此搜索引擎产生了。现有的搜索引擎技术在很大程度上方便了人们对信息的检索,不过仍然存在一些不足之处,比如搜索精度不高、覆盖率有限等问题,无法更好地发现Web日志上潜在、隐藏的知识。将传统的数据挖掘同Web日志相融合,从而发展出了Web日志挖掘,该技

4、术就传统的数据挖掘来看存在较多优势。它们的不同之处在于:传统数据挖掘技术只是对数据结构中结构化的数据进行挖掘,通过数据间的存储结构不同来发现知识,而Web日志挖掘是针对半结构化、杂乱、动态的数据进行挖掘,由于Web日志页面内容的复杂程度远超过普通文本的样式结果,所以导致了Web日志挖掘技术无法直接传承传统的数据库挖掘模型和技术。这就让挖掘的前提需要将传统数据挖掘技术与Web日志挖掘相结合,融合各自的优点,使整个数据挖掘系统同数据库能更紧密的结合在一起。由于要对数据进行组织和整合,这就需要一个完整的Web日志挖掘体系,才能分析并得出自己需要的信息。因此进行

5、挖掘之前需要找到相关的Web日志文档。各Web日志信息之间有着密切的关系,从中找到正确的数据结构特点,利用自动化搜索的方法实现对Web日志上信息结构排序和内容的抽取,避免了各算法之间使用的重复性。蚁群算法是一种模拟进化的算法,它是借鉴蚂蚁在寻找食物过程中会自动搜寻最短路径而衍生出来的。该算法具有优良的分布式计算[2]、正反馈性等特点,特别是在解决组合最优的问题上已经吸引了很多中外学者的关注。它也是继遗传算法、人工神经网络算法后又一个得到大家认可的研究性课题。在本论文之中,将一种比较新型的蚁群算法的概念引入到WEB挖掘的聚类、分类技术之中,在获取更优的分类

6、规则上面取得了较好的效果。1.1研究现状及分析Web日志挖掘无论在国内还是国外都是通过挖掘服务器存储的Web日志,进而发现用户访问Web站点的访问模式。根据对Web日志数据源处理方法的不同,Web日志挖掘可以分为以下两类:第一类是将Web日志记录中的数据进行转换,然后传递进传统的关系表中,再用常规的算法对关系表中的数据进行挖掘。第二类是在对Web日志记录的数据进行挖掘之前对数据先进行数据预处理操作。(1)Web日志挖掘聚类和分类技术聚类是从Web日志的访问数据中分析并整合出来具有相似特征事务的技术。Web日志使用挖掘中分为:页面聚类和使用聚类。页面聚类是

7、通过搜索引擎在Web日志上找到具有相关内容的页面组,这更方便于用户在上网时能更容易地获得想要的信息。使用聚类就是将具有相似浏览模式的用户分为一组,这样形成了若干组,并对其量化,从中得到对用户有用的规则,当前该技术常应用于电子商务和一些个性化服务上。这两种聚类方法就是通过搜索引擎分析用户查询或访问网页信息时产生的历史记录所形成的HTML,来向用户提供超链接。分类是对新添加的数据进行分类并将一个对象分到事先定义好的类中,根据用户群的特征来挖掘出用户群的访问特征。在Web日志挖掘中,分类可以通过访问用户信息而得到的一些用户特征,这需要抽取并选择出最好地描述这组

8、特定用户的特征,并根据这些特征对用户进行分类。常使用监督归纳学习算法来进行分类,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。