【硕士论文】数据挖掘的新技术研究.pdf

【硕士论文】数据挖掘的新技术研究.pdf

ID:32034117

大小:5.28 MB

页数:98页

时间:2019-01-30

【硕士论文】数据挖掘的新技术研究.pdf_第1页
【硕士论文】数据挖掘的新技术研究.pdf_第2页
【硕士论文】数据挖掘的新技术研究.pdf_第3页
【硕士论文】数据挖掘的新技术研究.pdf_第4页
【硕士论文】数据挖掘的新技术研究.pdf_第5页
资源描述:

《【硕士论文】数据挖掘的新技术研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、中文摘要随着Intemet的发展,网上购物、电子政务、网上信息检索等活动日益频繁,人们对网络服务的需求成为网络发展的巨大动力。但面对网上巨大的数据量和众多的网站,人们在选择网络服务二检索信息时往往感到无从下手,如何使网络服务适应不同用户的个性化需求已成为网络服务提供者急切关心的问题。要满足用户的个性化需求,关键的问题是如何发现用户的访问模式,对Web进行数据挖掘的目标之一就是要发现用户的访问模式。Web数据挖掘可分为三种类型,即:Web使用挖掘、Web结构挖掘和Web内容挖掘,而挖掘用户的频繁访问序列是发现用户的访问模式的主要方法,也是Web使用挖掘的一项重要任务。W

2、eb使用挖掘可以从Web日志或访问者的行为中发现知识,并且可以从不同用户的访问中发现不同用户的行为之间的内在关系。挖掘的结果可以用于改进Web站点的设计和向用户提供服务的方式,以尽可能地满足不同用户的需求。本文在深入研究了OLTP、OLAP数据库的设计特点和Web日志挖掘的已有算法及其相关知识的基础上,对原AprioriAll算法进行了改进。在Web日志挖掘过程中,通过对Web日志数据按“用户维’’进行切片,不仅可以将所有用户看作一个整体进行挖掘,而且还实现了对不同的用户个体的行为进行独立地挖掘,从而使挖掘出的结果能够满足对用户个性化使用的需求。这一改进同时实现了对W

3、eb日志的增量挖掘,使对Web日志的动态挖掘成为可能。实验表明,改进后的算法较原算法减少了挖掘过程中候选集的大小和对数据库的扫描次数,使时空效率得以提高。针对表示和存储Web事务要占用大量内存,以及Apriori类算法在挖掘过程中要产生大量候选集和对数据库进行频繁扫描的缺点,本文提出了Web事务编码技术和逆一Apriori算法。Web事务编码技术使用一个数字表示一个Web事务,可以对Web事务数据库进行压缩,减少内存的占用;而逆一Apriori算法可以反向获取用户的最大频繁访问序列,并在此基础上发现关联规则,避免了Apriori类算法逐次产生候选频繁项集的烦琐过程。通

4、过分析用户浏览网页的行为和网站对用户请求的反应,本文还提出了利用用户访问网页的驻留时间进行Web日志挖掘的方法。驻留时间反映了用户浏览网页的行为,通过在挖掘前设定用户访问网页的驻留时间的区间值,使挖掘者可以选择和缩减挖掘的范围,提高了挖掘算法与使用者之间的交互能力。基于这一思想的新算法,首先通过对Web日志的预处理,产生带有驻留时间的Web访问记录集,然后以驻留时间为限制条件,构建驻留时间频繁访问序列树,用以存储ⅡI和压缩带有驻留时间的数据库,并记录网页的支持数量。最后以驻留时间频繁访问序列树为挖掘对象,在最小支持度的限制下,通过采用深度优先的方法对驻留时间频繁访问序

5、列树进行遍历,发现用户访问网站的驻留时间最大频繁访问序列,对比实验表明该算法对Web日志挖掘有较高的效率。模糊神经网络是数据挖掘研究领域的又一大热点问题。本文依据最大似然原则,推导出用于模糊神经网络分类算法的交叉熵函数准则,同时构建了新的激活函数。基于交叉熵准则和新的激活函数的模糊神经网络分类算法与基于误差平方和准则的BP算法相比,有更快的学习速率而又不致使学习过程失稳,不易陷入局部极小点。新的激活函数的优点在于不仅可以取到0、l值,而且还具有根据总误差调节函数曲线斜率的能力,加快了算法的收敛速度,提高了算法的效率,改善了算法的动态性能。最后,本文提出了引入生物信息技

6、术解决Web挖掘中的用户识别问题的设想,并提出了基于隐马尔科夫模型构建虹膜识别系统的方法,该方法仅需要虹膜的方向域作为输入参数,与需要许多虹膜细节的常规方法相比,它对虹膜图像的噪声与扭曲并不敏感,从而使该方法具有鲁棒性的特点;另一方面该匹配方法简化了预处理过程,具有较高的效率。通过准确识别用户,克服了现有Web体系无状态的缺陷,可以实现对Web日志数据按“用户维’’进行切片,因此不仅可以将所有用户看作一个整体进行挖掘,而且还可以对不同用户的个体行为进行独立地挖掘,从而使挖掘出的结果能够满足对用户个性化使用的需求。这一设想实施后,还能够实现对Web的增量挖掘,从而使对W

7、eb日志的动态挖掘成为可能。●关键词:用户维,Web日志编码,逆.AprioriAll算法,网页驻留时间,交叉熵函数准则,激活函数,生物信息识别IVABSTRACTWiththedevelopmentofIntemet,electroniccommerce,electronicgovernmenLandinformationretrievalonlinehavebeenusedmorefrequently.TheIntemetservicesneedhasbeenthepowerforitsdevelopment.Butasforthehugedat

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。