基于粒子群优化算法Web挖掘技术探究

基于粒子群优化算法Web挖掘技术探究

ID:43963263

大小:47.26 KB

页数:6页

时间:2019-10-17

基于粒子群优化算法Web挖掘技术探究_第1页
基于粒子群优化算法Web挖掘技术探究_第2页
基于粒子群优化算法Web挖掘技术探究_第3页
基于粒子群优化算法Web挖掘技术探究_第4页
基于粒子群优化算法Web挖掘技术探究_第5页
资源描述:

《基于粒子群优化算法Web挖掘技术探究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于粒子群优化算法Web挖掘技术探究摘要:Web是目前最大的信息系统。Web挖掘就从Web文档和Web活动中发现和抽取用户感兴趣的、潜在的、有用模式和隐藏的知识。本文介绍了有关web挖掘的任务和存在问题,同时介绍了PSO算法以及各种改进措施。关键词:Web;挖掘;PSO随着Internet的迅速发展,WorldWideWeb已深入到社会生活的方方面面。Web可以说是目前最大的信息系统,其数据具有海量、多样、异构、动态变化等特性。人们使用Web,一般有如下需求口]:获取相关信息或服务;从Web信息中发现新的知识;提供个性化服务:不同的用户对信息、服务有不同的要求。为了解决上述问题

2、,人们迫切需要能自动地从Web上发现、抽取和过虑信息的工具,由此产生了Web挖掘。Web挖掘就是从Web文档和Web活动中发现和抽取潜在的、用户感兴趣的有用模式和隐藏的知识[2]。1-Web挖掘WEB挖掘可以认为包括以下四个子任务[3,4]资源发现、信息选择和预处理、概括和泛化、分析。资源发现是一个从Web上的联机资源中检索数据的过程。信息选择和预处理是一个信息转变的过程。它可以是除去停用词,词干处理,发现训练集中的短语,以及得到关系或逻辑表示等。概括过程是应用数据采掘技术获得知识。最后的分析是对采掘结果的验证和解释,在此过程中应该发挥人的作用。Web文本信息的特征获取是指自动

3、地从Web文本信息中抽取出代表其内容主题的特征词条形成特征矢量来表示Web文本。它影响到下一步Web文本分类的质量。文本挖掘问题的一个主要难点是特征矢量的维数过高,对于大多数学习算法来说都难以承受。目前已有多种方法被用于特征抽取,比如文档频次门限方法、信息增益方法、x2分布方法、互信息嫡方法、基于奇异值分解的潜在语义索引方法(LSI)以及基于遗传算法的特征提取算法等。聚类技术是对符合某一访问规律特征的用户进行用户特征挖掘。Web使用挖掘中存在两种类型的聚类:使用聚类(用户聚类)和页面聚类。根据聚类的结果聚类方法可分为层次聚类与非层次聚类。在不同的方法中,人们研究了获得较高的计算

4、效率的问题。在Web使用挖掘过程中,对用户、Web页面等Web对象进行聚类时,存在明显的模糊性,模糊聚类也因此成为目前Web聚类分析研究的主流。2.Web挖掘中存在的问题Web数据挖掘⑸与传统数据挖掘不同,Web页面的结构比一般文本文件复杂很多,它可以支持多种媒体的表达。人们最初是希望通过Web来实现世界各种信息的互通,在这个平台上自然希望任何的信息都可以表达了。因此也造成了互联网数据的复杂性这个特点。而在互联网上文档一般是分布的,异构的,无结构或者半结构的。许多新技术的产生为解决这个难题提供了一条可行的道路,如XML技术。还有,互联网上的数据动态性极强,页面本身的内容和相关的

5、链接经常更新。而互联网面对的客户也各不相同,这些都造成了用户行为模式分析的困难度。现行Web挖掘方法很多,解决Web信息应用部分问题,但存在一定的不足,如:由于用户查询固有的主观性、不精确性和不确定性,大多数Web检索系统仅用一个简单的检索模型,侧重于检索效率,忽视了检索的准确性。不能进行软决策,现有查询是基于“硬抛弃”法,而且取决于查询与检索出文档的相关性,但相关性只是文档的部分属性,不是很分明的界限。页面分级还不全面,还没有考虑各种参数的权重,如点击位置、相邻性和频率等,分级还很少考虑用户的特点。为处理Web数据特征,克服目前现有的Web挖掘方法的局限,软计算方法是一个很好

6、的方法。软计算是一组协同的方法,它提供一种处理现实中模糊状态信息灵活处理能力。它们的目标是通过探索不精确、不确定、近似推理和局部正确的最大可能限度,达到易理解的、健壮的和低代价的解决方案,类似人的决策过程。软计算技术包括模糊逻辑(fuzzylogic,FL)、粗糙集(roughset,RS)、人工神经网络(artificialneuralnetwork,ANN)和遗传算法(geneticalgorithm,GA)[5-8]o现有的Web文档特征抽取算法文章证明这些特征抽取方法都有一些局限。传统的聚类分析把每个待辨识的对象严格地划分到某个类中,各个类别的界限是分明的。然而现实世界

7、存在着大量的界限划分不严格的聚类问题。即问题具有一定的模糊性,如在区分“优”和恨”等级时,就需要模糊划分。在Web使用挖掘过程中,对用户、Web页面等Web对象进行聚类时,存在明显的模糊性,模糊聚类也因此逐渐成为Web聚类分析研究的主流。3•粒子群优化算法粒子群优化(ParticleSwarmOptimization,PSO)算法⑴是Kennedy和Eberhart受人工生命研究结果的启发、通过1=模拟鸟群觅食过程中的迁徙和群聚行为而提出的一种基于群体智能的全局随机搜索算法,与其他进化算法一

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。