欢迎来到天天文库
浏览记录
ID:44499631
大小:196.79 KB
页数:5页
时间:2019-10-22
《改进WEB数据挖掘方法及其在个性化推荐中的应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、2010年第6期科技管理研究ScienceandTechnologyManagementResearch2010No.6文章编号:1"00-7695(2010)06-0239-03改进WEB数据挖掘方法及其在个性化推荐中的应用何俊杰陆军$(1.宁波大学网络中心,浙江宁波315211;2.国防科技大学计算机学院,湖南长沙410073)摘要:个性推荐系统在数字图书馆中具有良好的发展和应用前景,逐渐成为电子资源智能处理的一个重要研究內容。提出了一种基于遗传算法的改进WEB数据挖掘方法,同时将该方法应用到
2、数字图书馆中电子资源的个性化推荐中。实验结果表明,本文方法适用于大规模文本数据集;该方法提取规則的分类正确半校高,分类速度校快;本文方法极大地提高了丈本挖掘系统的分类效準。关键词:数据挖掘;个性化推荐;遗传算法;数字图书馆中图分类号:G202文献标识码:A收稿日期:2009^09^29,修回日期:2010-02-05?基金项目:国家自然科学基金项目"多目标非线性规划数据挖掘方法及其应用”(70023836)1引言数据挖掘的核心技术历经了十几年的发展,已经取得了很大的成就。现在,这些成熟的技术,加上
3、高性能的关系数据库引擎以及广泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段⑴oWEB数据挖掘是数据挖掘的一个重要分支,是随着数据库技术、人工智能技术和网络技术的发展而提出的⑵。互联网使得目前数字图书馆中的信息资源更加丰富,但随着信息量的膨胀,用户很难获得符合其偏好特征的信息。为了克服这种信息获取困难,个性化推荐技术被应用到数字图书馆中,从而主动向用户推荐其可能缶要的信息。目前,个性化推荐技术⑶被应用在很多领域.如电子商务、可卜出信息检索等,其中应用较成熟的是基于协作过滤的推荐技
4、术。但在其应用的过程中存在很多问题,如用户评价矩阵的稀疏性、算法的可扩展性等。为了解决这些问题,很多改进的方法先后被提出,如单值分解法⑷、贝叶斯法⑴等,但稀疏性问题均未得到很好的解决,更頂要的是图书馆的读者都有特定专业背景,读者兴趣也有其待殊性。在数字图书馆中对于大多数读者尤其是研究型读者来说,他们的研究兴趣往往集中在某一个(或几个)领域中,对于研究领域中的信息资源具有较多的评价,而对研究领域以外的信息资源评价很少甚至几乎没有。鉴于此,提出了一种基于遗传算法的改进WEB数据挖掘方法,同时将该方法应
5、用到数字图书馆中电子资源的个性化推荐中。文本分类技术岀现于20世纪60年代早期⑸。20世纪80年代,研究人员用知识工程(KnowledgeEngineering,KE)的方法来实现文本分类⑹。KE方法一般采用析取范式(Dis・junctivcNormForm,DNE)为每个类别定义逻辑规则,足一种简单的自然语言处理方法(NaturallanguageProcessing,NLP)。Rmi等采用复杂的词汇一语义模式来实现对自然语言资料库(NalurallanguageforDataBases,NLD
6、B)的分类⑺。Jacobs等采用统计方法来辅助构造分类规则,进一步提高了文本分类系统的性能⑻。采用KE方法实现文本分类需要手工编制规则或应用英它复杂的NLP技术,难度非常大,也非常耗时,在很多场合显得过于低效而不实用⑼。WEB挖掘就是利用数据挖掘技术,自动地从网络文档以及服务中发现和抽取信息的过程【心。WEB挖掘是一项综合技术,涉及WEB、数据挖掘、计算语言学、信息学等多个领域M。和传统的数据挖掘相比,WEB挖掘有很多的独特之处(⑵。首先,WEB在逻辑上是一个由文档节点和超链接构成的图,因此WEB
7、挖掘所得到的模式可以是关于WEB内容的,也可以是关于WEB结构的。其次,WEB挖掘的对象是大駅的、分布的、异质的WEB文档,它们是结构化的或半结构化的,数据量巨大,增长迅速,并且具有机器难以理解的语义。因此现有的数据挖掘工具并不完全适用于WEB挖掘。这样,开发新的WEB挖掘技术,以及对WEB文档进行预处理得到关于文档的待征表示等问题,便成为WEB挖掘研究的重点。2—种改进的WEB数据挖掘方法本文基于遗传算法的改进WEB数据挖掘方法的优化框架如图1所示。该方法按照顺序覆盖的方法,试图挖掘出一个能覆盖
8、大多数甚至全部训练样本的分类规则列表。该方法的执行流程可描述如下:(1)变重初始化。将已发现规则列表设置为空,同时将所有的训练样本放置到训练样本集中。(2)遗传算法的演化。遗传算法的每次演化都能发现一个分类规则。遗传算法演化完成后,将本次演化发现的规则加入到已发现规则列表中;同时,将该规则所覆盖的样本从训练样本集中剔除。(3)终止条件。当未覆盖样本的数目小于用户预设值时,遗传算法停止演化。采用本文方法实现的中文WEB文本挖掘原型系统既是一个实验平台,也是一个实用平台。在该平台上,既
此文档下载收益归作者所有