改进WEB数据挖掘方法及其在个性化推荐中的应用

ID：44499631

大小：196.79 KB

页数：5页

时间：2019-10-22

资源描述：

《改进WEB数据挖掘方法及其在个性化推荐中的应用》由会员上传分享，免费在线阅读，更多相关内容在工程资料-天天文库。

1、2010年第6期科技管理研究ScienceandTechnologyManagementResearch2010No.6文章编号：1"00-7695(2010)06-0239-03改进WEB数据挖掘方法及其在个性化推荐中的应用何俊杰陆军$(1.宁波大学网络中心，浙江宁波315211；2.国防科技大学计算机学院，湖南长沙410073)摘要：个性推荐系统在数字图书馆中具有良好的发展和应用前景，逐渐成为电子资源智能处理的一个重要研究內容。提出了一种基于遗传算法的改进WEB数据挖掘方法，同时将该方法应用到

2、数字图书馆中电子资源的个性化推荐中。实验结果表明，本文方法适用于大规模文本数据集；该方法提取规則的分类正确半校高，分类速度校快；本文方法极大地提高了丈本挖掘系统的分类效準。关键词：数据挖掘；个性化推荐；遗传算法；数字图书馆中图分类号：G202文献标识码：A收稿日期：2009^09^29,修回日期：2010-02-05?基金项目：国家自然科学基金项目"多目标非线性规划数据挖掘方法及其应用”(70023836)1引言数据挖掘的核心技术历经了十几年的发展，已经取得了很大的成就。现在，这些成熟的技术，加上

3、高性能的关系数据库引擎以及广泛的数据集成，让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段⑴oWEB数据挖掘是数据挖掘的一个重要分支，是随着数据库技术、人工智能技术和网络技术的发展而提出的⑵。互联网使得目前数字图书馆中的信息资源更加丰富，但随着信息量的膨胀，用户很难获得符合其偏好特征的信息。为了克服这种信息获取困难，个性化推荐技术被应用到数字图书馆中，从而主动向用户推荐其可能缶要的信息。目前,个性化推荐技术⑶被应用在很多领域.如电子商务、可卜出信息检索等，其中应用较成熟的是基于协作过滤的推荐技

4、术。但在其应用的过程中存在很多问题，如用户评价矩阵的稀疏性、算法的可扩展性等。为了解决这些问题，很多改进的方法先后被提出，如单值分解法⑷、贝叶斯法⑴等，但稀疏性问题均未得到很好的解决，更頂要的是图书馆的读者都有特定专业背景，读者兴趣也有其待殊性。在数字图书馆中对于大多数读者尤其是研究型读者来说，他们的研究兴趣往往集中在某一个(或几个)领域中，对于研究领域中的信息资源具有较多的评价，而对研究领域以外的信息资源评价很少甚至几乎没有。鉴于此，提出了一种基于遗传算法的改进WEB数据挖掘方法，同时将该方法应

5、用到数字图书馆中电子资源的个性化推荐中。文本分类技术岀现于20世纪60年代早期⑸。20世纪80年代，研究人员用知识工程(KnowledgeEngineering,KE)的方法来实现文本分类⑹。KE方法一般采用析取范式(Dis・junctivcNormForm,DNE)为每个类别定义逻辑规则，足一种简单的自然语言处理方法(NaturallanguageProcessing,NLP)。Rmi等采用复杂的词汇一语义模式来实现对自然语言资料库(NalurallanguageforDataBases,NLD

6、B)的分类⑺。Jacobs等采用统计方法来辅助构造分类规则，进一步提高了文本分类系统的性能⑻。采用KE方法实现文本分类需要手工编制规则或应用英它复杂的NLP技术，难度非常大，也非常耗时，在很多场合显得过于低效而不实用⑼。WEB挖掘就是利用数据挖掘技术，自动地从网络文档以及服务中发现和抽取信息的过程【心。WEB挖掘是一项综合技术，涉及WEB、数据挖掘、计算语言学、信息学等多个领域M。和传统的数据挖掘相比，WEB挖掘有很多的独特之处(⑵。首先，WEB在逻辑上是一个由文档节点和超链接构成的图，因此WEB

7、挖掘所得到的模式可以是关于WEB内容的，也可以是关于WEB结构的。其次，WEB挖掘的对象是大駅的、分布的、异质的WEB文档，它们是结构化的或半结构化的，数据量巨大，增长迅速，并且具有机器难以理解的语义。因此现有的数据挖掘工具并不完全适用于WEB挖掘。这样，开发新的WEB挖掘技术，以及对WEB文档进行预处理得到关于文档的待征表示等问题，便成为WEB挖掘研究的重点。2—种改进的WEB数据挖掘方法本文基于遗传算法的改进WEB数据挖掘方法的优化框架如图1所示。该方法按照顺序覆盖的方法，试图挖掘出一个能覆盖

8、大多数甚至全部训练样本的分类规则列表。该方法的执行流程可描述如下：(1)变重初始化。将已发现规则列表设置为空，同时将所有的训练样本放置到训练样本集中。(2)遗传算法的演化。遗传算法的每次演化都能发现一个分类规则。遗传算法演化完成后，将本次演化发现的规则加入到已发现规则列表中；同时，将该规则所覆盖的样本从训练样本集中剔除。(3)终止条件。当未覆盖样本的数目小于用户预设值时，遗传算法停止演化。采用本文方法实现的中文WEB文本挖掘原型系统既是一个实验平台，也是一个实用平台。在该平台上，既

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 5



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

改进WEB数据挖掘方法及其在个性化推荐中的应用

改进WEB数据挖掘方法及其在个性化推荐中的应用

相关文章

相关标签