欢迎来到天天文库
浏览记录
ID:5350613
大小:263.48 KB
页数:3页
时间:2017-12-08
《关联规则挖掘在网络信息检索中的应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、关联规则挖掘在网络信息检索中的应用ApplicationofMiningAssociationRulesinNetworkInformationRetrievalSystem熊回香许颖颖(华中师范大学信息管理系武汉430079)摘要针对目前网络信息检索效率不高的问题,提出了一种基于关联库的查询扩展方法。此方法通过将文档用向量空间模型表示,然后,抽取文档中的特征语词/概念,再利用关联规则挖掘技术揭示文档中语词/概念之间的相关性和层次关系,从而构建关联库。通过关联库对用户的查询需求进行扩展以达到提高查全率和查准率的目的。关键词数据挖掘关联规则查询扩展信息检索中图分类号TP311随着Inter
2、net的迅速发展,Web已成为一个主要的信息格),进行中文文档的词频统计前,首先需要对中文文档进行分源,涉及的信息是非常巨大而且日新月异的,用户想从中快速、词处理。中文文本的分词就是在中文文本的各词条问加入分准确地发现有用的信息变得越来越困难。为了方便用户对网隔符,将词条切分成词的序列。中文文本的分词方法有很多络信息的查询,基于关键字的搜索引擎被广为采用,然而搜索种,各种方法适用的情况也不同,在对准确度要求不高的情况引擎本身存在的信息分类不规范、自动标引不完善等问题降低下可以采用较为简单的基于词典的正同匹配、逐词遍历分词方了查准率和查全率。为了解决这些问题,使用户查询时尽可能法。多地查到
3、符合查询语义的信息,同时尽可能少地出现与查询语1.3文档表示文档表示的常用方法是向量空间模型。利义无关或者弱相关的信息,有关学者提出了查询扩展技术,试用向量空问模型l2]表示文档的具体过程如下:图提高信息检索中的查全率和查准率,引起了国内外的广泛关首先,文档D(Document)被看作是由一系列词条t建立的n注和研究。本文提出一种将关联规则挖掘技术与查询扩展相维向量空间,可以表示成D(tl,t2,⋯,t,⋯,t)。其中,t是文结合的方法,能进一步完善搜索引擎的查询功能,从而提高网档D中的第k个语词(1≤≤),能够代表文档内容的基本语络信息检索效率。言单位。1文档信息处理其次,根据每个语词
4、/概念在文档中出现的频率和位置给其赋予相应的权值,来表示每个语词的重要程度。此时,文档D1.1文档信息采集在网络上进行信息采集,需要通过可以表示为特征向量y(D)=(l,wI;t2,2;⋯,,;⋯t,Robot等网络资源采集器实现。Robot是一个能沿着Web页面w)。其中表示文档D中第项的权值。然后利用此权值在坐中的超链接进行自动漫游的程序,它能够通过HTTP等标准协议下载所漫游到的页面。网络中存在的信息量非常大,为了提标系中表示出该文档所对应的向量,此时文档可表示为(”。,高采集的效率,可运用多个Robot并行采集文档。在采集过程W2。⋯,,⋯,w)。中,可构造适当的启发策略,来指导
5、Robot的路径选择和采集范最后,利用余弦相似度定理,判断文档D与查询串q的相围,以减少文档采集的盲目性。似度。1.2文档信息预处理对采集来的信息进行预处理,主要×lODik包括英文文档的词干提取(Stemming)和中文文档的词条切sim(q,Df)=—兰兰======分⋯。√∑()∑()从英文单词的多种形式中提取出基本词干的过程被称作V^=1●l1.4特征提取文档表示中词条t及其权值的选取称为特Stemming。英文单词在具体使用时,可以有现在时、过去时等征提取.它是挖掘文档共性与规则的提取过程J。多种形式,如“walk”,“walked”,“walker”,“walking”,还有
6、的单词有名词、形容词、副词等多种形式,如“use”,“useful”,“u~fu1.词、词组和短语是组成文档的基本元素,在不同内容的文“neSs”档中,各词条出现频率有一定的规律性,因此可根据词条的频,u~fully”等,但它们的词于是相同的,因此在进行词频统计时应该作为相同的词处理。实现Stemming的一般方法是建率特性进行目标特征提取。一个有效的特征项集,必须具备能立单词前缀.后缀表和特殊形式表,用匹配方式实现。够确实表示目标内容和能将目标同其他文档相区分两个特征。中文与英文不同,句子中各词条间没有固有的分隔符(空因此我们可构造词条权值评价函数:作者简介:熊回香,女,l966年生,
7、硕士,副教授,研究方向为网络信息组织与检索;许颖颖.女,1985年生,硕士,研究方向为网络信息组织与检索。困卿誊享鎏最小支持度和信任度闽值,保证关联规则的有效性,避免无意义的规则产生。√砉c篙,×bs(+o.o)C.相关性兴趣度阈值限定。尽管通过上述限定,可以在一定程度上剔除无效的规则,但高支持度、高信任度的规则不一定真的有效,也不一定能真实反映语词之间的相关性。为了解决这个问题,我们引入了关联规则的另一个阈值——兴趣度,来对关联规
此文档下载收益归作者所有