资源描述:
《一种基于粗糙集的web文本搜索算法_彭云new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、软件时空《微计算机信息》(管控一体化)2009年第25卷第10-3期文章编号:1008-0570(2009)10-3-0182-02一种基于粗糙集的Web文本搜索算法TheAlgorithmofWebTextSearchingBasedonRoughSet(江西师范大学)彭云万红新PENGYunWANHong-xin摘要:Web文本搜索是搜索引擎的重要功能,但是往往搜索的文本关联程度不高,大量搜索的文本结果不是关注度和兴趣度很高的文本集合。提出了基于粗糙集的Web文本搜索技术,直接从给定待搜索的文本关键词出发,通过不可分辨关系和不可分辨类确定搜索
2、文本的内容约简,导出搜索文本的关联或分类规则,在一定程度上可以提高搜索文本的关联度和内聚度,约简文本搜索的结果集合,改善文本搜索的鲁棒性和有效性。关键词:粗糙集;文本搜索;搜索引擎;文本约简中图分类号:TP391.3文献标识码:AAbstract:WebTextsearchingisanimportantfunctionofsearchingengine.Therelatedextentofsearchedtextisoftenlow.Manyofthesearchedtextareonlow-levelconcernandinteresting
3、.Itisproposedatechniqueofrelatedtextsearchingbasedonroughsetin技thispaper.Throughtheindistinguishablerelationshipandclassification,thesearchedtextcanbereducedbythekeywords,andthewebtextclassificationcanbederived.Thetechniquecanincreasetherelationshipandcohesionofthesearchingte
4、xt,andreducethe术scaleofsearchingresult.Itcanimproverobustnessandefficiencyoftextsearching.Keywords:roughset;textsearching;searchengine;textreduction创基于关键词的文本搜索是搜索引擎要实现的一个重要功文本搜索中,将文本定义为属性,搜索关键词定义为论域元素。能,其目标是在分析文本内容的基础上,给搜索者提供一个或多一个搜索文本集合S=(U,A),其中,U是搜索关键词集合,为新个比较合适的文本分类结果集合。在
5、文本搜索分类处理过程中,非空有限集;A为非空有限搜索文本属性集合。设Va为属性每个文本都用维数特别高的向量来描述,其向量维数通常高达a∈A的值域;U→Va为一单映射,使U中任一元素取属性a在上万维,使得难于对之进行有效处理,而且向量之间的比较计算Va中的某一唯一值。如果A由条件属性集合C和决策属性集还将进一步增大文本分类的处理量。粗糙集(RoughSet)是一种合D组成,C和D满足C∪D=A,C∩D=Φ,则称S为Web文本系新的处理不完整性和不确定性知识的数学工具,其主要特点是统。对于Web文本系统S=(U,C∪{d}),BC是条件属性集合的不需
6、要预先给定某些特征或属性的数量描述,而是直接从给定一个子集,称二元关系ind(B,{d})={(x,y)∈U×U:d(x)=d(y)或者a∈问题的分类知识出发,通过不可分辨关系和不可分辨类确定给B,a(x)=a(y)}为s的不可分辨关系,其中x,y为U中的元素,不可分定问题的知识约简,导出问题的关联或分类规则。将粗糙集用于辨关系将论域分成不同等价类。文本搜索分类有以下优点:粗糙集无需提供除文本分类所需处设X为U的一个文本关键词属性子集,a为U中的一个对理的数据集合之外的任何先验信息,它将文本定义为不可区分象,[a]R表示所有与a不可分辨的对象所组
7、成的集合,R是论域U关系的一个族集,使得文本内容有了清晰的数据意义,并且可用上的一个等价关系。当集合X能表示成基本等价类组成的并集数学方法来分析处理;能够获得文本分类所需的最小特征属性时,则称集合X是可以精确定义的;否则,集合X只能通过逼近集,可以在不影响分类精度的条件下降低特征向量的维数;可以的方式来刻划。集合X关于R的下逼近定义为:R(X)={x∈U
8、[x]得到最简的显式表达的Web文本分类规则。本文提出了一种RX},由那些根据已有知识判断肯定属于X的对象所组成的基于粗糙集的Web文本搜索技术,从海量的搜索文本集合中,最大的集合,也称为X的正
9、域,记作POS(X);集合X关于R的上提取区别文本类别的最小关键词向量作为获取Web文本规则逼近定义为:(X)={x∈U
10、[x]R∩X≠