基于粗糙集与模糊集的信息检索算法

基于粗糙集与模糊集的信息检索算法

ID:33540022

大小:335.01 KB

页数:8页

时间:2019-02-26

基于粗糙集与模糊集的信息检索算法_第1页
基于粗糙集与模糊集的信息检索算法_第2页
基于粗糙集与模糊集的信息检索算法_第3页
基于粗糙集与模糊集的信息检索算法_第4页
基于粗糙集与模糊集的信息检索算法_第5页
资源描述:

《基于粗糙集与模糊集的信息检索算法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、万方数据第26卷第6期2012年12月模糊系统与数学FuzzySystemsandMathematicsV01.26,NO.6Dec.,2012文章编号:10017402(2012)060159-07基于粗糙集与模糊集的信息检索算法。刘文军1,赵利萍2,肖旗梅3(1.道路灾变防治及交通安全教育部工程研究中心(长沙理工大学),湖南长沙410076;2.长沙理工大学图书馆,湖南长沙410076)3.长沙理工大学数学与计算科学学院,湖南长沙410076}摘要:结合粗糙集与模糊集理论,提出一种信息检索的新方法。该方法首先对已知文本信息按关键词进行模糊聚类;然后利

2、用粗糙集理论求出各关键词的重要性程度;最后根据最大相似度原则对文本信息进行检索,若结果集中文本数量较大,则按文本与已知文本的相似度从高到低进行排序,先返回相似度较高的相关文档。关键词:粗糙集;模糊集;信息检索;相似度中图分类号:0159文献标识码:A1引言在网络和通信技术迅速发展的今天,网络规模越来越大,信息越来越多,信息的查找和获取也就变得越来越困难。人们越来越感受到了信息的冲击,而在日常生活工作中作为信息重要载体的文本,其信息量之大更新速度之快,使用户无法遍历所有感兴趣的内容,而且随着信息检索技术发展变化,用户对信息检索的要求在逐渐提高,需要使用多关

3、键词进行查询,并且为了更快速准确地检索到自己真正感兴趣的个性信息常常会给查询关键词赋予不同的兴趣度,希望把相关性不是很强的信息屏蔽起来,从而使检索结果针对性更强,获得更满意的结果。目前网上信息的表现形式大多数为文本,而且文本也是广大用户所习惯接受的形式,因此,我们主要讨论文本信息检索的处理技术。文本信息检索与文本处理领域的其它分支有着十分密切的联系(如文本过滤、文本分类、文本浏览和文本摘要等),并迅速成为业界的热点,各种相应的国际学术会议不断召开,已成为计算语言学领域新的增长点[1。]。目前,大多数的信息检索系统是基于文档和查询之问相关语言比较的计算算法

4、,具有代表性的有布尔模型、向量空间模型、概率模型等[61]。这些模型从不同的角度出发,使用不同的方法处理特征加权、类别学习和相似度计算等问题,在使用上,它们各有自己的优缺点。布尔模型简单,但效果差;概率模型按预测概率的大小输出结果,但计算量比较大,而且需要给出一个初始预测概率值;向量空间模型能够进行部分匹配,检索结果按相关性大小排序,更符合用户的需要,向量空问模型是目潜普遍使用的文本表示和处理模型。*收稿日期:2012-02—14;修订日期:2012—05—23基拿项目!塑南省科技厅项目(20LOFJ4136);湖南省教育厅项目(10c0403);长沙理

5、工大学道路灾变防治及交通安全教育部工程研究中心开放基金资助项目(kfjl00301)作者简介:刘文军(1971一),男,湖南邵东人,长沙理工大学数学与计算科学学院副教授;赵利萍(1972一),女,湖南邵东人,长沙理工大学图书馆员;肖旗梅(1976一),女,湖南双峰人,在读博士,长沙理工大学讲师,研究方向:粗糙集理论与数据挖掘。.万方数据160模糊系统与数学在信息检索的过程中通常需要处理不完备、不确定的大容量数据,为了帮助人们智能化地分析数据,自动地分析一些事例,出现了新一代的软计算工具,如粗糙集理论、模糊集理论等,本文结合粗糙集与模糊集理论,提出一种新的

6、信息检索的方法,该方法首先把文档信息根据关键词转化成一个信息表的形式,然后再根据粗糙集与模糊集理论对已知信息表进行处理,最后根据加权综合求所检索信息与已知信息的相似度,并根据所给相似度阈值,对数据库中将所有与检索文本相似度大于阈值的文本按相似度的大小排序,依次输出。2预备粗糙集理论[81是由波兰科学家Z.Pawlak在1982年提出的一种处理含糊和不确性问题的新型数学工具。经过近三十年的发展,该理论已渗透到人工智能的各个分支,在机器学习、决策分析、过程控制、模式识别与数据挖掘等领域取得了成功的应用p_12I。该理论的一个最大优点是它无须提供问题所需处理的

7、数据集合之外的认何先验信息,能客观有效地分析和处理不精确、不确定与不完全数据,并从中发现隐含的知识,揭示潜在的规律。为了处理智能数据,粗糙集理论将知识进行符号化,将所要研究的数据用一个信息系统的形式给出,信息系统的基本成分是研究对象的集合,关于这些对象的知识是通过指定对象的基本特征(属性)和它们的特征值(属性值)来描述。信息系统的数据以关系表的形式表示,关系表的行对应要研究的对象,列对应对象的属性,对象的信息是通过指定对象的各属性值来表达。形式上,S一(U,A,V,,)是一类信息系统,其中【,是有限论域;A为所有属性的集合,V—UV。,V。日∈^是属性以

8、的值域;厂:u×A—y是信息函数,即对于任意的U∈U,a∈A,有f(u,口)∈V

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。