欢迎来到天天文库
浏览记录
ID:32347965
大小:4.33 MB
页数:77页
时间:2019-02-03
《基于图结构信息检索算法的研究和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要随着计算机的出现与普及,尤其是上世纪90年代互联网蓬勃兴起之后,人们摆脱了信息贫乏的桎梏,进入了一个信息极度丰富的社会,人们能从Intemet获得数目惊人的信息。如何快捷准确地获取感兴趣的信息,就成为人们关注的主要问题。信息检索的目的在于提供满足用户要求的内容,而传统的文本信息检索方法的基本思路为查询式和预存的文本关键词的自动匹配工作,两者相符的文本被检出。但是由于自然语言的模糊性和多义性,这种通过词汇简单匹配检索出的结果并不是最优的。随着信息检索技术的不断发展,挖掘更加有效的信息对检索的结果进行优化成为一个研究热点。查询扩展和结果
2、重排就是两种常用的利用附加信息进行检索结果优化的方法。但传统的查询扩展和结果重排方法都只是从与单个词或单个文档间的关系等来进行附加信息的考虑,而没有从概念或主题方面来进行考虑。本文对基于图结构的信息检索算法进行了研究并实现了一个原型系统。Markov网络是一种较好的表示知识关联的图形表示方法,可以从实例数据来训练获得,并且它的无向性能更好地解释信息检索中知识之间的关系,具有强大的学习功能和推导能力。通过对文档集的学习,词与词之间相关性、文档与文档之间的相关性被提取出来,从而构造出词子空间Markov网络及文档子空间Markov网络,把从
3、Markov网络中挖掘出来的文档团加入到检索模型中。实验表明:我们的模型在很大程度上提高了检索效率。此外,本文在文档和特征的关系的二部图基础上,提出了基于协同聚类的两阶段文本聚类方法,实验结果表明,我们提出的算法对于文本聚类特征选择及文本聚类结果都取得了不错的效果。本文的创新点在于:1.把从Markov网络中提取出的文档团加入到检索模型中。从文档集中提取的文档团描述着一个共同的主题,通过提取出的文档团,修正检索过程中每篇文档的检索得分以实现文档重排,通过实验验证和分析了基于团模型的信息检索模型的性能,并与一些常用的检索模型算法及已有的M
4、arkov网络信息检索模型的性能做了比较。本文提出的模型表现比较优异,在很大程度上提高了检索效率。2.提出了基于协同聚类的两阶段文本聚类方法。该方法分别对文档和特征进行聚类从而得到特征与主题之间的语义关联关系,然后利用此关系来相互调整彼此的聚类结果;聚类分两阶段进行,第一阶段对训练集进行协同聚类,第二阶段利用第一阶段的聚类结果进行有监督的特征选择,然后以所选特征对测试集进行协同聚类。实验结果表明,利用特征与主题之间的语义关联关系能有效地提高聚类性能。3.将本文提出的基于团模型的文档重排算法及基于协同聚类的两阶段文本聚类方法应用于江西省科
5、技攻关项目(20062184):基于分层的个性化推荐系统的内容推荐模块中,使本文提出的算法在真实系统中得到应用。关键词:信息检索、查询扩展、Markov网络、文档团、文本聚类2ABSTRACTW油theappearanceandpopularizationofcomputer,especiallyafterthespringupofIntemetof1990s,peoplehasbreakawayfromtheshackleofInformationnecessity,enterintothetimeswimplentifulinfor
6、mationandpeoplecailachieveamountofinformationfromintemet.Howtogetexactinformationrapidlyandisbecomingaproblemneedbesolvedurgently.TheaimofinformationretrievaliSofferuserthesatisfyinganswer,thebasicthoughtsoftraditionaltextinformationretrievalistheautomaticmatchingofthequ
7、eryandthekeywordstoredpreviously,thenthemathedtextsarecheckedout.However,duetothepolysemiaandtheambiguityofnaturallanguage,theretrievalresultisinefficientbythemethodofterm—simple-match.Withthedevelopmentofinformationtec,miningthemoreefficientinformationtooptimizetheretri
8、evalresultbecomesareseaehhotspot.Queryexpansionanddocumentrerankingarethemethodsoftenusedtooptimizeretr
此文档下载收益归作者所有