欢迎来到天天文库
浏览记录
ID:56800483
大小:177.00 KB
页数:20页
时间:2020-06-28
《基于团的Markov网络信息检索模型.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于团的Markov网络信息检索模型甘丽新王明文张华伟江西师范大学2006年7月23日研究背景模型思想模型方法实验结果进一步工作大纲研究背景提高检索效率是信息检索研究的永恒主题现有很多研究根据词之间的依赖关系进行直接扩展在检索过程中加入有利于检索的信息改善检索结果如何建立能刻划这种依赖关系的模型?模型思想考虑词与词之间的相关性对查询进行扩展,使查询包含更多的有用信息.在Markov网络检索模型中,通过对检索词子网络结构的分析,提取出词网络中的最大完全子图-团。同一子团中的词构成一个形式概念,由此把基于词的检索扩展为基于形式概念检索
2、。通过团来提取词与词之间的依赖关系。数据集预处理构建检索词子网络计算词的相似性及其idf值检索词子网络词团的提取根据团的提取算法查询扩展根据团的扩展算法基于团的Markov网络模型模型方法(1)词的Markov网络构造基于Markov网络是无向图的考虑,本文采用的是条件概率的综合指标,记为:本文采用了逆文档频率,过滤掉一些高频词和低频词。词的逆文档频率定义为:网络中的每一个词,都满足于:且(2)团的提取通过对词的Markov网络结构的分析,发现许多词之间是有边相连,而且构成了完全图-团。本文提出了一个提取团的算法。算法思想:在(n
3、-1)_Clique()中,任何两个团若是n_Clique()中同一个团的子团,那么这2个团中只存在两个不相同的词,且这两个词之间是有边相连,即相关。检索模型给定查询,文档集,我们希望根据文档和给定的查询的相关概率的大小,排列文档集中的文档,从而得出我们需要的文档。因此需要计算。为词子空间的Markov网络,C为团的集合,有条件概率定义可得:若词的网络固定时,,,,对任一均相同,则由(5)式可得检索算法的一般形式:由乘法公式和条件概率定义可得:本文将团中词与词之间的相关性引入到检索中,通过修正词的权重,重新构造文档和查询之间的相关
4、性。因此由(7)式修正为:其中:权重计算概率估计:权重方式:为归一化因子(10)团的扩展由于同一个团中的词构成了一个形式概念,并且很好的反映了词与词之间的依赖关系一般来说,若一个团的阶数越高,则该团越重要,它所构成的形式概念也越重要对于同阶团,团的权重越大,则该团越重要,它所构成的形式概念也越重要团的选取方法为:从最高阶团开始选取,同阶团则按照团的权重由大到小选取团的权重图中团的重要性为:试验结果试验数据:adi,med,cran,cisi,cacm预处理:提取文档中的
5、大写字母变小写字母,去除停用词,运用Porter算法进行词干化处理评价指标:11-avg和3-avg模型比较:5种检索算法hits、tf、idf、tf*idf和BM25与本文模型进行比较进一步工作尝试将窗口单元进行调整,以段落或是句子为单位;在文档空间中,考虑文档与文档之间的关系,建立文档网络,提取文档团扩展文挡模型;尝试采用迭代思想,通过词之间的关系与文档之间的关系的相互影响进行迭代,构造成稳定网络;在大文档集(像TREC)和实际问题中检验模型性能;THANKYOU!u(y+B2E6H9KcOfRjUmXp!s&v)z0C4F7
6、IaMdPgSkVnZq$t*x-A1D5G8KbNeQiTlWo#r%v(y+B3E6H9LcOgRjUmYp!s&w)z1C4F7JaMdPhSkVnZq$u*x-A2D5G8KbNfQiTlXo#r%v(y0B3E6I9LcOgRjVmYp!t&w)z1C4G7JaMePhSkWnZr$u*x+A2D5H8KcNfQiUlXo#s%v(y0B3F6I9LdOgRjVmYq!t&w-z1C4G7JbMePhTkWnZr$u(x+A2E5H8KcNfRiUlXp#s%v)y0C3F6IaLdOgSjVnYq!t*w-z1D4G7
7、JbMeQhTkWoZr$u(x+B2E5H9KcNfRiUmXp#s&v)y0C3F7IaLdPgSjVnYq$t*w-A1D4G8JbNeQhTlWoZr%u(y+B2E6H9KcOfRjUmXp!s&v)z0C3F7IaMdPgSkVnYq$t*x-A1D5G8JbNeQiTlWo#r%u(y+B3E6H9LcOfRjUmYp!s&w)z0C4F7JaMdPhSkVnZq$u*x-A2D5G8KbNeQiTlXo#r%v(y+B3E6I9LcOgRjUmYp!t&w)z1C4F7JaMePhSkWnZq$u*x+A2D5H8
8、KbNfQiUlXo#s%v(y0B3F6I9LdOgRjVmYp!t&w-z1C4G7JaMePhTkWnZr$u*x+A2E5H8KcNfQiUlXp#s%v)y0B3F6IaLdOgSjVmYq!t*w-z1D4G7JbMeQhTkWoZr$
此文档下载收益归作者所有