欢迎来到天天文库
浏览记录
ID:21869039
大小:64.50 KB
页数:10页
时间:2018-10-25
《基于倒排文件中一种性能模型的研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于倒排文件中一种性能模型的研究:倒排文件作为现代大规模搜索引擎工作的一个核心技术,其原理简单,具备灵活高效的特点,具体体现在其根据需要可做到适当的变通。本文通过在给定搜索引擎系统内部参数的前提下对其吞吐率的研究,建立一种倒排文件性能模型,该模型有效地提高了倒排文件的运行效率。 关键词:倒排文件;搜索引擎;性能模型;信息检索 :TP31:A iningBasedontheS和一个文档集合元素即DOCS对应关系的数据结构,记为: DOCS={d1,d2,…dN},T
2、ERMS={t1,t2,…,tM} 在以“文档”为出发点时,称之为di中包含哪些tj,也可理解为某一个tj在di文档中出现了多少次。而“倒排文件”直接给出的是一个tj出现在哪些di中,进而还可以有它在某一个di中出现在哪些位置,包含多少次。用PL(tj)表示tj出现于其中的文档记录的集合,称为对应于tj的倒排表,下面是信息检索研究中常用的几个相关量。 N:文档集合的大小 M:词项集合的大小 Sj=
3、PL(tj
4、)
5、:词项tj所涉及文档的个数 DF(tj)=SjN:词项tj的文档频率 IDF(tj)=—lgDF(tj):倒置文档频率;其值越小表示出现频率越高。 fi,j:第j个词项tj在第i个文档di中出现的次数 TN=∑Ni=1∑Mj=1fi,j:系统所有文档分解后包含词项的总量 TF(tj)=∑Ni=1fi,jTN:词项tj在所有文档中出现的频度 ITF(tj)=—lgTF(tj
6、):倒置词频;越小表示出现频率越高 作为数据结构,倒排文件分为两部分:第一部分是由不同词项组成的索引,称为词表,第二部分由每个词项出现过的文档集合构成,称为记录文件,每个词项的对应部分称为倒排表,可以通过词表访问。具体倒排文件结构图如下图1所示: 图1倒排文件结构图 其中左边是词表,中间是记录文件。对应于词表的每一项,记录文件中有若干个倒排表,一半长度记为sj;统计分布为p(i)。至于PL(tj)的每一项,取决于信息检索的方式,对应内容则会有不同,在此用d表示其平均数据量,k表示查询的
7、到达量,r表示响应时间要求,B表示系统的最大输出能力。 3倒排文件的一种性能模型 所谓性能模型,在此就是要给出关于N、M、p(i)、d、B、r和k的一种关系,从而能够在给定系统内部参数的条件下对其外部行为即吞:倒排文件作为现代大规模搜索引擎工作的一个核心技术,其原理简单,具备灵活高效的特点,具体体现在其根据需要可做到适当的变通。本文通过在给定搜索引擎系统内部参数的前提下对其吞吐率的研究,建立一种倒排文件性能模型,该模型有效地提高了倒排文件的运行效率。 关键词:倒排文件;搜索引擎;性能模型;信息检
8、索 :TP31:A iningBasedontheS和一个文档集合元素即DOCS对应关系的数据结构,记为: DOCS={d1,d2,…dN},TERMS={t1,t2,…,tM} 在以“文档”为出发点时,称之为di中包含哪些tj,也可理解为某一个tj在di文档中出现了多少次。而“倒排文件”直接给出的是一个tj出现在哪些di中,进而还可以有它在某一个di中出现在哪些位置,包含多少次。用PL(tj)表示t
9、j出现于其中的文档记录的集合,称为对应于tj的倒排表,下面是信息检索研究中常用的几个相关量。 N:文档集合的大小 M:词项集合的大小 Sj=
10、PL(tj)
11、:词项tj所涉及文档的个数 DF(tj)=SjN:词项tj的文档频率 IDF(tj)=—lgDF(tj):倒置文档频率;其值越小表示出现频率越高。 fi,j:第j个词项tj在第i个文档di中出现的次数 TN=∑Ni=1∑Mj=1fi,j
12、:系统所有文档分解后包含词项的总量 TF(tj)=∑Ni=1fi,jTN:词项tj在所有文档中出现的频度 ITF(tj)=—lgTF(tj):倒置词频;越小表示出现频率越高 作为数据结构,倒排文件分为两部分:第一部分是由不同词项组成的索引,称为词表,第二部分由每个词项出现过的文档集合构成,称为记录文件,每个词项的对应部分称为倒排表,可以通过词表访问。
此文档下载收益归作者所有