基于倒排文件中一种性能模型的研究

基于倒排文件中一种性能模型的研究

ID:21869039

大小:64.50 KB

页数:10页

时间:2018-10-25

基于倒排文件中一种性能模型的研究_第1页
基于倒排文件中一种性能模型的研究_第2页
基于倒排文件中一种性能模型的研究_第3页
基于倒排文件中一种性能模型的研究_第4页
基于倒排文件中一种性能模型的研究_第5页
资源描述:

《基于倒排文件中一种性能模型的研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于倒排文件中一种性能模型的研究:倒排文件作为现代大规模搜索引擎工作的一个核心技术,其原理简单,具备灵活高效的特点,具体体现在其根据需要可做到适当的变通。本文通过在给定搜索引擎系统内部参数的前提下对其吞吐率的研究,建立一种倒排文件性能模型,该模型有效地提高了倒排文件的运行效率。    关键词:倒排文件;搜索引擎;性能模型;信息检索  :TP31:A    iningBasedontheS和一个文档集合元素即DOCS对应关系的数据结构,记为:  DOCS={d1,d2,…dN},T

2、ERMS={t1,t2,…,tM}  在以“文档”为出发点时,称之为di中包含哪些tj,也可理解为某一个tj在di文档中出现了多少次。而“倒排文件”直接给出的是一个tj出现在哪些di中,进而还可以有它在某一个di中出现在哪些位置,包含多少次。用PL(tj)表示tj出现于其中的文档记录的集合,称为对应于tj的倒排表,下面是信息检索研究中常用的几个相关量。  N:文档集合的大小  M:词项集合的大小  Sj=

3、PL(tj

4、)

5、:词项tj所涉及文档的个数  DF(tj)=SjN:词项tj的文档频率  IDF(tj)=—lgDF(tj):倒置文档频率;其值越小表示出现频率越高。  fi,j:第j个词项tj在第i个文档di中出现的次数  TN=∑Ni=1∑Mj=1fi,j:系统所有文档分解后包含词项的总量  TF(tj)=∑Ni=1fi,jTN:词项tj在所有文档中出现的频度  ITF(tj)=—lgTF(tj

6、):倒置词频;越小表示出现频率越高  作为数据结构,倒排文件分为两部分:第一部分是由不同词项组成的索引,称为词表,第二部分由每个词项出现过的文档集合构成,称为记录文件,每个词项的对应部分称为倒排表,可以通过词表访问。具体倒排文件结构图如下图1所示:  图1倒排文件结构图  其中左边是词表,中间是记录文件。对应于词表的每一项,记录文件中有若干个倒排表,一半长度记为sj;统计分布为p(i)。至于PL(tj)的每一项,取决于信息检索的方式,对应内容则会有不同,在此用d表示其平均数据量,k表示查询的

7、到达量,r表示响应时间要求,B表示系统的最大输出能力。  3倒排文件的一种性能模型  所谓性能模型,在此就是要给出关于N、M、p(i)、d、B、r和k的一种关系,从而能够在给定系统内部参数的条件下对其外部行为即吞:倒排文件作为现代大规模搜索引擎工作的一个核心技术,其原理简单,具备灵活高效的特点,具体体现在其根据需要可做到适当的变通。本文通过在给定搜索引擎系统内部参数的前提下对其吞吐率的研究,建立一种倒排文件性能模型,该模型有效地提高了倒排文件的运行效率。    关键词:倒排文件;搜索引擎;性能模型;信息检

8、索  :TP31:A    iningBasedontheS和一个文档集合元素即DOCS对应关系的数据结构,记为:  DOCS={d1,d2,…dN},TERMS={t1,t2,…,tM}  在以“文档”为出发点时,称之为di中包含哪些tj,也可理解为某一个tj在di文档中出现了多少次。而“倒排文件”直接给出的是一个tj出现在哪些di中,进而还可以有它在某一个di中出现在哪些位置,包含多少次。用PL(tj)表示t

9、j出现于其中的文档记录的集合,称为对应于tj的倒排表,下面是信息检索研究中常用的几个相关量。  N:文档集合的大小  M:词项集合的大小  Sj=

10、PL(tj)

11、:词项tj所涉及文档的个数  DF(tj)=SjN:词项tj的文档频率  IDF(tj)=—lgDF(tj):倒置文档频率;其值越小表示出现频率越高。  fi,j:第j个词项tj在第i个文档di中出现的次数  TN=∑Ni=1∑Mj=1fi,j

12、:系统所有文档分解后包含词项的总量  TF(tj)=∑Ni=1fi,jTN:词项tj在所有文档中出现的频度  ITF(tj)=—lgTF(tj):倒置词频;越小表示出现频率越高  作为数据结构,倒排文件分为两部分:第一部分是由不同词项组成的索引,称为词表,第二部分由每个词项出现过的文档集合构成,称为记录文件,每个词项的对应部分称为倒排表,可以通过词表访问。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。