基于倒排文件中一种性能模型的研究

ID：21869039

大小：64.50 KB

页数：10页

时间：2018-10-25

资源描述：

《基于倒排文件中一种性能模型的研究》由会员上传分享，免费在线阅读，更多相关内容在工程资料-天天文库。

1、基于倒排文件中一种性能模型的研究：倒排文件作为现代大规模搜索引擎工作的一个核心技术，其原理简单，具备灵活高效的特点，具体体现在其根据需要可做到适当的变通。本文通过在给定搜索引擎系统内部参数的前提下对其吞吐率的研究，建立一种倒排文件性能模型，该模型有效地提高了倒排文件的运行效率。　　　　关键词：倒排文件；搜索引擎；性能模型；信息检索　　：TP31：A　　　　iningBasedontheS和一个文档集合元素即DOCS对应关系的数据结构，记为：　　DOCS={d1，d2，…dN}，T

2、ERMS={t1，t2，…，tM}　　在以“文档”为出发点时，称之为di中包含哪些tj，也可理解为某一个tj在di文档中出现了多少次。而“倒排文件”直接给出的是一个tj出现在哪些di中，进而还可以有它在某一个di中出现在哪些位置，包含多少次。用PL（tj）表示tj出现于其中的文档记录的集合，称为对应于tj的倒排表，下面是信息检索研究中常用的几个相关量。　　N：文档集合的大小　　M：词项集合的大小　　Sj=

3、PL（tj

4、）

5、：词项tj所涉及文档的个数　　DF（tj）=SjN：词项tj的文档频率　　IDF（tj）=—lgDF（tj）：倒置文档频率；其值越小表示出现频率越高。　　fi，j：第j个词项tj在第i个文档di中出现的次数　　TN=∑Ni=1∑Mj=1fi，j：系统所有文档分解后包含词项的总量　　TF（tj）=∑Ni=1fi，jTN：词项tj在所有文档中出现的频度　　ITF（tj）=—lgTF（tj

6、）：倒置词频；越小表示出现频率越高　　作为数据结构，倒排文件分为两部分：第一部分是由不同词项组成的索引，称为词表，第二部分由每个词项出现过的文档集合构成，称为记录文件，每个词项的对应部分称为倒排表，可以通过词表访问。具体倒排文件结构图如下图1所示：　　图1倒排文件结构图　　其中左边是词表，中间是记录文件。对应于词表的每一项，记录文件中有若干个倒排表，一半长度记为sj；统计分布为p（i）。至于PL（tj）的每一项，取决于信息检索的方式，对应内容则会有不同，在此用d表示其平均数据量，k表示查询的

7、到达量，r表示响应时间要求，B表示系统的最大输出能力。　　3倒排文件的一种性能模型　　所谓性能模型，在此就是要给出关于N、M、p（i）、d、B、r和k的一种关系，从而能够在给定系统内部参数的条件下对其外部行为即吞：倒排文件作为现代大规模搜索引擎工作的一个核心技术，其原理简单，具备灵活高效的特点，具体体现在其根据需要可做到适当的变通。本文通过在给定搜索引擎系统内部参数的前提下对其吞吐率的研究，建立一种倒排文件性能模型，该模型有效地提高了倒排文件的运行效率。　　　　关键词：倒排文件；搜索引擎；性能模型；信息检

8、索　　：TP31：A　　　　iningBasedontheS和一个文档集合元素即DOCS对应关系的数据结构，记为：　　DOCS={d1，d2，…dN}，TERMS={t1，t2，…，tM}　　在以“文档”为出发点时，称之为di中包含哪些tj，也可理解为某一个tj在di文档中出现了多少次。而“倒排文件”直接给出的是一个tj出现在哪些di中，进而还可以有它在某一个di中出现在哪些位置，包含多少次。用PL（tj）表示t

9、j出现于其中的文档记录的集合，称为对应于tj的倒排表，下面是信息检索研究中常用的几个相关量。　　N：文档集合的大小　　M：词项集合的大小　　Sj=

10、PL（tj）

11、：词项tj所涉及文档的个数　　DF（tj）=SjN：词项tj的文档频率　　IDF（tj）=—lgDF（tj）：倒置文档频率；其值越小表示出现频率越高。　　fi，j：第j个词项tj在第i个文档di中出现的次数　　TN=∑Ni=1∑Mj=1fi，j

12、：系统所有文档分解后包含词项的总量　　TF（tj）=∑Ni=1fi，jTN：词项tj在所有文档中出现的频度　　ITF（tj）=—lgTF（tj）：倒置词频；越小表示出现频率越高　　作为数据结构，倒排文件分为两部分：第一部分是由不同词项组成的索引，称为词表，第二部分由每个词项出现过的文档集合构成，称为记录文件，每个词项的对应部分称为倒排表，可以通过词表访问。

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 10



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于倒排文件中一种性能模型的研究

基于倒排文件中一种性能模型的研究

相关文章

相关标签