信息检索和XML数据

ID：45880698

大小：359.84 KB

页数：33页

时间：2019-11-19

资源描述：

《信息检索和XML数据》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、第26章信息检索（InformationRetrievalIR）IRDBMS不精确的语义精确的语义Keyword搜索SQL类型无结构文本文档结构化数据以读为主，偶尔增加文档读写更新搜索结果可以排序用以说明这个结果多“好”的与搜索词相匹配返回无序的数据集（关系型查询是精确的，某一行或者在结果中，或者不在）不同：相同：都支持大数据集上使用索引加快查询26.2信息检索介绍布尔查询----databaseAND（MicrosoftORIBM）用户制定一个由词和布尔操作符（and，or，not）排序查询----用户指定一个或多个词，并且查询的结果是一系列按照查询相关

2、度排序的文档。将满足布尔查询条件的文档进行排序是IR搜索引擎很重要的一个方面。26.2.1向量空间模型向量空间模型----将文档表示为词向量的方法。将一个文档表示为一个向量，其中每个词对应向量的一个入口，如果词j在文档i中出现k次，则文档i的文档向量在位置j上的值为k。DocidDocument1agent、James、Bond、good、agent2agent、mobie、computer3James、Madison、movie4James、Bond、movieDocidagentBondComputergoodJamesMadisonmobieMovi

3、e12101100021010001030000110140100100126.2.2词的TF/IDF权重（Termfrequency/Inversedocumentfrequency）词频----文档向量中某个词的值，或者文档中该词出现的次数。Zipfian----Zipf发现一个词在一个有相当长度的文档中的等级序号（该词按出现次数排列的词表中的位置，称之为rank，r），与该词出现的次数（frequency，f）的乘积几乎是一个常数（constant，C）r*f=C。IIIIIIIVrfr*f=CC*1010265326530265300201311

4、2622026220030926277802778004071128680286800①r*f≌26000左右②c*10和该书的实际总词数260430很接近26.2.2词的TF/IDF权重Zipfian(续)r*f=C说明，一个词的出现次数和它的等级序号成反比，出现次数越多，序号越小。出现次数最多的排第一，出现次数最少的排最后。它们的积是一常数。关于r和f关系的论述被称为“Zipf’s：Law”。某种现象出现次数如果符合Zipf定律，这种现象就被认为具备Zipf分布。26.2.2词的TF/IDF权重词的频率是按照zipfian分布的。X轴的每个位置对应一个

5、词，按照出现的次数降序排列Y轴对应该词出现次数停止词——出现次数非常多的词，例：a,an,the。对于搜索没有很大用途，文档在预处理中被去掉这些词。STOPWORDlinuxkernelRAREWORD例：对于一个含有linuxkernel这两个词的搜索，如果我们对含有kernel的文档比对含有linux的文档给予较高的重要性，我们就可能获得较好的结果。如何做？26.2.2词的TF/IDF权重改进文档向量表示方法：Wij=tij*log(N/nj)Wij——文档向量表示法的文档i的向量中词j的关联值（TF/IDF权重）tij——词频N——文档的总数nj——

6、词j出现过的文档数IDF——倒排文档频率log(N/nj)有效的增加了出现次数少的词的权重例：一个有10000个文档的集，在半数文档中出现过的词的IDF=0.3lg2=0.3在一个文档中出现过的词的IDF=4lg104=426.2.2词的TF/IDF权重例：“原子能的应用”“原子能”是很专业的词“应用”是很通用的词词频：25每个词给一个权重：一个词预测主题能力强，权重就越大，反之，权重越小。停止词的权重应该是零IDF——如果一个关键词只在很少的网页中出现，我们通过它就很容易锁定搜索目标，它的权重应该大，反之，如果一个词在大量网页中出现，我们看到它仍然不清楚

7、要找什么内容，因此，它应该小。“原子能”log500=2.7“的”log1=0“应用”log2=0.3100000/200100000/100000100000/5000026.2.2词的TF/IDF权重长度规范化文档D文档D’（对D加入大量新词修改）词t的TF/IDF权重在D和D’文档向量中的值是一样的直觉t在D’的权重应该变小因此——如果两个文档对于某一给定词含有同样的出现次数，对于描述文档的重要性的词还依赖于文档的长度。长度规范法：减少词的权重随着词的频率增加而增加的情况。余弦长度规范法：t——文档集中词的个数wij——没有长度规范化的TF/IDF权

8、重Wij*是经过长度调整的TF/IDF权重26.2.3文档相似性排

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 33



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

信息检索和XML数据

信息检索和XML数据

相关文章

相关标签