信息检索和XML数据

信息检索和XML数据

ID:45880698

大小:359.84 KB

页数:33页

时间:2019-11-19

信息检索和XML数据_第1页
信息检索和XML数据_第2页
信息检索和XML数据_第3页
信息检索和XML数据_第4页
信息检索和XML数据_第5页
资源描述:

《信息检索和XML数据》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第26章信息检索(InformationRetrievalIR)IRDBMS不精确的语义精确的语义Keyword搜索SQL类型无结构文本文档结构化数据以读为主,偶尔增加文档读写更新搜索结果可以排序用以说明这个结果多“好”的与搜索词相匹配返回无序的数据集(关系型查询是精确的,某一行或者在结果中,或者不在)不同:相同:都支持大数据集上使用索引加快查询26.2信息检索介绍布尔查询----databaseAND(MicrosoftORIBM)用户制定一个由词和布尔操作符(and,or,not)排序查询----用户指定一个或多个词,并且查询的结果是一系列按照查询相关

2、度排序的文档。将满足布尔查询条件的文档进行排序是IR搜索引擎很重要的一个方面。26.2.1向量空间模型向量空间模型----将文档表示为词向量的方法。将一个文档表示为一个向量,其中每个词对应向量的一个入口,如果词j在文档i中出现k次,则文档i的文档向量在位置j上的值为k。DocidDocument1agent、James、Bond、good、agent2agent、mobie、computer3James、Madison、movie4James、Bond、movieDocidagentBondComputergoodJamesMadisonmobieMovi

3、e12101100021010001030000110140100100126.2.2词的TF/IDF权重 (Termfrequency/Inversedocumentfrequency)词频----文档向量中某个词的值,或者文档中该词出现的次数。Zipfian----Zipf发现一个词在一个有相当长度的文档中的等级序号(该词按出现次数排列的词表中的位置,称之为rank,r),与该词出现的次数(frequency,f)的乘积几乎是一个常数(constant,C)r*f=C。IIIIIIIVrfr*f=CC*1010265326530265300201311

4、2622026220030926277802778004071128680286800①r*f≌26000左右②c*10和该书的实际总词数260430很接近26.2.2词的TF/IDF权重Zipfian(续)r*f=C说明,一个词的出现次数和它的等级序号成反比,出现次数越多,序号越小。出现次数最多的排第一,出现次数最少的排最后。它们的积是一常数。关于r和f关系的论述被称为“Zipf’s:Law”。某种现象出现次数如果符合Zipf定律,这种现象就被认为具备Zipf分布。26.2.2词的TF/IDF权重词的频率是按照zipfian分布的。X轴的每个位置对应一个

5、词,按照出现的次数降序排列Y轴对应该词出现次数停止词——出现次数非常多的词,例:a,an,the。对于搜索没有很大用途,文档在预处理中被去掉这些词。STOPWORDlinuxkernelRAREWORD例:对于一个含有linuxkernel这两个词的搜索,如果我们对含有kernel的文档比对含有linux的文档给予较高的重要性,我们就可能获得较好的结果。如何做?26.2.2词的TF/IDF权重改进文档向量表示方法:Wij=tij*log(N/nj)Wij——文档向量表示法的文档i的向量中词j的关联值(TF/IDF权重)tij——词频N——文档的总数nj——

6、词j出现过的文档数IDF——倒排文档频率log(N/nj)有效的增加了出现次数少的词的权重例:一个有10000个文档的集,在半数文档中出现过的词的IDF=0.3lg2=0.3在一个文档中出现过的词的IDF=4lg104=426.2.2词的TF/IDF权重例:“原子能的应用”“原子能”是很专业的词“应用”是很通用的词词频:25每个词给一个权重:一个词预测主题能力强,权重就越大,反之,权重越小。停止词的权重应该是零IDF——如果一个关键词只在很少的网页中出现,我们通过它就很容易锁定搜索目标,它的权重应该大,反之,如果一个词在大量网页中出现,我们看到它仍然不清楚

7、要找什么内容,因此,它应该小。“原子能”log500=2.7“的”log1=0“应用”log2=0.3100000/200100000/100000100000/5000026.2.2词的TF/IDF权重长度规范化文档D文档D’(对D加入大量新词修改)词t的TF/IDF权重在D和D’文档向量中的值是一样的直觉t在D’的权重应该变小因此——如果两个文档对于某一给定词含有同样的出现次数,对于描述文档的重要性的词还依赖于文档的长度。长度规范法:减少词的权重随着词的频率增加而增加的情况。余弦长度规范法:t——文档集中词的个数wij——没有长度规范化的TF/IDF权

8、重Wij*是经过长度调整的TF/IDF权重26.2.3文档相似性排

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。