中国科学院大学现代信息检索2012年秋季期末试题及答案.doc

中国科学院大学现代信息检索2012年秋季期末试题及答案.doc

ID:59233337

大小:294.00 KB

页数:6页

时间:2020-09-09

中国科学院大学现代信息检索2012年秋季期末试题及答案.doc_第1页
中国科学院大学现代信息检索2012年秋季期末试题及答案.doc_第2页
中国科学院大学现代信息检索2012年秋季期末试题及答案.doc_第3页
中国科学院大学现代信息检索2012年秋季期末试题及答案.doc_第4页
中国科学院大学现代信息检索2012年秋季期末试题及答案.doc_第5页
资源描述:

《中国科学院大学现代信息检索2012年秋季期末试题及答案.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、中国科学院研究生院课程编号:71258-Z-2试题专用纸课程名称:现代信息检索任课教师:王斌———————————————————————————————————————————————姓名学号成绩一、判断题(正确打√,错误打X。每题2分,共30分)1、建立倒排索引时,只能以文件作为索引单位。(X)2、词项集合和词条集合有时可以完全不同,甚至交集为空集。(√)3、轮排索引和k-gram索引都可以支持通配查询的处理。(√)4、倒排索引的构建与所处的硬件环境息息相关。(√)5、γ的编码序列唯一,但解码序列不唯一。(X)6、向量空间模型的计算当中,采用余弦相似度和欧氏距离得

2、到的相似度是一致的,即两个向量的余弦相似度大,则欧氏距离一定小,而当余弦相似度小时欧氏距离大。(X)7、信息检索系统中只存在一种索引结构。(X)8、隐式相关反馈中对用户的行为进行分析,因此一定会提高检索的效果。(X)9、在BM25检索模型中,考虑了文档长度对检索带来的影响。(√)10、在朴素贝叶斯分类器,基于多项式模型和基于贝努利模型的实现中采用了完全相同的假设。(X)条件独立假设+位置独立假设+只考虑出现位置独立假设+考虑不出现11、特征选择函数MI(ExpectedMutualInformation)考虑了词项不存在对分类带来的影响。(√)12、SVM分类的速度与

3、支持向量的个数无关。(X)13、K-均值聚类算法的结果依赖于初始种子质心的选择。(√)14、GAAC层次聚类算法的结果具有确定性。(√)15、隐性语义索引LSI本质上是将原始的向量空间线性变换到另一个高维向量空间。(X)二、选择题(单项或多项选择。每题2分,共16分)1、关于倒排索引的压缩,以下叙述正确的是(AB)。A)压缩能提高空间的利用率B)压缩能提高硬盘到内存的传输速度C)词典压缩作用不大D)可变字节编码压缩是一种有损压缩方法2.关于向量空间模型,以下叙述正确的是(ABD)。A)查询和文档均看成向量B)权重计算的方式很多C)查询和文档表示成不同空间的向量D)相似

4、度计算的方式很多共5页第1页3.关于隐式相关反馈,以下叙述错误的是(B)。A)该反馈中实际上有用户参与B)该反馈后的检索效果一定会提高C)该反馈是一种局部方法D)该反馈效果一般会低于用户相关反馈4.关于伪相关反馈,以下叙述错误的是(AB)。A)该反馈中实际上有用户参与B)该反馈后的检索效果一定会提高C)该反馈是一种局部方法D)该反馈效果一般会低于用户相关反馈5.关于kNN分类器,以下叙述错误的是(B)。A)该分类器几乎不需要训练B)该分类器分类速度很快C)该分类器是非线性分类器D)该分类器通常分类效果不错6.关于Rocchio分类器,以下叙述错误的是(AB)。A)该分

5、类器不需要训练B)该分类器通常分类效果不错C)该分类器训练速度很快D)该分类器分类速度很快7.关于K-均值聚类算法,以下叙述错误的是(BD)。A)该聚类算法要事先给定聚类数目B)该聚类算法是确定性算法C)该聚类算法的时间复杂度是线性的D)该聚类算法能得到全局最优结果8.关于HAC聚类算法,以下叙述错误的是(ACD)。A)HAC必须要指定聚类数目B)HAC算法都是确定性算法C)HAC要求文档要以向量来表示D)HAC的相似度只能采用向量内积计算一、计算题(每题6分,共30分)1、面对两个正确答案集合分别是Rq1={d1,d2,d3,d4,d5}及Rq2={d6,d7,d8

6、,d9,d10}的查询q1、q2,某个检索系统A返回的检索结果如表1所示。试计算出该系统对每个查询的P、R、F、P@10、AP等指标,并计算整个系统的MAP指标。请写出计算过程并将最后结果汇总填入表2中(小数点后保留2位即可)。其中AP计算采用未插值方法。表1检索结果表系统-查询返回结果数返回结果中正确答案所在位置A-q1202-d2;4-d4;5-d1;10-d5A-q2201-d6,4-d7;10-d8;12-d9共5页第2页表2结果汇总表系统&查询PRFP@10APMAPA-q10.20.80.320.40.40.414A-q20.20.80.320.30.42

7、72、对于下列分别采用VB编码和γ编码的间距编码结果(第一个是原始值,后面为间隔值),请还原原始的间距序列及倒排记录表。(1)VB编码:0002872,21,2872,2893,02872101012128722893(2)γ编码:110014+1=51164+23=870111128+71=1998+6=145922913051100111101101011110587199145,92,291,3052、对于如下坐标轴上的点,请分别采用单连接、全连接和质心法HAC对这些点进行聚类,并输出聚类的树状图。01234567单连接01234567全连接0

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。