资源描述:
《2016春国科大现代信息检索何苯期末试题》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、一、单选1、以下哪个不属于信息检索的应用?C、论文库查询系统D、学生档案管理A、网络搜索引擎B、研究生网站搜索引擎2、以下哪个不是停用词可能带来的好处A、提高检索性能B、保留语义信息C、提高检索速度D、提高模型,如BM25的可靠性3、关于倒排索引压缩正确的说法是人可以降低索引结构磁盘占用B、一般会增加索引处理时间C、检索时需要解压缩整个倒排索引D、为降低检索时额外计算开销应尽量避免压缩4、对于一个给定查询,系统返回10个文档,这10个文档(排序从左到右由高到低)的相关性分别是1,1,0,0,1,0,1,1,0,0o若
2、已知该查询有6个相关文档,那么该次检索的未插值AP是A、0.5B、0.6327C、0.8333D、0.75935、关于TREC中pooling方法的说法中错误的是A、Precision比较可靠B、Recall比较可靠6、关于BM25公式错误的说法是A、基于2-Poisson假设B、是一种概率模型C、AveragePrecision比较可靠D、可以用于不同系统性能的相互比较C、文档长度进行归一是有必要的以来源于语音识别技术7.语言模型中平滑处理是为了解决B.检索速度慢的问题C.垃圾信息问题A、索引压缩率降低问题&关于网
3、络信息采集错误的说法是A.不要非常频繁的访问某个Web服务器B.优先采集频繁更新的网站C.Web服务器有可能会屏蔽请求过于频繁的爬虫IP以由于监管有限.可以忽略Robots协议9、关于PageRank说法不正确的是4网页PageRank随不同査询变化B.可以线下计算C、需定期更新D、是一种静态相关评分10、相关性判断信息极少的情况下,一般认为比较可靠的评价指标是A、NDGGB、BPrefC、MAPD、插值的AP二、问答题某语料包括以下5个文档0:MuammarGaddafiburiedindesertgraveatd
4、awn1:ThebodiesofMuammarGaddafi,hissonMutassimhavebeenburiedinsecretinthedesert2:Gaddafi'sfamilywantedthemburiedoutsideSirte3:AnofficialtoldtheBBCthebodieswereburiedatdawninanunknownlocation4:Theunknownlocationinthedesert停用词表为:inattheofhishavebeensthemoutsideanw
5、ereunknown问题仁完成以下词典和倒排索引,仅需给出以下词项的数据:gaddafi,desert,location,family,dawnLexicon:TermTermid文档频率词频dawn322desert433family511gaddafi633location822Invertedindes{docid,tf}:l答】权重。【答】文档长度分别为6、8、5、7、2,平均文档长度为5.61.2x11w^location,3)=-——-x78+114-1.2(1-0.354-0.35X自5-2+0.5Xl
6、°9224-0.5=0°281.2x1w(location94)=-——-x厂8+11+1.2(1-0.354-0.35x訂)5-2+0.5XlOg224-0.5=°03三、问答题KBM25和向量空间模型(VSM)为何需要长度归一?语言模型为何需要平滑处理?两个问题之间有何联系?试用不超过200字作答。答:由于长文档中词项反复出现的可能性大,包含更多的不同词项,所以词项频率和词汇■可能更匕这显然是不公平的。长度归一化,可以使长文档和短文档的向量中的权重都处于同一数■级。平滑处理是为了解决数据稀疏引起的需概率问题。两者
7、都是常见的数据预处理方法,提高了数据质量,为了保证模型的鲁棒性。2、论述PageRank和Hits算法的异同。两者都是基于链接分析的排序算法并且在算法中两者都利用了特征向■作为理论基础和收索引肇。3、请计算HEIGHT到HIEGH的编辑距离,在答题纸上给出最终的编辑距离表,每一格仅需给岀右下角数字,即最小值。H/EGH012345H101234E211123/321223G432223H543332T654443