欢迎来到天天文库
浏览记录
ID:35062558
大小:2.32 MB
页数:56页
时间:2019-03-17
《基于可读性的信息检索模型研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于可读性的信息检索模型研究AStudyofReadabilitybasedInformationRetrievalModel学科专业:计算机科学与技术研究生:张文雅指导教师:宋大为教授天津大学计算机科学与技术学院二零一五年十二月独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得天津大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名:签字日期:年月日学位论文版权使
2、用授权书本学位论文作者完全了解天津大学有关保留、使用学位论文的规定。特授权天津大学可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:导师签名:签字日期:年月日签字日期:年月日摘要信息检索是指从一个信息资源集中获取与信息需求相关的信息资源的活动。随着文本资源多样性和用户多样性的提高,如何为不同用户提供既相关又可读的文档已经成为一个亟待解决的问题。为了有效解决这个问题,本文尝试将可读性融入到信息检索模型中,从而提高
3、用户的满意程度。针对可读性问题比较突出的特定领域,本文分别提出了基于本体和基于序列化主题的可读性检索模型。在基于本体的可读性检索模型中,综合考虑文本专业概念覆盖度以及序列依赖信息进而从概念层次和文本语篇层次评估文本可读性。基于序列化主题的可读性检索模型则通过自动构建主题层次结构,提高了模型的灵活性。该模型符合用户认知理解过程,并能从主题层次和文本语篇层次评估文本可读性。此外,鉴于可读性计算过程中用户主观因素的存在,本文最后针对如何通过运用用户阅读认知水平等优化现存可读性计算方法。该方法的使用为后续将可读性融入交互式检索过程中指明了方向,具有重要意义。针对所提可读性模型,本文分别从
4、用户实验与系统实验角度予以验证。通过使用用户实验探索所提模型与用户主观判断的一致性程度。而系统实验则主要用于评估所提模型的检索效果。实验结果表明,基于本体的可读性计算模型对文本被识别概念中序列信息的利用具有重要意义。基于序列化主题的可读性检索模型,既能与用户可读性判断得到较高一致性,又能有效提高系统检索结果。而通过将用户阅读认知水平融入到可读性计算模型中能有效提高可读性预测的准确性。关键词:信息检索,可读性计算方法,检索结果重排序,特定领域ABSTRACTInformationretrievalistheactivityofobtaininginformationresource
5、srelevanttoaninformationneedfromacollectionofinformationresources.Withtheincreasingdiversityofbothcontentavailablefromvariouskindsofresourcesandusers,howtoprovideuserswithbothrelevantandreadabledocumenthasbeenurgentproblem.Inordertosolvethisproblem,wetriedtointegratereadabilityintoinformation
6、retrievalmodeltoimprovethesatisfactionofusers.Inthispaper,weproposedbothontology-basedandsequentialtopic-basedreadabilitymodelfordomainspecificfield.Intheontology-basedreadabilitymodel,wetakebothaverageconceptualscopeandsequentialdependencyintoconsiderationtomeasuredocuments’readabilityfrombo
7、thconceptuallevelandlexicallevel.Weconstructthedomaintaxonomyautomaticallyinsequentialtopic-basedreadabilitymodeltoimproveitsflexibility.Basedontheprocessofreadingandunderstanding,thismodelcanalsomeasuredocuments’readabilityinbothtopic-baseda
此文档下载收益归作者所有