基于交叉词项的中文信息检索方法研究

基于交叉词项的中文信息检索方法研究

ID:35060104

大小:5.58 MB

页数:58页

时间:2019-03-17

基于交叉词项的中文信息检索方法研究_第1页
基于交叉词项的中文信息检索方法研究_第2页
基于交叉词项的中文信息检索方法研究_第3页
基于交叉词项的中文信息检索方法研究_第4页
基于交叉词项的中文信息检索方法研究_第5页
资源描述:

《基于交叉词项的中文信息检索方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号密级UDC编号…左'束中钟篇义考硕:t学位论文基子灸又词项巧中文倍惠检索方法研奔学位申请人姓名;肩因赛申请学位学生类别;工趕巧壬申请学位学科专业;计义机化朱指导教师姓名;A如辑111乂援巧去学位论义MA'STERSTHESIS硕±学位论文基于交叉词项的中文信息检索方法研究论文作者:周国亮mmm:7mmmm:学科专业=计敦几技术脈方向:信息觀华中削学晓2016年5月硕去学位论文MA'ST

2、ERSTHESISResearchinChineseInforma杜onRetrievalBasedonCrossTermsAThesisSubmitedinPartialFulfillmentoftheRequirementFortheM.S.DegreeinComputerTechnologyByGuoLianZhougPostradua化ProramggSchoolofComuterpCentralChinaNo

3、rmalUniversitySupervisor:XinhuiTuAcademicTitle:AssociateProfessorSignatureArovedppMay2016硕壬学位论义MA'STERSTHESIS华中师范大学学位论文原创性声明和使巧授权说明乐准1牲声巧本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研巧工作所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研巧成果。对本

4、文的研巧做出贡献的个人和集体,均已在文中W明确方式标明。本声明的法律结果由本人承担。<>fc作者签名:)呑委日期:以年月么日学隹冶文胶权使用援权书本学位论文作者完全了解学校有关保留、側学位论文的规定,恥郑巧权保留并向国家有关部n或机构送交论文的复印件和电子版允许论文被查阅和借阅。本人授权华中师范大学可队格本学位论文的全部或部分内容编入有关数据库进行检索,可W采用影恥缩印或扫描等复制手段保存和汇编本学位论文1。同意华中师范大学可^1用不同方(式在不同媒体上发表、传播学位论文的全部

5、或部分内容。'L导豪八作者签名:柳师签名^寺'日期■:M年^月、日日期公^日l年il(月又)""本人己经认真阅读CALIS髙校学位论文全文数据库发布章程,同意将本人的""""学位论文提交CALIS高校学位论文全文数据库中全文发布,并可按章程中的一发布规定享受相关权益。同竟论义提巧后滞后:□半年:□年:□二^。幸作者签名:畔胁导师签名苗秦r气L日期:W占年4月日日期:三七年月)■^日M1¥硕去学位论文R'MASTESTHESIS摘要近十年来,伴随着万维网的繁荣

6、发展,信息数据W爆炸式的増长,如何有效和高效的从如此庞大的信息中获取所需,正是信息检索方法研巧中直久不变的重要主题,旨在更好的解决用户日益激増的信息需求。在大部分传统的中文信息检索模型中,通常假定每个査询词项都是彼此独立的。虽然将这些检索模型应用到信息检索中也获取了不错的效果,但是对应的也存在词项独立性假设的局限性,同时理论上词项关联性在概率检索框架下仍然大有可一为。通过将查询词项之间的关联性纳入考虑,我们可能可进步提高检索性能。。主要工作包括UJ因此,本文就基于交叉词项的中文信息检

7、索方法进行了相关研究l下两个方面:一第,将交叉词项模型引入到中文信息检索中对词项近邻性进行建模,提高概率检索模型的性能。通过交叉词项,多个查询词项之间的关联性可W用同样的方式W简单的一二元伪巧项来表示,当相应的查询词项彼此很接近时就会产生元交叉词项,我们采用核函数对其影响建模。本文中,首先对中文语料集进行预处理,通过包巧一元分词,CJK中文分析器(二元分词),JCSEG中文分词器等多种途径,然后对其建立中文索引,最后对查询词项在文档中的位置信息进行建模,由于我们只考虑二元交叉词项

8、的情况,故在建模时W两两成对的查询词项来进行标识,该方法不仅利用了查询词项之间的位置近邻性一,还结合了概率模型的优势,进步提高概率检索模型的性能。我们在中文语料集NTCIR5和6上均进行了大量实验,实验结果表明,基于交叉词项模型的中文信息检索建模方法相对于传统的检索方法来说拥有更好的检索性能。第二,通过在伪相关反馈方法中融合査询词项之间关联性信息,可W由此对原一

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。