中文问答系统中的信息检索模型的研究

中文问答系统中的信息检索模型的研究

ID:35184782

大小:1.42 MB

页数:47页

时间:2019-03-21

中文问答系统中的信息检索模型的研究_第1页
中文问答系统中的信息检索模型的研究_第2页
中文问答系统中的信息检索模型的研究_第3页
中文问答系统中的信息检索模型的研究_第4页
中文问答系统中的信息检索模型的研究_第5页
资源描述:

《中文问答系统中的信息检索模型的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、重庆大学硕士学位论文中文问答系统中的信息检索模型的研究姓名:刘春泳申请学位级别:硕士专业:计算机系统结构指导教师:张玉芳20070420重庆大学硕士学位论文中文摘要摘要问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。目前,国内外有很多的科研机构参与了英文问答技术的研究,甚至己经有相对成熟的英文问答系统,但是参与中文自动问答技术研究的科研机构并不是很多,而且基本没有成型的中文问答系统。本文正是对中文问答技术研究的一个探索。基于自然语言处理的中文问答系统包括五个主要组成部分:问题理解、信息检索、信息处理、答案抽取、FAQ模块五个子系统。信息检索模块是自动

2、问答系统中最重要的模块之一,检索的结果对后面的处理,以至找到问题的正确答案都有很大的影响,同时它也是智能咨询系统、机器对话等研究的重要方面。本文充分结合了汉语语言的特点以及计算语言学的技术,对问答系统中信息检索模块进行了深入分析,指出了在实际的使用问答系统的时候,用户的回答质量参差不齐。我们不但要尽量检索相似度高的文档,而且还希望检索出来的文档的质量尽可能的好,而传统的信息检索中常用的四种数学模型:布尔模型、模糊逻辑模型、向量模型和概率模型以及基于语言模型的信息检索模型在计算相似度的时候都没有考虑到问题的质量。本文通过最大熵方法用困惑度、序列模型、词的搭配作为特征来评估文档的质量,最后利

3、用翻译模型把问题质量成功的集成到检索模型中。最后,我们从社区问答系统中抽取问答对作为语料进行测试,试验结果表明引入文档质量到检索模型中比传统的检索模型能取得更好的试验结果。关键词:问答系统,信息检索,文档质量,语言模型,最大熵重庆大学硕士学位论文英文摘要AbstractQAtechnologyisaveryhotresearchdirectioninthefieldofnaturallanguageprocessing(NLP).ItcombinesalargevarietyofNLPtechnologles.Presently,manyresearchinstituteshavebee

4、ninvestigatingEnglishQAtechnologies.SomematureEnglishQAsystemshavebeenwidelyrecognized.ButfewinstitutesaredoingresearchonChineseQAsystems.NoChineseQAsystemshavebeenproposeduptonow.Inthispaper,wetrytoinvestigatesometechnologiesforChineseQAsystems.NLP-bascdQAsystemhasfivemainparts:QuestionAnalysis,

5、InformationRetrieval,InformationProcessing,AnswerExtraction,andFrequentlyAskedQuestionsModule.InformationRetrievalisoneofthemostimportantmodulesoftheNLP-basedQAsystem.TheresultofInformationRetrievalhasagreateffectonfollowingprocessingwork,evenonfordingthecorrectanswer,Itisalsothemostimportantrese

6、archaspectonIntelligentconsultingSystem,Man-machinedialogue,andsoon.inthispaper,weresearchdeeplyonInformationRetrieval,consideringthecharacterofChineseandtechniqueofcomputationallinguistics.IntheactualuseoftheQAsystem,thequalityofanswerisuneven.Traditionalinformationretrievalusethefourmathematica

7、lmodels:booleanmodel,fuzzy109icmodel,vector-basedmodel,andprobabilitymodel,butnoneofthemtakeintoaccountthequalityoftheanswer.Sowenseperplexity,sequentialpattern,andlexiealcollocationtopredictthequalityofdocumentthrough

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。