欢迎来到天天文库
浏览记录
ID:32032429
大小:2.83 MB
页数:56页
时间:2019-01-30
《【硕士论文】基于全文检索的自动答疑系统的研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、摘要摘要让人们能够用浩如烟海的本文资料中方便地找到自己需要的信息,是计算机技术一个重要的研究目标。全文检索技术在此领域上一直担任着举足轻重的角色,成为众多文本信息检索应用的基础。同时,随着互联网络的普及,计算机远程教育的飞速发展对自动答疑系统有了更高的要求。如何在比较成熟全文检索技术基础上,通过对文本信息进一步的处理和提取,现实计算机自动答疑成为当前文本信息处理技术领域的一个新课题。本论文首先分析了国内外全文检索技术的最新发展和应用于远程教育的答疑系统的现状,有针对性地对全文检索引擎进行研究和改造。考虑到多种应用环境下中英文文本为主,多种国家文字或者文本符号
2、并存的情况,本文讨论了利用Unicode编码建立支持多语种的索引库。在词法分析阶段,提出了中英文混合分词的方案,供全文检索引擎支持不同应用。索引的存贮方面,为中英文关键字定义了不同的数据存储格式,以提高存储效率和读写速度。检索评分方面,以信息检索系统最常用的tf*idf评分方式为基础,提出了在综合索引库中检索特定领域文档的评分模型。本论文继续讨论了以全文检索为基础的自动答疑模型。论文提出了利用分词程序构造问题分析器,对自动答疑中输入的问题进行分析处理,不过多考虑问题句子结构,着重提取问题包含的问题类型和提问焦点信息。然后,为了提高匹配效率和答案的准确性,提出
3、了两阶段匹配策略:问题与问题的匹配和问题与答案的匹配,获取答案文本;设计了答案提取算法,根据问题信息在得到的文本材料中提取更为精确的答案;再由自动答疑的自反馈流程,把答疑过程形成的新问答材料保存到答疑库。最后,本论文对课题研究成果进行了总结并提出下一步工作的思路。关键字:全文检索;自动答疑;答案提取华南理工大学工学硕士论文AbstractToletpeoplefindtheinformationtheyneedfromthehugeinformationworldisanimportantresearchfieldo,ComputerScience.Full
4、textretrievalofhastakenacriticalpartinthisfieldandbecomethebasismany.铂applicationsoftextinformationretrieval(IR).Atthesametime,ththeprevalenceofInternet,therapiddevelopmentofComputerdistanceeducationpresentsahigherdemandonQuestionAnswering(QA)system.HowtobuildupaQAsystembasedonmatu
5、refulltextretrievaltechnology,byfurtherprocessingandextractingoftextinformation,isanewtaskinIRfield.Firstly,thethesisanalysesthelatestimprovementoffulltextretrievaltechnologyinsideandoutsidenation,andtheactualityofQAsystemforcomputerdistanceeducation.Thenitdosomeresearchandreconstr
6、uctworkonfulltextretrievalengine.Consideringmultipleapplicationenvironments,inwhichChineseandEnglishaswellasotherlanguagesandtextsymbolhavebeenused,thearticlegiveawaytobuildinguptheindicesthatsupportsmultiplelanguages,bymakinguseofUnicode.Inlexicalanalysisphase,asolutionhasbeenadva
7、ncedforChineseandEnglishcompositewordsegment.Asforstoringtheindex,differentstoringformatshavebeendefinedforChineseandEnglishkeywords,inordertoimprovestoringefficiencyandreading/writingrate.Duringretrievalscoringphase,ascoringmodelhasbeensetupfordocumentsofspecialfieldsintheintegrat
8、eindexdatabase,whichbaseso
此文档下载收益归作者所有