【硕士论文】基于超大规模问答对库和语音界面的非受限领域自动问答系统研究.pdf

【硕士论文】基于超大规模问答对库和语音界面的非受限领域自动问答系统研究.pdf

ID:32032914

大小:3.54 MB

页数:102页

时间:2019-01-30

【硕士论文】基于超大规模问答对库和语音界面的非受限领域自动问答系统研究.pdf_第1页
【硕士论文】基于超大规模问答对库和语音界面的非受限领域自动问答系统研究.pdf_第2页
【硕士论文】基于超大规模问答对库和语音界面的非受限领域自动问答系统研究.pdf_第3页
【硕士论文】基于超大规模问答对库和语音界面的非受限领域自动问答系统研究.pdf_第4页
【硕士论文】基于超大规模问答对库和语音界面的非受限领域自动问答系统研究.pdf_第5页
资源描述:

《【硕士论文】基于超大规模问答对库和语音界面的非受限领域自动问答系统研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、中国科学技术大学博士学位论文摘要摘要互联网实现了知识和信息在世界范围的平等共享和快速传播,而以Ooogle、百度为代表的第二代搜索引擎实现了互联网上数十亿网页的基于关键词的快速检索,满足了最基本的信息检索需求。近年来,人们展开了关于下一代搜索引擎的积极探索,其中自动问答系统因能简洁直接地回答用户以自然语言方式提出的问题而得到了广泛的关注和深入的研究。在这种背景下,本论文以研制非受限领域的问答系统为目标,基于对近几年来互联网上以空前速度积累中的超大规模问答对资源必将给传统的问答系统研究带来深远影响的预期,深入地开展基于问答对库的自动问

2、答系统技术研究工作。本论文在借鉴前人成果选用基于关键词的文档信息检索技术为初始基线系统的基础上,首次深入研究了在超大规模的问答对库条件下基线问答系统各环节的最佳配置,得出了一系列有价值的结论,并进一步对问答系统最核心的问答对排序函数进行了针对性的设计和有监督的优化,大幅度提高了问答系统的性能。此外,本论文还提出并开展了基于问答对库的问答系统的语音界面扩展研究,首次实现了可实施的、非受限领域的、可完全通过语音交互的自动问答系统。本论文具体的研究内容和相关成果如下:首先,本文分析了互联网上超大规模的问答对库资源积累给问答系统研究带来的机

3、遇和挑战。互联网上积累的数以百万计的FAQ页面以及百度知道等知识共享型网站的兴起所形成的每日数万的问答对积累速度,都为问答系统研究提供了前所未有的数据资源,也对传统的问答系统技术路线提出了新的挑战。本文以真实的数据统计表明:76,5%的工作生活中的常见问题可以在380万从互联网上抽取的问答对中找到至少一个正确答案,倍增问答对库规模预期还可以继续获得8---10%的相对性能提升,足以证明互联网上问答对库的价值以及基于问答对库的自动问答系统的优势和前景。其次,面向基于问答对库的自动问答技术需要,本文开展了互联网上问答对的自动抽取技术研究

4、和实际问答对库的构建工作。针对FAQ页面,本文提出了基于决策树和马尔科夫链模型的问答对自动抽取技术,抽取精度接近99%,完全达到了实用水平。同时基于百度知道网站,本文完成了390万高质量问答对库的建设,为后续问答系统相关实验的开展奠定了坚实的基础。第三,本文验证了超大规模问答对库条件下基于问答对库的自动问答系统的最佳基线系统配置。本文首先完成了1000个用户问题在380万问答对库上的问答系统性能评测数据库,并在此基础上完成了借鉴于传统基于关键词的文档检索中国科学技术大学博士学位论文摘要技术的基线问答系统中各个重要环节的验证试验,得到

5、了一系列新颖而有价值的结论:1)传统文档检索的三个主要排序函数(T兀DF,BM25以及基于语言模型的检索函数)中最简单的TFIDF是最适合于问答系统中的问答对排序;2)问答对中的三个不同的信息域(问题Q、问题描述D和答案A)中Q域对问答系统具有绝对重要的贡献,A域次之;3)在中文分词处理方面,D和A域是进行有词典分词的性能更佳,但Q域上是将文本全部切分成单字后构建的问答系统性能最佳。实验表明,最终完成基线问答系统能在仅返回一个答案的条件下能正确回答43.88%的用户问题。第四,在上述基线系统基础上,本文深入地分析了基于用户输入的自然

6、语言问句检索排序问答对的任务与传统的基于关键词检索排序文档任务之间的差别。在1FIDF基础上,本文设计了专门针对问答系统的统一排序函数,并引入四个参数分别控制共现词的词频和IDF、未共现词的IDF以及文档长度等因素对问答对排序的影响,实验表明,这一函数有效地提高了问答系统的性能。同时考虑到更多的属性可以用于问答对排序函数的设计,本文进一步引入了线性加权函数的排序函数形式来有效运用更多属性。本文从每个用户问题和问答对的组合中提取了包括词语语义距离、词语编辑距离、词性、以及二元词语共现情况等多维特征,并引入了基于改进爬山算法的有监督学习

7、策略来实现了排序函数中各维属性权值的自动训练,最终使得问答系统的性能进一步得到了显著提升,在仅返回一个答案条件下,系统能正确回答的用户问题比例达到了52.37%,相对基线系统提升幅度达到19.35%。本文同时还对问答系统的置信度进行了分析,实验表明拒绝返回一部分认为不可信的答案可以提高(但不显著)答复正确率,同时改变有监督学习的训练目标定义,可以有效提高问答系统的置信度估计水平。最后,本文还首次尝试将语音界面引入基于问答对库的非受限领域自动问答系统,实现了问答系统的研究及应用的扩展,本文首先对完全基于语音交互界面的问答系统的价值和挑

8、战进行了分析,指出了基于问答对库技术路线的优势以及语音识别和问答系统间的内在冲突。为了研制语音界面的问答系统SpeechQoogle,本文引入大词汇连续语音识别技术和连续语音合成技术分别完成了对语音输入用户问句的识别和对系统生成文本答

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。