面向大规模社区问答数据问题检索方法

面向大规模社区问答数据问题检索方法

ID:6230116

大小:40.00 KB

页数:15页

时间:2018-01-07

面向大规模社区问答数据问题检索方法_第1页
面向大规模社区问答数据问题检索方法_第2页
面向大规模社区问答数据问题检索方法_第3页
面向大规模社区问答数据问题检索方法_第4页
面向大规模社区问答数据问题检索方法_第5页
资源描述:

《面向大规模社区问答数据问题检索方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、面向大规模社区问答数据问题检索方法  摘要:随着问答社区网站的兴起,越来越多的用户生成数据积累了起来。这些用户生成数据不仅具有海量的、多样性的等特点,还有着极高的质量和重用价值。为了高效地管理和利用这些数据,近年来研究人员基于这些数据进行了大量的研究和实践,而社区问答中的问题检索就是一个被广泛研究的课题。主要研究了面向大规模社区问答数据的问题检索方法。收集来自Yahoo!Answers等社区网站的超过1.3亿问题和10亿答案的大规模数据,与之前的基于百万量级的数据的问答社区相关研究工作相比有着明显的不同和极高的实用价值。在此

2、数据的基础上,通过查询自动分类方法来提高每次查询效率和效果。在问题检索过程中,提出了应用查询问句和问题的结构信息和语义信息,结合排序学习算法来融合多种不同类别的特征的方法,通过应用训练数据生成排序模型来提高问题检索的相关性和词语不匹配等问题。实验表明,本文应用RankingSVM方法来训练的排序模型在不同数据集上,其准确率等评价指标上都相比以往的方法有着显著的提高。关键词:社区问答;问题检索;排序支持向量机中图分类号:TP31113文献标识码:A文章编号:2095-2163(2013)06-0063-05150引言目前,社区

3、问答服务包含了大量用户生成内容(user-generatedcontents,简记为UGC)。以Yahoo!Answers为例,目前Yahoo!Answers包含问题涵盖26大类、1400多小类,共有超过3亿规模的问题和10亿的答案由用户提出和发布。如此庞大的数据规模,促进了非事实问答研究的大规模开展,使得问答系统不再局限于对应命名实体、日期等较短答案的事实类问题上。这些用户生成内容不仅具有海量、多样性等特点,还有着高质量和重用的价值,充分利用这些资源可以高效、准确地满足人们对信息的需求。如Liu等[1]研究的发现,在Yah

4、oo!Answers中的四个流行问题分类中,有接近83%的最佳答案可以重用来回答相似的问题。因此,随着各类问题数据的积累与各项相关技术的成熟,研究面向大规模问答数据的问题检索方法,是一个既具研究挑战又有应用前景的重要技术课题。全文共分为五部分,其内容具体安排为:第一部分引言,介绍面向问答社区的问题检索课题的研究背景和研究意义。第二部分介绍相关领域的研究现状。第三部分介绍问题检索的模型与特征选择。第四部分介绍实验和结果分析。最后第五部分是本文的结论和对下一步研究的展望。1相关工作15问题检索依赖于已经建立的问答对数据集,对于给

5、定的查询问句,自动返回相关的问题及其对应答案。问题检索任务的主要挑战是如何解决已有问题和查询问句的词语不匹配问题,因为多数情况下查询问句和问题句并不是字面上相同的。15Jeon等[2]比较了不同检索方法在解决查询问句与问题的词汇不匹配问题的效果,所得出的统计机器翻译方法最为有效。研究中,构造机器翻译的平行语料的方式是以问题的答案作为索引,并用答案去查询其他相似答案。如果某问题的答案与查询答案的相似度高于一定阈值,则认为这两个答案是相似的,同时又假设其对应问题也是相似的。以此方法构造平行语料来训练统计机器翻译模型。基于以上工作

6、,Xue等[3]提出一个统计机器翻译[4]加语言模型[5]的混合模型来进行问题检索,通过利用问题句和答案作为平行语料来进行机器翻译模型的训练。Wang等[6]提出了一个基于句法树结构的新的检索方法来处理相似问题匹配任务,可通过句法分析将问题和查询问句转化为句法树,再通过句法树之间的相似度来衡量问题和查询问句的语义相似度。Bian等[7]提出一个新的问题检索方法GBrank以及其后续工作中的GBrank-MR都能够较好地处理事实性问题,并给出较为满意的答案。Cao等[8]提出基于叶分类信息进行平滑的语言模型来解决词语之间的不匹

7、配问题。该方法的基本思想是同一分类下的问题通常比不同分类下的问题更相似,于是用同一个分类下的词分布信息对语言模型进行平滑,如此可有效提高问题检索的相关性。Zhou等[9]考察了应用用户权威性和用户信息评价对于问题检索相关性的影响,其结论是由于问答社区中的信息过于稀疏,直接应用这些信息并不能够为问题的检索效果带来明显的提升。Duan等[10]应用短语级别的问题焦点和主体识别方法来提高问题检索的相关度。2问题检索的模型与特征选择问题检索的目的是给定一个查询问句,系统返回与该问句语义相同或者相似的问题,而由于同义问题语言表达的多样

8、性特点,仅仅对问句和问题进行词语级别的匹配是远远不够的。本文应用排序支持向量机(RankingSVM)算法作为问题检索的排序模型。在进行问题检索前,本文应用朴素贝叶斯分类器来构建查询进行分类。这样做法的目的在于相似的问题通常会被分到同一类别当中,对查询问句进行分类,而且只查询与查询问句分类

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。