面向问句检索的词项赋权研究

面向问句检索的词项赋权研究

ID:46268328

大小:71.50 KB

页数:8页

时间:2019-11-22

面向问句检索的词项赋权研究_第1页
面向问句检索的词项赋权研究_第2页
面向问句检索的词项赋权研究_第3页
面向问句检索的词项赋权研究_第4页
面向问句检索的词项赋权研究_第5页
资源描述:

《面向问句检索的词项赋权研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、面向问句检索的词项赋权研究摘要:在社区型问答服务屮,存在大量的由用户生成的问题及答案,一方面用户可以通过发布新问题,等待其他用户的回答;另一方面用户可以通过搜索与当前问题相关或者相似的问题,从而得到相应的答案。随着社区型问答服务的发展,用户更加关注问题检索服务的质量,因此如何合理并有效地检索岀与用户当前问题相关或相似的问题,成为社区型问答服务的核心任务。对社区型问答服务屮用户问题的特点进行了分析,提出一种确定问题中词项重耍性的方法,从而改进传统问题检索模型中计算当前问题和候选问题集Z间相关度的方法,提高问题检索质量。实验证明

2、文中的方法在MAP、MRR及R-precision三项指标中均有提高。同时,分析了影响词项重要度的实验特征,得出最优的特征集合。关键词:社区型问答;问题检索;词项赋权中图分类号:TP391文献标识码:A文章编号:2095-2163(2013)05-0054-040引言传统的检索模型如布尔模型、向量空间模型、OkapiBM25模型及语言模型等,能够有效衡量用户查询与候选文档之间的关系。在社区型问题检索中,山于用户问题形式的复杂性及候选文档长度的特殊性,使得传统的检索模型在问题检索任务中的有效性和适用性受到限制,与其相对应的词项

3、赋权机制的合理性也有待验证。此外,Xueetal[1]提出的利用翻译模型自动获取问题词项之间以及问题和答案词项之间语义关系的检索模型,Wangetal[2]提出的利用短语结构句法树核匹配的相关问题检索模型,但这两种模型都没冇对词项的重要性进行量化评估。社区型问答服务中,用户的问题可分为三类。第一类问题的特点是用户问题较短,往往只包含若干个关键词;笫二类问题与传统的TREC(TextRetrievalConference)(http://tree.nist.gov/)问答中的问题相似,英问题表述较为规范;第三类问题本身包含问题

4、及问题描述,或者是多个问题形成的复合问题。上述三种类型的问题中,第三类问题具冇相当长度,带有很多兀余的词项,其中也包含部分噪声词项,从而对检索结果的质量产生不利的影响。针对社区型问答中问题的复杂性及检索任务的特殊性,本文利用依存句法分析技术获取用户问题中词项之间内在的句法关系,并融合词性命名实体等特征衡量用户问题屮各个词的权重,从而提出一种合理的用户问题中词项赋权机制,这种机制不仅可以将用户问题中的干扰词与关键词区分开,而且量化了词的权重,并将此机制与传统的检索模型结合得出一种新的问题检索和排序的方法O1相关工作问题检索作为

5、社区型问答服务的核心任务,广泛应用于相似和相关问题推荐、答案推荐及问题推送等服务中。Jeonetal[3]基于TBMmodel1翻译模型对社区型问答服务中的问答对进行建模,获収问题和答案以及问题之间词汇和语义上的关系,从而衡量问题与答案之间以及问题与问题之间的相似度,实验结果表明其在问题检索任务中的性能耍优于传统的检索模型。Duanetal[4]将所有候选问题词汇链形成前缀树,再利用最小描述长度(MinimumDescriptionLength,MDL)的方法对句子树进行剪枝,识别出每个问题的主题成分和焦点成分,最后对主题和

6、焦点应用语言模型进行建模,从而进行问题检索。Xueetal[l]在分析和对比了基于翻译模型和语言模型的检索模型的基础上,将上述两种模型相结合,提出一种新的问题检索和答案检索模型。Bernhardetal[5]利用多种词汇以及语义资源,训练单语的翻译模型,从而计算问题之间以及问题和答案之间的相关度。Moschittietal[6]利用浅层语义分析技术(semanticrolelabeling,SRL)和短语结构的句法分析技术构建谓词论元结构,提出了新的核函数用以计算问题及答案Z间以及问题Z间的相似度。Wangetal[2]和M

7、oschittietal[6]在短语结构句法分析的基础上,利用树核的方法计算问题之间的相似度。近年来,在TREC检索评价体系下的查询词赋权工作取得了较大的进展。Benderskyetal[7]融合多类特征,利用分类的方法对长查询中的关键概念(keyconcept)进行识别,并在传统检索模型的排序机制下,改进传统模型的查询词赋权机制。Benderskyetal[8]基于排序学习的方法度量查询中概念的重要性,并利用马尔科夫随机域的方法构建图模型,获取查询词之间的依存关系,从而得到查询词的权重。Benderskyetal[9]针对

8、以往的查询词赋权机制中参数相对固定的问题,提出一种动态的参数化赋权方法。Mingetal[10]引进类别信息,通过获取词项在父类和子类中的不同爛值,以此区分词项相对于类别的重要性,并将其融合到传统的检索模型。Parketal[ll]利用依存句法分析的特征处理长查询中的词项排序问题,并利用t

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。