web社区问答检索的关键技术研究

web社区问答检索的关键技术研究

ID:33481241

大小:10.80 MB

页数:113页

时间:2019-02-26

web社区问答检索的关键技术研究_第1页
web社区问答检索的关键技术研究_第2页
web社区问答检索的关键技术研究_第3页
web社区问答检索的关键技术研究_第4页
web社区问答检索的关键技术研究_第5页
资源描述:

《web社区问答检索的关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、⑧万方数据Web社区问答检索的关键技术研究导师汪卫教授指导小组成员施伯乐教授周向东教授朱扬勇教授复旦大学计算机科学技术学院万方数据ResearchontheKeyTechnologiesforWebCommunityQuestionAnsweringRetrievalWenChanSupervisor:Prof.WeiWangAdoctoraldissertationsubmittedinpartialfulfillmentoftherequirementsforthedegreeofdoctorofphilosophySchoolofComputerScienceFud

2、anUniversityApril,2014万方数据论文独创性声明本论文是我令人在导师指导下进行的研究工作及取得的研究成果。论文中除了特别加以标注和致谢的地方外,不包含其他人或其它机构已经发表或撰写过的研究成果。其他同志对本研究的启发和所做的贡献均已在沦文中作了明确的声明并表示了谢意。二.作者签名:—丛日期:丛!!:鱼点论文使用授权声明本人完全了解复旦大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其它复制手段保存论文。保密的论文在解密后遵守此规定。二、作者签名:—孚且翩签名:

3、氇-日期:2应j毕.6:<一万方数据摘要社区问答服务是指人们通过web社区相互交流来提出问题和获取解答的服务。由于社区问答系统中包含了许多真实人工用户生成的知识和经验分享,它已经成为人们常用的除传统搜索引擎以外比较流行的信息求助方式。在社区问答系统中,用户可以基于自然语言表达的方式提交问题直接向社区中的其他用户寻求答案,也可以通过自动检索得到与该提问相似的问题,并进一步使用相似问题的现成答案。对于大多数非事实性问题特别是一些带个人上下文或寻求建议的开放性问题,问题检索往往比基于自然语言处理和信息检索从web文档中抽取文档片段并提取答案的传统方法更加有效。正因为如此,针对w

4、eb社区一般性问题的检索已经成为下一代智能信息检索的一个重要组成部分。稀疏化学习是近年来兴起的新型统计学习方法。本文以稀疏正则化为主要工具,对社区问答中的一系列关键技术开展研究。具体而言,本文主要研究了web社区中复杂多语句问题的答案摘要技术,问题的自动层次话题分类技术和问题检索模型的改进技术。本文的主要工作和创新点如下:1.自动答案摘要:对于社区中的复杂多语句问题,即那些往往包含很多子问题和相应上下文的问题,其“最佳答案”往往存在所谓的“答案不完整”缺陷一它对应的“最佳答案”不够全面完整,缺失了其它答案中包含的对问题回答有用的信息。本文提出一种新颖的自动答案摘要方法来归

5、纳问题的所有答案中的有价值的信息。该方法基于条件随机场模型来对答案句子间的局部/非局部上下文关系进行建模,并使用组L1正则化来对参数进行惩罚,充分挖掘各特征的潜能。2.问题层次分类:用户在社区问答系统上提交问题时,系统要求用户为该问题手工选择一个层次目录来表明问题的话题类别,这样既方便系统将该问题推荐给相应话题的领域专家去解答,也可以便利今后其他用户的浏览和检索。然而,手工给问题进行类别标注需要对整个层次目录体系有全面认识,因而既费时又影响用户体验。为了省去手工对问题进行话题分类的麻烦,本文提出一种自动的问题核化层次话题分类算法,将问题中各特征的多核学习和参数的稀疏正交约

6、束结合起来,在提升模型对相似话题类别的判别能力的同时减少了模型的参数个数。3.问题检索模型:为了进一步提高社区问答中已有问题的可用性,本文研究了基于自动分类结果改善问题检索效果的技术。现有的检索模型在度量某个查询词对该查询的重要性时往往按其在查询中出现的频率来计算,这对于那些每个查询万方数据词只出现一次的情形不起作用。与现有的检索方法不同,我们使用稀疏化的问题分类方法来模拟真实用户的层次类别标注过程,并且根据该过程来自动挑选其中的重要检索词项和获取其对该查询的局部权重。另外,我们还对初步检索结果进行基于结果间相似度的重排序,进一步提高问题检索的性能。本文的多数方法都使用带

7、有稀疏性质的正则化项来约束模型的参数。这样做有几个好处:第一,减少了模型的参数。由于特征的减少,模型所需要的训练数据也相应地减少,防止了模型因为参数太多而过拟合的情况,并且增强了在新数据上的泛化能力;第二,提高了模型的效率。由于参数的减少,用于存储模型的空间和计算时间也有所降低;第三,有利于关系依赖的发现。通过稀疏化模型将那些干扰性的无关项去除后,模型能更加专注于那些真正对模型推理有帮助的特征。因此,本文中提出的稀疏化方法除了对社区问答检索比较有帮助,在其它web应用如冗长关键字检索、web文档分类和摘要上也有一定的启发意义。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。