网络论坛的问答搜索技术研究

网络论坛的问答搜索技术研究

ID:46003877

大小:74.50 KB

页数:8页

时间:2019-11-20

网络论坛的问答搜索技术研究_第1页
网络论坛的问答搜索技术研究_第2页
网络论坛的问答搜索技术研究_第3页
网络论坛的问答搜索技术研究_第4页
网络论坛的问答搜索技术研究_第5页
资源描述:

《网络论坛的问答搜索技术研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、网络论坛的问答搜索技术研究论文导读:可以有效提高问答检索的准确性。答案抽取及排序问题决定了整个系统的性能。在这里我们使用RankingSVMo排序方法。网络论坛的问答搜索技术研究。关键词:问答检索,答案抽取,Ranking,SVM排序1引言随着搜索技术的不断发展,搜索引擎从全文搜索、综合式搜索慢慢向个性化化、专业化、智能化发展。如今个性化搜索引擎系统、垂直搜索引擎口]系统正逐渐得到更多用户的青睐。下面针对论坛资源的问答检索就是一种更专业搜索引擎系统。论坛作为一种专门为用户提供信息交流和讨论的地方,只要授权登录用户都可以在论坛上发布和回复消息。目前论坛众多,涉及的领域广泛,应用

2、形式多样,譬如有电子公告板(BBS)、新闻组(Newsgroup)x讨论组、贴吧等。论坛吸引了大量用户,其中一项重要的功能是解决问题。用户针对某一领域发帖提出问题,其他用户回复帖子,通过相互交流信息,达到解决问题的目的。论坛集聚了大量的人力资源,由人肉搜索引擎释放出来的威力就可见一斑。人肉搜索也是一类提问回答网站,先是一人提问,然后八方回应,通过网络社区集合广大网民的力量,寻求答案,追查事实真相。随着网络的普及,无数人在利用论坛进行问题的问答和讨论,其中很大一部分问题都能得到质量较高的回答。当然,可以利用这些基于主题的问题/答案对,进行采集处理,提供检索加以利用。当用户搜索问

3、题时,能够定位到已搜集论坛中某个相似甚至完全相同的问题,将回复答案返回给用户,将大大提高问题解决的效率和准确度,这也将优于一般的信息检索系统。如何构建这样一个问答检索系统以及提高查询的精度将是本文研究的重点。2关键问题要实现对论坛各种问答资源的有效整合和利用,需要解决数据采集与格式化、答案抽取与推送排序、索引建立、数据存储、问题映射等方面的问题。对于数据的收集和格式化问题,不同于互联网全文搜索引擎,对论坛数据的利用不能简单基于页面,而需要将其表示为以帖子为单位的格式化数据,其中涉及到数据拆分、数据抽取、数据清理等一系列难点。当然可以通过特定的程序抽取问答数据,并使用语法分析、

4、正则表达式等技术对数据格式化。论文检测,Ranking。答案抽取及排序问题决定了整个系统的性能,是要重点解决的问题。论坛中对一个主题帖子的回复数量可能很多,内容可能五花八门,可能是对问题给出的答案,也可能是毫无价值的回复,有用信息不一定很多。即使同为答案,质量上也存在差别。如何高效、准确地将答案抽取岀来,并按质量高低推送给用户参考,是研究的关键问题,也是具有一定挑战性的问题。索引建立、数据存储与一般互联网搜索引擎系统的做法相差不大,在此不作详细介绍。而对于问题映射,实际上是将用户查询的问题映射到系统存储数据库中的相似问题。在这里,并不是将查询映射到答案,而是映射到已有问题,而

5、已有问题关联了相关答案。论文检测,Rankingo这有别于一般互联网查询中的词匹配网页的方法,可以有效提高问答检索的准确性。问题映射通过关键词匹配或余弦夹角相似性度量方法就可以取得较好的效果。其实,已有不少人在研究论坛数据并提供查询检索。国外有FAQ(FrequentlyAskedQuestions)⑵、新闻组搜索、QA查询系统,国内有猫扑网、百度知道、中搜论坛搜索等。上述系统中,有些并未按问题/答案对形式提供检索,有些搜集检索的范围仅局限于本站,有些未对答案进行抽取量化而导致查询结果质量不高。本文着重解决论坛中回复答案抽取及排序问题,以期提高检索系统的性能。3基于论坛数据的

6、答案抽取与排序3.1论坛的组织结构论坛是一个供用户进行信息发布、交流和互助的虚拟社区,论坛集聚了大量人力资源,用户在其中扮演了内容制造和发布的角色。一个论坛一般包括管理页面、导航页面和内容页面。每个论坛都会针对一定的领域设置一些主题,围绕其主题供用户交流讨论,某些主题可能划分得更具体,一个版块下有若干子版块,从而构成一个层次的组织结构。将主题(Topic)帖及回帖看成节点,由此形成一棵树状的结构。3.2问答的组织论坛中很大一部分是用于问题解答的。论文检测,Rankingo许多论坛都设置了专门的版块用于讨论和解答问题。用户将希望得到解答的问题发布到相应的版块中,其他用户对该问题

7、进行回复,回复内容可能是答案、推荐的文章或站点,以及其他有用的信息和意见等。论文检测,Rankingo另外,提问人和其他用户也可以给出反馈、评论,甚至是提问人发表自己突然领悟的答案。通过这种群体讨论模式,很多问题都能够较快地得到满意或高质量的答案,特别在一些用户量众多的热门论坛。由此可见,当用户的信息需求是对具体问题的解答时,一个合适的论坛通常能够提供快速、针对性强和高质量的答案。论文检测,Rankingo基于此,可以从大量的论坛中收集数据,从各个主题中抽取岀相应的问题/答案,结构化处理后存储到问题/答

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。