基于主题和焦点的问句相似度计算方法-论文.pdf

基于主题和焦点的问句相似度计算方法-论文.pdf

ID:58210783

大小:326.05 KB

页数:4页

时间:2020-04-27

基于主题和焦点的问句相似度计算方法-论文.pdf_第1页
基于主题和焦点的问句相似度计算方法-论文.pdf_第2页
基于主题和焦点的问句相似度计算方法-论文.pdf_第3页
基于主题和焦点的问句相似度计算方法-论文.pdf_第4页
资源描述:

《基于主题和焦点的问句相似度计算方法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第14卷第6期2014年2月科学技术与工程Vo1.14No.6Feb.20141671—1815(2014)06—0207-04ScienceTechnologyandEngineering⑥2014Sci.Tech.Engrg.基于主题和焦点的问句相似度计算方法曾辉徐海洲钟茂生(华东交通大学信息工程学院,南昌330013)摘要问句相似度计算是基于常问问题库的问答系统的重点。现在的问句相似度计算准确率较低,为此,提出了一种基于主题和焦点的中文问句相似度计算方法。主题和焦点能够反映问句的主旨,识别出问句的主题能够更好地理解问句。其中抽取问句主题和焦点的

2、方法能获取部分语义信息,而且比传统的根据疑问词进行语义分析的方法适用类型更广,同时在计算问句相似度时考虑了主题和焦点的影响。最后通过设计实验与其他方法进行比较,实验表明,该方法提高了准确率。关键词问答系统主题和焦点问旬相似度计算向量空间模型中图法分类号TP391.1;文献标志码A自动问答系统是当今信息检索领域的一大热门信息,最后利用向量空间模型(vectorspacemodel,话题。它的输入是用自然语言描述的句子,返回的VSM)算法来计算问句的相似度,提高了问句相似结果是用户所需的直接答案。可见,自动问答系统度计算的准确率。能更好地满足用户的需求,

3、能更快地找出用户所需1相关工作的信息。可以说自动问答系统是未来的新一代搜索引擎。由于一个句子中词语数量较少,用统计方法进问句的相似度计算是基于常问问题库的自动问行句子的关键词抽取的效果并不好,根据词性来抽答系统的关键部分。问句相似度计算的结果直接影取句子的关键词是常用的方法。由语言学知识可响到查询结果的准确性。目前在各大电子商务网站知,任何句子都是由关键成分(主、谓、宾等)和修饰已经出现了类似自动问答系统的服务机器人,从已成分(定、状、补等)构成的。关键成分对句子起主有问题库中搜索相似问句,供用户自己选择,但是目要作用,修饰成分对句子起次要作用。进行

4、句子相前使用较多的是利用关键词匹配来查询相似问句,似度计算时,只要考虑句中的关键成分。基于词的提供的是涉及所有关键词的候选问句,在目前的发方法不考虑句法结构分析,因此,不能确定句子的内展基础上,还有很多地方需要改进J。现在已有的部成分,包括关键成分和修饰成分。在通常情况下,句子相似度算法有依据词形、句长、词序等的基于一个句子中作主语和宾语的多为名词或代词,作谓关键词表层信息的相似度算法和依据句法分析、语的多为动词或形容词。因此,可以将一个句子中《同义词词林》、《知网》等的计算语义相似度的算的所有名词、代词、动词和形容词作为关键词,从而法。然而目前的中

5、文句法分析技术还没有达到在得到句子的关键词序列。计算两个关键词序列的词实际中应用的标准,利用《同义词词林》和《知网》形、句长、词序、距离的相似性,融合这些特征计算两计算词语的语义相似度时也需要领域的专家来完个句子的相似度。在上述的关键词抽取方法的善和扩展部分词语。本文根据问句的特点,提出基础上进行句子相似度计算,比一般基于词的方法了一种基于主题和焦点的问句相似度计算方法,更准确一些,但准确率仍有待提高。能从语义层面分析问句,并融合了词信息和语义VSM算法概念简单,把文本内容表示成文档空间的向量,通过计算向量之间的余弦距离计算文本2013年7月18日收

6、到,10月30日修改国家自然科学基金的相似度,是一种用的较多的句子相似度计算的方(61240036)、江西省科技奖励评审管理系统优化法。在利用向量空间模型计算文本的相似度时,需(201333BBI90010)、教育部人文社科基金(11YJC740157,要对关键词赋权值,一种根据词性和词的类型来赋09YJC740027)、江西省自然科学基金(2oi14BAB201027)资助权值的方法很好地反映了不同的关键词在整个第一作者简介:曾辉(1973一),男,硕士,副教授。研究方向:数据库技术,计算机决策支持系统。句子中的作用。郑诚等人在构建问答系统时提出了

7、通信作者简介:徐海洲(1987一),男,硕士研究生。研究方向:数据一种对问句中表达主旨的核心词赋予更高权值的方库技术,计算机决策支持系统。E—mail:haizhouecjtu@foxmail.eom。法J,然而文中提出的抽取核心词的方法依赖于句208科学技术与工程14卷中的疑问词,而中文问句中存在很多不含疑问词的本文没有设计自己的词法分析系统,而是采用情况。的中科院的ICTCLAS中文分词系统进行自动分词本文认为主题和焦点能够反映句子的主旨,是和词性标注。整个句子的核心成分,文中提出了一种根据句子的3基于主题和焦点的问句相似度计算词汇信息来抽取句子

8、主题和焦点的算法,并在进行方法特征词赋权值时,考虑了问句的主题和焦点,最后利用VSM算法完成了问句相似度计算

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。