欢迎来到天天文库
浏览记录
ID:21872014
大小:1.50 MB
页数:31页
时间:2018-10-25
《基于在线知识库的问答系统docx - googlecode》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于在线知识库的问答系统基于在线知识库的问答系统摘要随着信息的爆炸式增长,人们从海量信息中快速获取有用信息越来越难,但同时,人们对信息的需求量也是越来越大,如何减少信息的噪声,减少用户获取有用信息的步骤,是自然语言处理技术研究的一个方向。传统的检索系统,虽然在对信息检索和筛选方面已经有了很大的进步,但是它们还是有自身的一些缺点:1)不能很好地理解用户用自然语言提出的问题,它们更多的理解为“Bagofwords”,查询出来的结果可能并不是用户需要的信息;2)返回的结果也只是与用户输入的查询关键字相关的文档或者网页,有很多噪声,不是更可靠、更直截了当的答案,还需要用户自己进
2、一步地检索。问答系统就是其中一个试图解决这些问题的方向。作为一个理想的问答系统,它能理解用户以自然语言提出的问题,对其进行分析和检索,最后同样以用户可理解的方式,将用户真正需要的东西直接返回给用户,提高了信息获取的效率。问答系统一般要经过问题分析、信息检索、答案生成等步骤,问题分析主要是对用户提出的问题进行分析,如分割出问题关键字,找出问题的类型,同时根据问题类型或相关信息对关键字进行扩展等等;信息检索主要是根据“问题分析“的结果对问题进行检索,以查找出与问题相关的文档或段落;答案生成主要是从“信息检索”返回的文档或段落中抽取问题的答案。由于中文语言本身的一些特性,对于
3、中文问答系统来说,它有一些特别之处,它需要额外进行分词处理、词性标注、命名实体识别等等步骤。分词是因为中文的词是连起来的,不像英文以空格分隔单词,而自然语言处理大多以词为单位,甚至更小颗粒度;词性标注对理解语句的语义十分重要;而命名实体识别有助于问答系统抽取答案。传统的问答系统是基于稳定的文档或者数据库,虽然也有优秀的系统被开发出来,但是由于资料的本身的片面性和滞后性,以及用户需求的多样性和发展性,问答系统的效果需要得到改进,而随着网络的飞速发展,互联网信息的急速爆炸,使我有了更好的数据源——互联网。互联网信息量大且丰富,同时更新速度快,是作为语料库的绝佳来源。所以本文
4、所研究的基于在线知识库的问答系统拥有数据量大、更新速度快的语料库作为基础,在问题的覆盖率方面有较大优势。在线知识库主要分为两种:1)问答、论坛类,如百度知道等;2)百科知识类,如维基百科、百度百科等;由于前者既有用户提出的问题,又有其他用户回答且用户肯定的答案,所以免去了答案抽取的部分,提高了系统效率,所以本文将对1)类在线知识库进行讨论。由于本文所采用的在线知识库的特殊性——已有现成的答案,所以问题更多的转换为判断文本的相似度问题。在这方面,根据以往的经验以及相关论文的讨论,结合词法分析和语法分析的方法,能够一定程度上提高系统的性能,故本系统将采用这种方案。在本研究中
5、,词法分析将用经典的向量空间模型VSM(VectorSpaceModel)来计算文本之间的统计相关性,语法分析将用TreeKernel来计算文本之间语法相似度。最后文本的相似度,或者说问题的匹配度,是两种方案得分按一定比例的加权。向量空间模型是将每个文本表示成一个向量,即将文本投射到向量空间,这样文档之间就可以进行代数运算,计算它们之间的相似值;具体来说是每个文档被表示成一个t维的向基于在线知识库的问答系统量,每一个维度代表一个独立的词。所以,在具体应用时,首先得到所有文档中所有不同的词,即得到每个文档的维数,如果第某个词在某个文档中出现,那么这个词在那个文档的向量中的
6、值就非零;在计算文档之间的相似值时,只需计算文档的向量之间的夹角即可。TreeKernel是基于语句的语法树,通过分析得出的语法树,计算语句的语法树之间的相似程度,来得到语句之间的相似程度;而语法树之间的相似程度是通过语法树相同的子树个数来判断。在计算语法树相同的子树个数时,有几种不同类型的TreeKernel模型,如SubTreeKernel、SubSetTreeKernel、PartialTreeKernel等,他们各有不同的特点,他们的子集的大小依次递增,故对系统的计算量也是依次递增,本文选择的是SubTreeKernel类型的TreeKernel,他的优点是速度
7、快,而且准确率也较高。在系统具体实现时,主要有如下步骤:(1)准备语料库。它的主要工作是从因特网网上抓取语料,保存在数据库中,同时在保证有效性的情况下按一定格式生成问答系统所需要的语料;在本文中,系统语料的来源是百度知道的音乐类、已解决的问答资料;(2)系统预处理。它的主要工作是对系统运行时需要的一些常量进行计算,并保存在本地,以加快系统运行时的速度;(3)接受输入和处理输入。他的主要任务是接受用户输入,并对用户输入语句进行分词、去除停用词等等处理,以便进行后续计算,如向量空间模型的相似值判断;(4)相似值计算,包括使用向量空间模型和Tr
此文档下载收益归作者所有