欢迎来到天天文库
浏览记录
ID:21486074
大小:33.00 KB
页数:10页
时间:2018-10-22
《面向健康问答社区的语义检索技术研究与分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、面向健康问答社区的语义检索技术研究与分析 摘要本文以Axiomatic检索模型为基础,利用Word2Vec在健康问答数据集上训练出的词向量来衡量词语语义相似度,来实现对问答数据的语义检索。此外,实验对比了不同的词义相似度计算方法在不同数据集下的检索效果,并分析了使用外部词典作为词义相似度计算方法时存在不足的原因,结果表明本文的检索方法能够有效地提升检索准确率。 【关键词】语义检索Word2Vec词向量自动问答 1概述 健康问答社区中存在大量重复冗余的数据,构建自动问答系统的第一步就是从这些
2、众多的问题中检索出相关信息。目前工业中使用的基于词形的检索技术[1]在海量数据处理上存在诸多不足,尤其是在揭露信息的语义上存在局限性。比如在健康问答社区中,存在着许多义似而形不似的问题:“有什么减肥建议?”和“怎么瘦身?”,再加上用户在提问时大量使用口语化的词语,使得传统的基于词形的检索技术在这类信息的检索上略显无力;另外又由于健康问答领域中的信息专业性强,很多专业词语在语义词典[2-3]中并没有编录多少同义词,甚至没有被收录。因此,一般的语义检索技术使用在健康问答领域乏善可陈。 2相关工作
3、目前,语义检索领域的研究主要集中在本体技术、语义词典和主题模型上: 本体概念源自于哲学中的本体论,是对事物原样及其自身的描述,而后被借鉴到计算机领域。Studer根据前人的研究将本体拆解成了四层含义:概念模型、明确、形式化和共享[2]。借此,诸多以本体技术为基础的检索技术出现[3-5]。然而本体知识库的建立需要多位领域专家的参与,面对海量的健康问答社区数据源构建一套知识库无疑是一件相当巨大的工程。 同义词词典为每一个被收录的词维护了相关的语义信息,代表有WordNet[6]和HowNet[7]
4、。语义词词典对检索时关键词的拓展起到了重要的作用,同时刘群等人提出了以HowNet为基础的词语相似度计算方法[8],为中文词义相似度的计算填补了空白。但同义词词典存在一个巨大的缺陷:收录的词有限。对于不存在于词典中的词,无法衡量它们的相似度,如上述问句中的“瘦身”,因为没有被收录,所以就无法衡量“瘦身”和“减肥”之间的语义关系,从而两个语义上相似的问句也因核心词的不相似而变得不相关。 主题模型是一种潜在语义分析技术,利用统计学方法,可以识别出大规模文档集中的主题信息。主题模型会训练得到两个模型:
5、文档-主题模型和主题-词模型,吕亚伟等人[9]就以此提出了利用主题信息作为特征的词语相似度计算方法。但是,主题模型在面对文本的动态增长时,找到合适的主题投射纬数也愈显困难。 Word2Vec是由谷歌公司以Mikolov等人[10-11]的工作为基础推出的词向量训练工具。对于给定的语料库,Word2Vec可以通过神经网络模型将文本中的词映射到一定维度的向量上,训练出的词向量由于捕获了文本的上下文信息不仅能够很好地反映词义信息,而且解决了一词多义的问题。所以,基于以分析本文将词向量作为衡量语义的主要
6、手段并展开工作。 3Word2Vec原理 词向量的概念源自于Hinton中的Distributedrepresentation[12],被Bengio应用于其所提的神经概率语言模型中[13],是神经网络为了学习某个语言模型而得到的中间产物。最早的词向量one-hotrepresentation不仅会因语料库的增大带来维数灾难的问题,而且也不能很好的刻画词语间的关系。 Word2Vec是一款词向量训练工具,它有两种训练模型:CBOW和Skip-gram。CBOW是通过上下文词预测当前词,Ski
7、p-gram则是通过当前词来预测上下文,另外还有HierarchicalSoftmax和NegativeSampling两种训练方法。不同于Bengio的神经概率语言模型的处理方式,Mikolov在映射层是采用向量相加的方式,而且输出层采用了Huffman树形结构。以基于HierarchicalSoftmax的CBOW为例,其结构图如图1所示。 HierarchicalSoftmax的输出层采用了上述的树形结构,context(w)表示和词w前后紧邻的相关词,v(context(w)k)表示相关
8、词k的词向量,θkw是词k的huffman树编码值1-0,如果Xw向量?A测到词3,则需要经过三个分支,每次分支都是一次二分类。Word2Vec中编码1被定义成负类,编码0定义成正类,根据逻辑回归,一个节点被分到正类中的概率是: HierarchicalSoftmax算法对词典中的每一个词,算法输出层必然存在一条导向这个词的二分类路径,用J表示整个路径长度,则这个路径中所有节点的分类概率连乘积即为语言模型需要求解的p(w
9、context(w)): 映射层对所有的输入向量进行了合
此文档下载收益归作者所有