基于矩阵分解和矩阵变换的多义词向量研究

基于矩阵分解和矩阵变换的多义词向量研究

ID:32373032

大小:1004.03 KB

页数:30页

时间:2019-02-03

基于矩阵分解和矩阵变换的多义词向量研究_第1页
基于矩阵分解和矩阵变换的多义词向量研究_第2页
基于矩阵分解和矩阵变换的多义词向量研究_第3页
基于矩阵分解和矩阵变换的多义词向量研究_第4页
基于矩阵分解和矩阵变换的多义词向量研究_第5页
资源描述:

《基于矩阵分解和矩阵变换的多义词向量研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于矩阵分解和矩阵变换的多义词向量研究石昊悦hyshi@pku.edu.cn2018年6月9日Content1问题介绍词向量和多义词向量多义词向量中的“伪多义”现象工作目标算法介绍伪多义检测算法一:基于外部知识库的伪多义检测伪多义检测算法二:基于邻域相似度的伪多义检测伪多义检测算法三:基于词内部意义对差矩阵分解的伪多义检测伪多义消除算法:基于矩阵变换的伪多义消除实验结果词义相似度下游任务测试PCAVS.RPCA石昊悦

2、基于矩阵分解和矩阵变换的多义词向量研究词向量和多义词向量2词向量词向量是一种基于分布式语义的词义表达方式。分布式语义假设:上下文相似的词语具有相似的含义。词向量间的相似度(如余弦

3、相似度)可以表达对应词间的相似度。词向量可以由统计方法或神经网络学习得到。石昊悦

4、基于矩阵分解和矩阵变换的多义词向量研究词向量和多义词向量2词向量词向量是一种基于分布式语义的词义表达方式。分布式语义假设:上下文相似的词语具有相似的含义。词向量间的相似度(如余弦相似度)可以表达对应词间的相似度。词向量可以由统计方法或神经网络学习得到。多义词向量故名思义,多义词向量试图用多个不同的向量表达多义词的不同词义。多义词向量一般由以下三部分构成:▶全局向量:每个词只有一个全局向量。▶词义向量:每个词义对应一个词义向量。▶参数向量:帮助根据语料中的上下文选择具体词义的参数。石昊悦

5、基于矩阵分解和矩阵变换的多

6、义词向量研究多义词向量中的“伪多义”现象3“伪多义”现象我们定义“伪多义”表示自动挖掘词义的词向量学习算法对事实上的同一词义学习出多个词向量表示,且这些词向量表示之间相似度并不大的现象。下表展示了使用[1]中模型进行训练的词向量中的伪多义现象(同色表示人工推理倾向于相同含义)。词义词义向量的最近邻对应词stars1stars,movie,song,MVPstars2stars,award,eagle,two-timestars3supergiant,constellation,aurigaealgorithms1hash,algorithms,quicksort,recursivealgori

7、thms2algorithms,optimization,public-key[1]Neelakantanetal..2014.EfficientNon-parametricEstimationofMultipleEmbeddingsperWordinVectorSpace.InProc.ofEMNLP石昊悦

8、基于矩阵分解和矩阵变换的多义词向量研究工作目标4观察表明,伪多义现象在几乎所有基于神经网络的多义词向量模型上都存在且比较显著。本工作尝试对上述伪多义现象进行检测,并在保留其他词向量相对关系的基础上进行伪多义消除。石昊悦

9、基于矩阵分解和矩阵变换的多义词向量研究伪多义检测算法一:基于外部知识

10、库的伪多义检测5分布式语义假设:在相似上下文中的词语表达相似的含义。词向量:相似含义的词在词向量中相似度较高。推论:对于多义词向量,一个义项的具体含义可以借助外部知识库、结合其近邻向量大致确定。石昊悦

11、基于矩阵分解和矩阵变换的多义词向量研究伪多义检测算法一:基于外部知识库的伪多义检测5分布式语义假设:在相似上下文中的词语表达相似的含义。词向量:相似含义的词在词向量中相似度较高。推论:对于多义词向量,一个义项的具体含义可以借助外部知识库、结合其近邻向量大致确定。外部知识库:WordNet[1]/同义词词林[2]本工作主要利用知识库中的上下位(hypernymy-hyponymy)关系,所有词和上

12、下位关系构成一张有向拓扑图。上位词下位词animal/动物cat/猫country/国家China/中国[1]Miller.1995.WordNet:alexicaldatabaseforEnglish.CommunicationsoftheACM[2]梅家驹.1984.同义词词林.商务印书馆;上海石昊悦

13、基于矩阵分解和矩阵变换的多义词向量研究伪多义检测算法一:基于外部知识库的伪多义检测6多义词不共上位假设:一个词的多个含义不共享直接上位词。词词义1直接上位1词义2直接上位2bank银行financialinstitution河岸slopenet网trap净(收入)income石昊悦

14、基于矩阵

15、分解和矩阵变换的多义词向量研究伪多义检测算法一:基于外部知识库的伪多义检测6多义词不共上位假设:一个词的多个含义不共享直接上位词。词词义1直接上位1词义2直接上位2bank银行financialinstitution河岸slopenet网trap净(收入)income根据词义向量对应邻域的打分机制:∑′score(vw;SynHw)=cos(vw;vw)isPossibleHypernym(Syn

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。