deep learning in nlp 词向量与语言模型

deep learning in nlp 词向量与语言模型

ID:33425915

大小:85.59 KB

页数:17页

时间:2019-02-25

deep learning in nlp 词向量与语言模型_第1页
deep learning in nlp 词向量与语言模型_第2页
deep learning in nlp 词向量与语言模型_第3页
deep learning in nlp 词向量与语言模型_第4页
deep learning in nlp 词向量与语言模型_第5页
资源描述:

《deep learning in nlp 词向量与语言模型》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、DeepLearninginNLP(一)词向量和语言模型Postedon2013年7月29日http://licstar.net/archives/328  这篇博客是我看了半年的论文后,自己对DeepLearning在NLP领域中应用的理解和总结,在此分享。其中必然有局限性,欢迎各种交流,随便拍。  DeepLearning算法已经在图像和音频领域取得了惊人的成果,但是在NLP领域中尚未见到如此激动人心的结果。关于这个原因,引一条我比较赞同的微博。@王威廉:SteveRenals算了一下icassp录取文章题目中包含deeplear

2、ning的数量,发现有44篇,而naacl则有0篇。有一种说法是,语言(词、句子、篇章等)属于人类认知过程中产生的高层认知抽象实体,而语音和图像属于较为底层的原始输入信号,所以后两者更适合做deeplearning来学习特征。2013年3月4日14:46  第一句就先不用管了,毕竟今年的ACL已经被灌了好多DeepLearning的论文了。第二句我很认同,不过我也有信心以后一定有人能挖掘出语言这种高层次抽象中的本质。不论最后这种方法是不是DeepLearning,就目前而言,DeepLearning在NLP领域中的研究已经将高深莫测的

3、人类语言撕开了一层神秘的面纱。  我觉得其中最有趣也是最基本的,就是“词向量”了。  将词用“词向量”的方式表示可谓是将DeepLearning算法引入NLP领域的一个核心技术。大多数宣称用了DeepLearning的论文,其中往往也用了词向量。本文目录:0.词向量是什么1.词向量的来历2.词向量的训练  2.0语言模型简介  2.1Bengio的经典之作  2.2C&W的SENNA  2.3M&H的HLBL  2.4Mikolov的RNNLM  2.5Huang的语义强化  2.999总结3.词向量的评价  3.1提升现有系统  3

4、.2语言学评价参考文献0.词向量是什么  自然语言理解的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这些符号数学化。  NLP中最直观,也是到目前为止最常用的词表示方法是One-hotRepresentation,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为0,只有一个维度的值为1,这个维度就代表了当前的词。  举个栗子,  “话筒”表示为[0001000000000000...]  “麦克”表示为[0000000010000000...]  每个词都是茫茫0海中的一个1。  这种One

5、-hotRepresentation如果采用稀疏方式存储,会是非常的简洁:也就是给每个词分配一个数字ID。比如刚才的例子中,话筒记为3,麦克记为8(假设从0开始记)。如果要编程实现的话,用Hash表给每个词分配一个编号就可以了。这么简洁的表示方法配合上最大熵、SVM、CRF等等算法已经很好地完成了NLP领域的各种主流任务。  当然这种表示方法也存在一个重要的问题就是“词汇鸿沟”现象:任意两个词之间都是孤立的。光从这两个向量中看不出两个词是否有关系,哪怕是话筒和麦克这样的同义词也不能幸免于难。  DeepLearning中一般用到的词向

6、量并不是刚才提到的用One-hotRepresentation表示的那种很长很长的词向量,而是用DistributedRepresentation(不知道这个应该怎么翻译,因为还存在一种叫“DistributionalRepresentation”的表示方法,又是另一个不同的概念)表示的一种低维实数向量。这种向量一般长成这个样子:[0.792,−0.177,−0.107,0.109,−0.542,...]。维度以50维和100维比较常见。这种向量的表示不是唯一的,后文会提到目前计算出这种向量的主流方法。  (个人认为)Distribu

7、tedrepresentation最大的贡献就是让相关或者相似的词,在距离上更接近了。向量的距离可以用最传统的欧氏距离来衡量,也可以用cos夹角来衡量。用这种方式表示的向量,“麦克”和“话筒”的距离会远远小于“麦克”和“天气”。可能理想情况下“麦克”和“话筒”的表示应该是完全一样的,但是由于有些人会把英文名“迈克”也写成“麦克”,导致“麦克”一词带上了一些人名的语义,因此不会和“话筒”完全一致。1.词向量的来历  Distributedrepresentation最早是Hinton在1986年的论文《Learningdistribut

8、edrepresentationsofconcepts》中提出的。虽然这篇文章没有说要将词做Distributedrepresentation,(甚至我很无厘头地猜想那篇文章是为了给他刚提出的BP网络打广告,)但至少这种

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。