词语表示方法及其相关应用.ppt

词语表示方法及其相关应用.ppt

ID:51038759

大小:1.56 MB

页数:34页

时间:2020-03-17

词语表示方法及其相关应用.ppt_第1页
词语表示方法及其相关应用.ppt_第2页
词语表示方法及其相关应用.ppt_第3页
词语表示方法及其相关应用.ppt_第4页
词语表示方法及其相关应用.ppt_第5页
资源描述:

《词语表示方法及其相关应用.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、词语表示方法简介MenuOne-Hot表示方法PPMI矩阵表示基于SVD的表示方法基于神经网络的表示方法One-Hot表示方法NLP中最直观,也是到目前为止最常用的词表示方法是One-hotRepresentation,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为0,只有一个维度的值为1(或者出现的次数),这个维度就代表了当前的词。“话筒”表示为[0001000000000000…]“麦克”表示为[0000000010000000…]One-Hot表示方法这种One-hotRepresentation如果采用稀疏方式存储,会是非常的简洁:也就是给每个词分配

2、一个数字ID。比如刚才的例子中,话筒记为3,麦克记为8(假设从0开始记)。存在问题词义鸿沟维度灾难PPMI矩阵表示词语表示的向量长度等同于term表的长度对于单词的表示,统计所有词语与该词语作为上下文时出现的次数如要得到cat的单词向量我们就统计cat和其他所有单词在局部上下文中的共现情况假设cat和plays在语料中共现1000次plays对应的维度是55那么cat单词向量的第55维就是1000。PPMI矩阵表示是一种和one-hot表示方法类似的稀疏表示方法能够对于共现关系进行表示同样存在维度爆炸的问题(英文单词有限,目前算力可以支持,跨语言时会出现维度爆炸问题)LSA/LSILSA(la

3、tentsemanticanalysis)潜在语义分析,也被称为LSI(latentsemanticindex)主要对词语-文档矩阵进行SVD,对一个t*d维的矩阵(单词-文档矩阵)X可以分解为U*D*Vt其中U为t*m维矩阵U中的每一列称为左奇异向量(leftsingularbector)D为m*m维对角矩阵,每个值称为奇异值(singularvalue)Vt为d*m维矩阵,每一列称为右奇异向量。LSA/LSILSA/LSI优点1)低维空间表示可以刻画同义词,同义词会对应着相同或相似的主题。2)降维可去除部分噪声,是特征更鲁棒。3)充分利用冗余数据。4)无监督/完全自动化。5)与语言无关。L

4、SA/LSI缺点1)LSA可以处理向量空间模型无法解决的一义多词(synonymy)问题,但不能解决一词多义(polysemy)问题。因为LSA将每一个词映射为潜在语义空间中的一个点,也就是说一个词的多个意思在空间中对于的是同一个点,并没有被区分。2)特征向量的方向没有对应的物理解释。3)SVD的计算复杂度很高,而且当有新的文档来到时,若要更新模型需重新训练。4)没有刻画term出现次数的概率模型。共现矩阵分解类似于LSA/LSI,我们还可以对PPMI矩阵进行分解,使用SVD分解设term表大小为n,则矩阵为n*n大小的方阵然后使用SVD进行分解,分解为U*D*Vt然后使用U阵作为词语表示的信

5、息共现矩阵分解特点对于词语的共现频率有良好的支持训练出的结果在近义词数据集上效果好(ws353等)Word2vecWord2vec是Mikolov提出的词语表示模型主要包含两个模型:CBOWSkip-gram两个框架:HierarchicalSoftmax(HS)NegativeSampling(NS)Word2vec NerualNetworkLanguageModel(NNLM)Word2vec NerualNetworkLanguageModel(NNLM)三层神经网络架构输入层投影层输出层输入单词使用one-hot编码输入层是单词数*词向量大小的矩阵,保存词向量投影层是将输入的映射后的

6、向量用tanh激活输出层使用softmax函数训练目标:最大化下面的函数Word2vecWord2vec模型与NNRM非常类似,也是输入层,投影层和输出层三层CBOW模型主要用当前词的上下文预测当前词Skip-gram模型主要用当前词来预测上下文所以CBOW目标函数为Skip-gram目标函数为Word2vec CBOWWord2vec CBOW输入层包含上下文中n个相关词的词向量,如我们选定n为2,则上下文长度为2,则会包含上文2个词和下文2个词的词向量投影层将输入的2n个词向量做累加,即输出层输出一颗二叉树,以语料中出现过的词作为叶子节点,以词语在语料中出现的次数作为权值构造出的Huffm

7、an树,叶子节点数N为term表的长度,非叶子节点为N-1个针对NNLM中隐藏层到输出层的计算以及softmax计算等计算复杂度比较高的地方进行针对性的优化,并引入了Huffman树,为HierachicalSoftmax技术奠定基础Word2vec HierachicalSoftmaxHS是word2vec中用于提高性能的关键技术我们假设词典D中的词w使得Pw:从根结点出发到达w对应叶子节点的路

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。