语义分析方案贾俊华

ID：34354161

大小：1.08 MB

页数：26页

时间：2019-03-05

资源描述：

《语义分析方案贾俊华》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、.本文主要由以下三部分组成：文本基本处理，文本语义分析，语义分析小结。先讲述文本处理的基本方法，这构成了语义分析的基础。接着分文本和图片两节讲述各自语义分析的一些方法，值得注意的是，虽说分为两节，但文本和图片在语义分析方法上有很多共通与关联。最后我们简单介绍下语义分析在广点通“用户广告匹配”上的应用，并展望一下未来的语义分析方法。1文本基本处理在讲文本语义分析之前，我们先说下文本基本处理，因为它构成了语义分析的基础。而文本处理有很多方面，考虑到本文主题，这里只介绍中文分词以及TermWeighting。1.1中文分词拿到一段文本后，通常情况下，首先要

2、做分词。分词的方法一般有如下几种：基于字符串匹配的分词方法。此方法按照不同的扫描方式，逐个查找词库进行分词。根据扫描方式可细分为：正向最大匹配，反向最大匹配，双向最大匹配，最小切分(即最短路径)；总之就是各种不同的启发规则。全切分方法。它首先切分出与词库匹配的所有可能的词，再运用统计语言模型决定最优的切分结果。它的优点在于可以解决分词中的歧义问题。下图是一个示例，对于文本串“南京市长江大桥”，首先进行词条检索(一般用Trie存储)，找到匹配的所有词条（南京，市，长江，大桥，南京市，长江大桥，市长，江大桥，江大，桥），以词网格(wordlattices

3、)形式表示，接着做路径搜索，基于统计语言模型(例如n-gram)找到最优路径，最后可能还需要命名实体识别。下图中“南京市长江大桥”的语言模型得分，即P(南京市，长江，大桥)最高，则为最优切分。图1.“南京市长江大桥”语言模型得分由字构词的分词方法。可以理解为字的分类问题，也就是自然语言处理中的sequencelabeling问题，通常做法里利用HMM，MAXENT，MEMM，CRF等预测文本串每个字的tag[62]，譬如B，E，I，S，这四个tag分别表示：beginning,inside,ending,single，也就是一个词的开始，中间，结束，

4、以及单个字的词。例如“南京市长江大桥”的标注结果可能为：“南(B)京(I)市(E)长(B)江(E)大(B)桥(E)”。由于CRF既可以像最大熵模型一样加各种领域feature，又避免了HMM的齐次马尔科夫假设，所以基于CRF的分词目前是效果最好的。除了HMM，CRF等模型，分词也可以基于深度学习方法来做，也取得了state-of-the-art的结果。...图2.基于深度学习的中文分词上图是一个基于深度学习的分词示例图。我们从上往下看，首先对每一个字进行LookupTable，映射到一个固定长度的特征向量(这里可以利用词向量，boundaryentr

5、opy，accessorvariety等)；接着经过一个标准的神经网络，分别是linear，sigmoid，linear层，对于每个字，预测该字属于B,E,I,S的概率；最后输出是一个矩阵，矩阵的行是B,E,I,S4个tag，利用viterbi算法就可以完成标注推断，从而得到分词结果。一个文本串除了分词，还需要做词性标注，命名实体识别，新词发现等。通常有两种方案，一种是pipelineapproaches，就是先分词，再做词性标注；另一种是jointapproaches，就是把这些任务用一个模型来完成。一般而言，方法一和方法二在工业界用得比较多，方法

6、三因为采用复杂的模型，虽准确率相对高，但耗时较大。1.2语言模型前面在讲“全切分分词”方法时，提到了语言模型，并且通过语言模型，还可以引出词向量，所以这里把语言模型简单阐述一下。语言模型是用来计算一个句子产生概率的概率模型，即P(w_1,w_2,w_3…w_m)，m表示词的总个数。根据贝叶斯公式：P(w_1,w_2,w_3…w_m)=P(w_1)P(w_2

7、w_1)P(w_3

8、w_1,w_2)…P(w_m

9、w_1,w_2…w_{m-1})。...最简单的语言模型是N-Gram，它利用马尔科夫假设，认为句子中每个单词只与其前n–1个单词有关，即假设产生

10、w_m这个词的条件概率只依赖于前n–1个词，则有P(w_m

11、w_1,w_2…w_{m-1})=P(w_m

12、w_{m-n+1},w_{m-n+2}…w_{m-1})。其中n越大，模型可区别性越强，n越小，模型可靠性越高。N-Gram语言模型简单有效，但是它只考虑了词的位置关系，没有考虑词之间的相似度，词语法和词语义，并且还存在数据稀疏的问题，所以后来，又逐渐提出更多的语言模型，例如Class-basedngrammodel，topic-basedngrammodel，cache-basedngrammodel，skippingngrammodel，指数

13、语言模型（最大熵模型，条件随机域模型）等。最近，随着深度学习的兴起，神经网络语言模型也变得火热[4]。用神经

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 26



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

语义分析方案贾俊华

语义分析方案贾俊华

相关文章

相关标签