资源描述:
《语义分析方案贾俊华.docx》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、本文主要由以下三部分组成:文本基本处理,文本语义分析,语义分析小结。先讲述文本处理的基本方法,这构成了语义分析的基础。接着分文本和图片两节讲述各自语义分析的一些方法,值得注意的是,虽说分为两节,但文本和图片在语义分析方法上有很多共通与关联。最后我们简单介绍下语义分析在广点通“用户广告匹配”上的应用,并展望一下未来的语义分析方法。1文本基本处理在讲文本语义分析之前,我们先说下文本基本处理,因为它构成了语义分析的基础。而文本处理有很多方面,考虑到本文主题,这里只介绍中文分词以及TermWeighting。1.1中文分词拿到
2、一段文本后,通常情况下,首先要做分词。分词的方法一般有如下几种:基于字符串匹配的分词方法。此方法按照不同的扫描方式,逐个查找词库进行分词。根据扫描方式可细分为:正向最大匹配,反向最大匹配,双向最大匹配,最小切分(即最短路径);总之就是各种不同的启发规则。全切分方法。它首先切分出与词库匹配的所有可能的词,再运用统计语言模型决定最优的切分结果。它的优点在于可以解决分词中的歧义问题。下图是一个示例,对于文本串“南京市长江大桥”,首先进行词条检索(一般用Trie存储),找到匹配的所有词条(南京,市,长江,大桥,南京市,长江大桥
3、,市长,江大桥,江大,桥),以词网格(wordlattices)形式表示,接着做路径搜索,基于统计语言模型(例如n-gram)找到最优路径,最后可能还需要命名实体识别。下图中“南京市长江大桥”的语言模型得分,即P(南京市,长江,大桥)最高,则为最优切分。图1.“南京市长江大桥”语言模型得分由字构词的分词方法。可以理解为字的分类问题,也就是自然语言处理中的sequencelabeling问题,通常做法里利用HMM,MAXENT,MEMM,CRF等预测文本串每个字的tag[62],譬如B,E,I,S,这四个tag分别表示:
4、beginning,inside,ending,single,也就是一个词的开始,中间,结束,以及单个字的词。例如“南京市长江大桥”的标注结果可能为:“南(B)京(I)市(E)长(B)江(E)大(B)桥(E)”。由于CRF既可以像最大熵模型一样加各种领域feature,又避免了HMM的齐次马尔科夫假设,所以基于CRF的分词目前是效果最好的。除了HMM,CRF等模型,分词也可以基于深度学习方法来做,也取得了state-of-the-art的结果。图2.基于深度学习的中文分词上图是一个基于深度学习的分词示例图。我们从上往下
5、看,首先对每一个字进行LookupTable,映射到一个固定长度的特征向量(这里可以利用词向量,boundaryentropy,accessorvariety等);接着经过一个标准的神经网络,分别是linear,sigmoid,linear层,对于每个字,预测该字属于B,E,I,S的概率;最后输出是一个矩阵,矩阵的行是B,E,I,S4个tag,利用viterbi算法就可以完成标注推断,从而得到分词结果。一个文本串除了分词,还需要做词性标注,命名实体识别,新词发现等。通常有两种方案,一种是pipelineapproach
6、es,就是先分词,再做词性标注;另一种是jointapproaches,就是把这些任务用一个模型来完成。一般而言,方法一和方法二在工业界用得比较多,方法三因为采用复杂的模型,虽准确率相对高,但耗时较大。1.2语言模型前面在讲“全切分分词”方法时,提到了语言模型,并且通过语言模型,还可以引出词向量,所以这里把语言模型简单阐述一下。语言模型是用来计算一个句子产生概率的概率模型,即P(w_1,w_2,w_3…w_m),m表示词的总个数。根据贝叶斯公式:P(w_1,w_2,w_3…w_m)=P(w_1)P(w_2
7、w_1)P(
8、w_3
9、w_1,w_2)…P(w_m
10、w_1,w_2…w_{m-1})。最简单的语言模型是N-Gram,它利用马尔科夫假设,认为句子中每个单词只与其前n–1个单词有关,即假设产生w_m这个词的条件概率只依赖于前n–1个词,则有P(w_m
11、w_1,w_2…w_{m-1})=P(w_m
12、w_{m-n+1},w_{m-n+2}…w_{m-1})。其中n越大,模型可区别性越强,n越小,模型可靠性越高。N-Gram语言模型简单有效,但是它只考虑了词的位置关系,没有考虑词之间的相似度,词语法和词语义,并且还存在数据稀疏的问题,所以
13、后来,又逐渐提出更多的语言模型,例如Class-basedngrammodel,topic-basedngrammodel,cache-basedngrammodel,skippingngrammodel,指数语言模型(最大熵模型,条件随机域模型)等。最近,随着深度学习的兴起,神经网络语言模型也变得火热[4]。用神经网络训练语言模