欢迎来到天天文库
浏览记录
ID:31376494
大小:106.50 KB
页数:6页
时间:2019-01-09
《藏语单句相似度计算模型研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、藏语单句相似度计算模型研究 【摘要】句子相似度计算在藏文信言处理的各个领域中都是很重要的。本文从藏语句子的多个角度分析句子的相似性,利用藏语句子的特征结构,结合词形、词序、相似单元夹角和词性来计算藏语句子的相似度,从几个方面最终计算藏语句子的相似度。实验结果表明,该计算方法合理、简便、可行。 【关键词】词性词序藏语句子自然语言处理 1引言 在自然语言处理领域,尤其在藏文信息处理中,藏语句子相似度的计算是一项基础性较强的研究课题。长期以来一直是人们研究的一个热点和难点,直接决定着藏语信息处理领域的发展。如:基于实例的机器翻译、基于语料库的藏语
2、教学系统、自动问答系统、藏文信息检索等研究中,藏语单句的基本句型研究对计算机语句处理具有重要的理论意义,使计算机对藏语句法分析的重要基础和前提。之前,对藏语句子相似度有些研究,安见才让老师写的《藏语句子相似度算法的研究》提出了采用散列单词倒排索引和基于句长相似度粗选的算法。于洪志老师在《基于藏语句多特征融合的主观题自动评分算法》中提出了一种藏语句多特征融合的主观题自动评分算法,构建了关键词词形相似度计算模型、词序相似度计算模型、句子长度相似度计算模型和句子语义相似度计算模型。6 随着藏语语料库语言学的兴起,藏汉语语料库的建立也是一个基础研究项目,
3、给予我们研究藏文信息处理领域的一个好的平台。其基本原理是:当输入一个待翻译的藏语句子时,系统自动从藏汉双语实例库中搜索到最相似的句子,再以该句子的译文为查询对象,查找出与藏语句子相对应的汉语句子。句子相似度的研究是很重要的一个研究项目,其直接影响到信息的检索和翻译的正确性等很多领域。 2句子相似度模型 2.1词形相似度 藏语句子的构成是以动词为核心,其语序常态是“施事―受事―动作”的格局。词形相似度是比较输入句子和查询句子相似单元的长度。相似单元为输入句子与查询句子中的每个单元相匹配,寻找到相同的匹配单元。即SameWC(A和B)表示句子A和
4、B中相似单元的长度,Len(A),Len(B)为句子A,B的长度,即长度是一个句子中相同的词和标点符号,为了方便于计算也可以忽略标点符号。当相同单元在某个句子中出现的次数较多时,以出现次数少的句子来计算。 例1: WordSim(A和B)表示句子A和B的词形相似度,由公式(1)来表示: WordSim(A和B)=2×SameWC(A和B)/len(A)+len(B).(0≤WordSim(A和B)≤1)(1) 该两个句子的相似度值SameWC(A和B)=2×5/(6+7)=0.769。 2.2词序相似度6 词序相似度是两个句子中含有相同
5、词在位置关系上的相似程度。要考虑到一个句子的有序度和无序度。Match(A,B)表示在句子A和B当中都出现并且都只出现过一次的相似单元的集合,用Order(A,B)表示句子A中有序的相似单元,句子B中所确定的相似单元被打乱的程度,就是无序度,用Entropy(A,B)表示。句子A,B的词序相似度有公式(2)来表示: ,在句子A中,各相似单元排列顺序的相邻关系为,2-3,3-4,4-5,5-6,6-7,在这个句子中没有被打乱的相邻关系,即Entropy(A,B)=0,Order(A,B)表示句子B中各相邻最大匹配顶点的有序度。在句子B中有序项为,2
6、<3、3<4、4<5、5<6、6<7,Order(A,B)=5. 2.3相似单元夹角相似度 计算句子相似度时,有些句子词形、词序、句子长度方面都相同,在输人句子中位置相邻的两个相似单元在实例句子中被非相似单元的匹配单元间隔开来(排列顺序不变),此中间隔成为相似单元夹角。AngleNum(A,B)为相似单元夹角的个数,AngleSize(A,B)为所有夹角中间匹配单元的个数。由公式(3)为: 比较规则:两个藏语句子的词类序列,结合词类的权值信息,对两个句子从词的最左边起始位置开始,依次进行比较,如果词性相同,就匹配,得到最优的匹配结果,即最后的
7、结果使两个待比较句子的词类序列相似度值最大。eword表示词性匹配的总数目,psmatchcount表示两个比较的句子中分词较少的句子的词个数,如果其中有一个句子的所有词都比较完了,则整个比较就结束。6 上面2个句子表达的意思完全不同,其中的词汇也相异但是句法结构是一致的。所以这个两个句子结构相似度的值为1.假如两个句子的结构完全不相同,句子相似度的值等于0。 2.5句子相似度 综合考虑词形、词序、相似单元夹角相似度、词性相似度的计算,给出述下多特征的藏语句子的综合相似度计算模型。 Zsim(A,B)=WordSim(A,B)+OrderS
8、im(A,B)+Angle(A,B)pswsim(A,B)其中分别是各类计算的权重,=1(0≤≤1,0≤≤1,0≤≤1,0
此文档下载收益归作者所有