双向词典和语义相似度计算相结合的词对齐算法

双向词典和语义相似度计算相结合的词对齐算法

ID:46639090

大小:792.74 KB

页数:8页

时间:2019-11-26

双向词典和语义相似度计算相结合的词对齐算法_第1页
双向词典和语义相似度计算相结合的词对齐算法_第2页
双向词典和语义相似度计算相结合的词对齐算法_第3页
双向词典和语义相似度计算相结合的词对齐算法_第4页
双向词典和语义相似度计算相结合的词对齐算法_第5页
资源描述:

《双向词典和语义相似度计算相结合的词对齐算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、文章编号:2095-1248(2015)02-0067-08双向词典和语义相似度计算相结合的词对齐算法尹宝生,杨阳(沈阳航空航天大学人机智能研究中心,沈阳110136)摘要:基于统计的词对齐方法需要大规模的双语语料作为输入,难以避免数据稀疏的问题并且算法时间开销大。针对句子或段落级的实时性对齐需求,提出了一种基于双向词典和语义相似度计算的高效词对齐算法,通过采用动态组块切分和匹配、基于知网的语义相似度计算、基于最大匹配的冲突消解和剪枝消歧等策略,有效地解决了由于翻译的灵活性和多样性带来的近似译文的词对齐问题

2、。实验表明,该算法不仅继承了基于词典词对齐算法的优点,同时还改进了传统基于词典词对齐算法的不足,有效提升了词对齐的正确率和召回率,在小规模双语语料和实时性对齐方面具有更好的适用性。关键词:词对齐;双向词典;动态组块切分和匹配;语义相似度计算中图分类号:TP391文献标志码:Adoi:10.3969/j.issn.2095-1248.2015.02.014Word-alignmentalgorithmcombinedwithbidirectionaldictionaryandsemanticsimilarit

3、ycalculationYINBao-sheng,YANGYang(ResearchCenterforHuman-ComputerInteraction,ShenyangAerospaceUniversity,Shenyang110136,China)Abstract:Word-alignmentbasedonstatisticalmethodrequiresalarge-scalebilingualcorpusasinput,soitisdifficulttoavoidtheproblemofdatasp

4、arseandthealgorithmtimeoverhead.Thispaperpresentsanefficientword-alignmentalgorithmbasedonbidirectionaldictionaryandsemanticsimilaritycalculationtosatisfythedemandforreal-timealignmentofsentenceorparagraphlevel.Theapproximatetranslationofword-align-mentpro

5、blemduetotheflexibilityanddiversityoftranslationcanbeeffectivelysolvedbytakingdynamicblocksegmentationandmatching,semanticsimilaritycalculationbasedontheHowNet,theconflictresolu-tionbasedonthemaximummatchingandthepruningdisambiguation.Comparedwiththestanda

6、rdalgo-rithm,theexperimentalresultsshowthattheaccuracyrateandrecallratecanbeeffectivelyimprovedbythisalignmentmethodonasmall-scalebilingualcorpusandreal-timealignmentwithbetteradaptability.Keywords:word-alignment;bidirectionaldictionary;dynamicblocksegment

7、ationandmatching;semanticsimilaritycalculation双语语料库(BilingualCorpus)包含两种不同语言间的互译信息,是基于统计(Statistic-收稿日期:2014-10-08基金项目:辽宁省百千万人才基金项目(项目编号:04021401)作者简介:尹宝生(1975-),男,辽宁沈阳人,副教授,主要研究方向:知识管理和机器翻译,E-mail:ybs@ge-soft.com。68沈阳航空航天大学学报第32卷[1]Based)机器翻译和基于实例(Example

8、-行了研究,如文献[10]基于深度神经网络探索了[2]Based)机器翻译的重要知识源之一,被广泛应一种新的词对齐模型;文献[11]从约束双语命名用于词典编纂、词义消歧和命名实体识别等自然实体之间的对齐角度出发,提出了一种改进词对语言处理任务。然而,未经任何处理的双语语料齐结果的方法;文献[12]提出的基于对偶分解的库(即生语料,RawCorpus)不能直接应用在相关词对齐搜索算法,其基本思想是将复杂的问题分的自

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。