欢迎来到天天文库
浏览记录
ID:33836504
大小:59.93 KB
页数:12页
时间:2019-03-01
《用于双语科技术语对齐的汉维文可比语料库构建》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、用于双语科技术语对齐的汉维文可比语料库构建彭飞吐尔根・依布拉音艾山・吾买尔米尔夏提•力提甫新疆大学信息科学与工程学院新疆大学新疆多语种信息技术重点实验室摘要:面向汉文维吾尔文(以下简称汉维)双语科技术语抽取这一应用目标,本文提出新闻科技领域的汉维可比语料库设计方案并进行实验•将网络采集的汉维语料利用机器翻译系统进行初加工后映射到向量空间中并使用LSI算法计算出齐向量间的相关性,利用计算后的向量建立索引并依次计算出源文本与候选文本的相似值•木文设计两种实验进行对比,对选取的可比语料进行评估、筛选,最终达到构建汉维可比语料库的目的.关键词:可
2、比语料库;汉维可比语料库构建;双语术语抽取;LSI;作者简介:彭飞(1990-),男,汉,硕士生,从事网络舆情检测的研究.作者简介:吐尔根•依布拉音(1958-),博士生导师,从事自然语言处理、信息检索的研究,E-nia订:turgun@xju.edu.cn.收稿日期:2016-09-30基金:国家自然科学基金项目(6146304&61462083,61331011)ConstruetionofChinese-UyghurComparableCorpusforAlignmentofBilingualTechnicalTermsPENGFe
3、iTuergenJCibulayinAishanWumaierLitipCollegeofInformationScienceandEngineeringTechnology,XinjiangUniversity;Abstract:InordertorealizethepracticalrcquircmcntofChinese-Uyghurbilingualscientificandtechnicalterms,thispaperproposesaChinese-Uyghurcomparablecorpusdesignforthefiel
4、dofnews,scienceandtechnologyandcarriesoutafeasibilityexperiment.ItisfirstproposedtousemorematureChinese-UyghurmachinetremslationsystemtoestablishtheChinesc-Uyghurcomparablecorpus.WeusetheChincsc-Uyghurcorpuscollectedonthenetworktomapthecollectedcorpustothevectorspaceandus
5、etheLSIalgorithmtocomputethecorrelationbetweenthewords.Thecalculatedtextisindexedascandidatetextandthenthesimilaritybetweenthesourcetextandthecandidatetextiscalculatedinturn.Furthcrmorc,twoexperimenteilschemesarcdesignedandcompared,andtheselectedcorpusisevaluatedandscreen
6、edtoachievethegoalofconstructingtheChinese-Uyghurcomparablecorpus.Keyword:comparablecorpora;Chinese-Uyghurbilingualcorporaconstruction;b订inguallanguagetermcxtraction;LSI;Received:2016-09-300引言构建汉维可比语料库是为了弥补汉维平行语料库在互联网发展过程中的稀缺与相关领域专业文章更新的滞后•平行语料库(ParallelCorpora)是通过文章直译、双语
7、词典、双语语句对齐等方式建立,所建立的语料库受翻译文本及源文本影响IH,由于翻译水平的不同而导致语料库的质量不同•可比语料库(ComparableCorpora)内的可比文档内容相似,但产生于相对独立的语言环境,不含有翻译关系•想要获取效果较好的汉维可比语料需要在建立可比语料库前就对两种文本进行筛选分类,需要对同领域的文本进行可比实验,这样建立的可比语料库能达到较好的应用水平.汉维可比语料库建设的最终目的就是为了面向应用,利用可比语料库进行相关专业技术词语的翻译,维吾尔语文木检索、机器翻译、搜索引擎等•可以说汉维双语可比语料库的建设对于自
8、然语言处理中较为基础的应用有很大的帮助.目前就汉维可比语料库方面的研究还未出现,面临众多挑战,减少计算相似文本代价、确认对比质量以及如何筛选对比结果是本文研究的重点•本文将会抽取一些专业性较强
此文档下载收益归作者所有