专业领域可比语料的构建与评价研究

专业领域可比语料的构建与评价研究

ID:32917110

大小:13.90 MB

页数:79页

时间:2019-02-17

专业领域可比语料的构建与评价研究_第1页
专业领域可比语料的构建与评价研究_第2页
专业领域可比语料的构建与评价研究_第3页
专业领域可比语料的构建与评价研究_第4页
专业领域可比语料的构建与评价研究_第5页
资源描述:

《专业领域可比语料的构建与评价研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、南京理工大学硕士学位论文专业领域可比语料的构建与评价研究姓名:刘飒申请学位级别:硕士专业:情报学指导教师:章成志201203硕士论文专业领域可比语料的构建1j评价研究摘要双语词典、平行语料库等多语言资源是解决跨语占障碍,进行多语言信息处理与服务的基础资源,同时这些资源在某些领域或语种内也是稀缺资源,存在着获取瓶颈问题。相比之下,可比语料不存在平行语料里译文受原文限制的缺点,容易获取,并且从中提取的双语词对可用来扩充双语词典,因此可比语料的构建研究是一项很有意义的研究工作。一方面,可以丰富语料构建的理论体系,另一方面,可以为多语

2、言信息处理提供丰富并且可用的多语言语料资源。现有的可比语料库构建主要针对新闻等通用领域,但实际应用中有关专业领域可比语料的应用需求也非常迫切;并且由于专业领域和通用领域的语料特点存在诸多不同,使得通用领域的可比语料构建和评价方法及技术并不一定适用于专业领域的可比语料研究。基于此,本文对专业领域可比语料构建及评价问题进行研究,探索中英领域可比语料的采集方法,并以跨语言相似度为基础引入主题维度进行语料可比度度量研究,最后通过内部评价和外部评价对可比语料的质量进行综合评估。在中英领域可比语料的采集研究中,本文分别以web搜索引擎、在

3、线百科全书、中英文学术数据库等三种不同类型的互联网资源作为数据源,进行专业领域可比语料库的构建,并对这些方法进行比较分析。在语料可比度度量研究中,本文以词语为单元,通过基于传统统计的序列相似度(包括卡方统计、spearman系数)、基于词频排序的序列相似度、基于术语度排序的序列相似度等三种不同方法在不同类型语料(平行语料、可比语料、非可比语料等)进行实验,对语料整体进行可比度度量。结果表明:基于术语度排序的方法性能最好,其次是基于词频的方法,基于传统统计的方法性能最差。此外,关于可比语料研究大多采用单一指标,尚未形成较完善统一

4、的评价体系,需要对可比语料的评价进行深入研究。鉴于此,本文从内部评价和外部评价两方面对语料进行综合评估。内部评价中以语料词语总体特征、子语料相似性等为基础进行语料内部一致性的评估;外部评价中通过双语术语抽取任务间接评价语料质量。在不同可比程度的语料(包括平行语料、可比语料、非可比语料)上的双语术语抽取实验结果表明,可比度高的语料上获取的术语质量更高。关键词:领域可比语料,可比语料构建,可比度度量,语料评价AbstractBilingualdictionaryaIldparallelco叩uSplaya11impon觚trole

5、inmultilingualinfoHnationprocessin‰suchaSmachinetmslation,cross-lingualinfomationretrieValandsoon.However'theseresourcesarescarceanddimculttobecollectedf-0rsomeu11der-reSourced1aIlguagesorspecialdomains.Bycontrast,comparabIeco叩usiseasiert0beobtainedbyfindingmultilin

6、gualtextcollectionswithsimilarTbpicsratherthanfindcollectionsthataretranslationsofeachother.Therefore,itis、Ⅳonhwhiletodiscussthequestionondomaincomparablecorpusconstmctionandevaluation.Ononeside,itcall铲eatlyenrichtheexiStingtheoreticalsystem;ontlleotherside,itcanof

7、

8、f研large-scale,h遮h-qualityco印usresources.Inthisthesis,itfirstattemptstoc01lectcomp砸bleco叩usf.romdin’erentwebdatasource.Next,ittriestomeasuretheco巾us’comparabilitybaSedoncross—languagesimil撕tyanddist曲mionconsistencyofsu_bject.Finally,itevaluatesqualityofcomparablecorp

9、us诵mbotllintemalandextemalevaluation.TIlreedi腩rentIntemetda_tasourcehaVebeenusedforcolleCtingcorpus.Oneisqu£叫ingbilingualdomainkeywordsins

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。