面向专利文献的术语自动处理技术

面向专利文献的术语自动处理技术

ID:46780371

大小:341.93 KB

页数:5页

时间:2019-11-27

面向专利文献的术语自动处理技术_第1页
面向专利文献的术语自动处理技术_第2页
面向专利文献的术语自动处理技术_第3页
面向专利文献的术语自动处理技术_第4页
面向专利文献的术语自动处理技术_第5页
资源描述:

《面向专利文献的术语自动处理技术》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、20lO年8月.沈阳航空工业学院学报Aug.2010第27卷第4期JournalofShenyangInstituteofAeronauticalEngineeringV01.27No.4文章编号:1007—1385(20lo)04—0032—05面向专利文献的术语自动处理技术叶娜陈小芳蔡东风(沈阳航空航天大学知识工程研究中心,辽宁沈阳110136)摘要:科技术语是专利文献的重要组成部分,集中承载着特定领域的核心知识,对于科技信息的传播与交流有着重要的作用,也是专利文献内容深层次理解的基础。本文深入分析了术语的特点,围绕术语获取、术语翻译和术语分析等术语自动处理领域的关键技术,

2、对当前的主流方法以及其中存在的难点问题进行了讨论。提出了一套术语自动处理方法,取得了较好的效果。关键词:计算机应用;专利文献;术语;自动处理中图分类号:TP391.1文献标识码:Adoi:10.3969/j.issn.1007—1385.2010.04.008术语是科技文献的核心概念,集中体现和承载了特定领域的核心知识,对于促进人类创新知识的传播、科技成果的推广和资源的共享都有着十分重要的意义。术语的变化情况在一定程度上反映了一个学科领域的发展变化。作为科学进步和技术创新的主要载体,专利文献的重要组成部分就是科技术语,术语的密集出现是专利文献的一个显著的特点。因此,术语的处理效

3、果是影响专利文献信息内容理解质量的关键因素之一。术语自动处理技术主要涉及术语的自动获取、自动翻译和语义分析等。其中术语获取可以进一步分为单语术语识别和双语术语获取两个层次,前者指从某种单一语言的专利文献中自动识别出术语,后者则指内容等价的双语术语对的获取,用于在单语术语之间建立对齐关系,以满足跨语言专利处理和信息交流的需要。术语翻译指将术语由一种语言自动翻译为另一种语言。术语语义分析指术语内部句法结构的识别和语义关系的确定,是对术语内容的深层次理解。术语作为领域内某概念的抽象,在特定的专业领域中使用,因此具有很强的语言学特点和领域特点。本文分析了术语的特点,对当前术语处理技术的

4、主流方法进行了介绍,并讨论了现有方法存在的问题和难点。然后,本文针对现有问题收穑日期:2010—05—23基金项目:辽宁省教育厅创新团队项目(项目编号:LT2010084);辽宁省教育厅高校科研计划项目(项嗍:L2010422)作者简介:叶娜(1981一),女,辽宁沈阳人,讲师,主要研究方向:自然语言处理,E—mgi]:yn.yena@gnlail.com。和难点提出了一套术语自动处理方法,包括采用基于条件随机场的统计模型进行单语术语提取;采用基于多策略的方法进行双语术语获取;采用基于中心词驱动的方法进行英二一汉术语翻译;采用基于多特征的统计机器翻译方法进行日一汉术语翻译;采用

5、统计与规则结合的方法进行术语语义分析等。上述方法在实际应用中均取得了良好效果。l术语的定义与特点1.I定义术语是专业领域中概念的语言表示,也可定义为通过语言或文字来表达或限定专业概念的约定性语言符掣1

6、。《中国大百科全书》中指出,“术语是各门学科中的专门用语,术语可以是词,也可以是词组,用来正确标记生产技术、科学艺术、社会生活等各个专门领域中的事务、现象、特性、关系和过程”。1.2特点1.2.1语言学特点从语言学知识的角度来看,术语的结构与其它词语有明显不同,具有鲜明的特性。具体有以下几个方面:(1)构词特点:术语具有概念的严谨性,因此术语的构成词语以名词、动词和形容词为主,鲜

7、少有副词(例如:“了”、“的”、“地”)参与构成;同时由于不同语言的差异性,在构成上也略有侧重。中文术语偏好名词、动词和形容词构词,如“感知/v机/ng”、“风Bin'l'生/ng神经炎/n”、“多/ad第4期叶娜等:面向专利文献的术语自动处理技术33管/n热/a交换器/n”;英语以名词和形容词为主,辅以连词,如“bell/nmouth/n”、“threaded/afastener/n”;而日语则以名词为主,如“变形/名词一寸变接统抑制/名词一寸变接统手段/名词一一般”、“强力/名词一一般带/名裥一接尾—一般”;(2)用字特点:术语中一般不含标点符号,除个别化学、纺织等类术语(

8、如“l,l一二氯一l一氟乙烷”)以外;(3)词长特点:术语的长度不一。部件名最短为1个字,如“泵”、“轴”等;而有些专利名称很长,超过15个字,如“两柱掩护式大采高放顶煤液压支架”等。但长度总体趋向偏长;(4)语法特点:术语的语法构成模式相对固定,如名词+名词、形容词+名词等;(5)中心词特点:术语的末尾词往往是中心词,如“牙膏桶”、“lubricantoils”等;(6)嵌套现象:术语存在嵌套现象较多,如“多功能立体电动机”,在语料中还存在有“立体电动机”、“电动机”等;(7)缩略现象:某

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。