欢迎来到天天文库
浏览记录
ID:13181569
大小:113.00 KB
页数:16页
时间:2018-07-21
《专业术语新词自动发现技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、专业术语新词自动发现技术内容简介:引言大多数的数字图书馆和Web应用所实现的信息检索都是在词表的基础上完成的,词表中收录了特定专业领域内的所有重要概念,并进行了文献资源的标引、组织.词表需要不断的丰富,不断的补充新词,以保证词表的容量,但传统词表丰富论文格式论文范文毕业论文引言大多数的数字图书馆和Web应用所实现的信息检索都是在词表的基础上完成的,词表中收录了特定专业领域内的所有重要概念,并进行了文献资源的标引、组织.词表需要不断的丰富,不断的补充新词,以保证词表的容量,但传统词表丰富工作是依靠人工维护的,不能
2、跟上知识领域的快速发展.因此,研究信息检索领域的专家把重点放到了词表的自动生成上,即从自由文本中提取词汇间的关系来自动构造词表.该文针对科学技术领域专业术语新词发现的要求,提出以概念为基本单位,通过概念之间的属分关系和相关关系进行组织发现新词,对词表进行自动更新的机制.本方案的设计特点:(1)以概念为单元组织词表.此处的概念就是指WordNet中的同义词集合,同义的词是可以互换的,可以将同义词看成是一个单元,揭示同义词集合之间的关系,而不是词之间的关系.(2)设计的基表不但包括词表本身,而且还包括书目记录的信息
3、.这些书目记录是已经标引好的记录,具有正确的分类和主题.这样,概念就可以与书目记录之间建立对应关系,利用这一对应关系丰富词表的内容.(3)利用书目记录本身的信息和书目记录与概念的对应关系发现新词,并确定其所对应的概念,自动丰富词表,从而提高词汇的等同率.下面,就从词表丰富工作中所采取的三个关键步骤来介绍.1规范化切词后的英文标题从数据库中导出的标题被切分后存成文件,切分的结果中会存在一些英文的词组形式,它一般都会是科技文献论述的重要内容,需作为新词来对待.标题中英文的专指性一般很强,但是英文中的一些附带信息会使
4、英文词组过于专指,或者由于大小写或其他格式不统一,导致原本的词组形式不被计算机所认识,从而影响后期的新词发现.所以,这里对英文进行以下处理:2标题串中专业术语新词的提取1停用词停用词指的是没有构词能力的词和标点符号,可以作为发现新词过程中的分隔标志.在发现新词时,如果遇到停用词,则说明前面几个词的组合已构成新词,而且对停用词后面的词继续进行新词处理.在这里,只用高频的连词(如及、及其等)、最常用的助词的、符号(~、《、》等),一共14个.在确定停用词时,先将词按照在标题中出现的次数排列,然后在高频词中人工挑选出
5、停用词.2倒排档表将切分处理后的词串建立倒排档表,用来保存这个词和它所在书目记录中的位置.3利用正向最大匹配(MM)算法发现新词(1)正向最大匹配算法的基本思想对每条书目记录中的切分后的标题,用停用词做分隔,对每一部分从左向右找出尽可能长的词的组合.首先利用倒排档表找尽可能长的词的组合,然后判定这个标题中出现的几个词的组合是否在其他标题中也出现了,最后判断此组合在所有标题中出现的次数不小于预定的域值,则确定这几个词的组合是一个新词.(2)发现新词算法的基本思想新词是指有特定含义的短语,若它的意义确定,这里就把它
6、当作一个词来处理.比如软件工程课程设计这个词,如果在分词软件中没有切成一个词,而是切成了如软件工程课程设计这种形式,现在的任务就是将其合并成软件工程课程设计的形式.其基本思想就是如果几个词在不同的标题多次连续出现,而且出现次数超过特定的域值,就认为这几个词的组合可能是一个新词.再通过停用词表过滤,保证这几个词中没有停用词,最后过滤剩下的多个词的组合就认为是新词.例如,标题为软件工程课程设计,切分后为软件n工程n课程n设计n.软件n工程n在标题中出现17次,大于域值,软件n工程n课程n出现2次,小于域值,所以认为
7、软件工程是新词,将这个词和这标题对应的记录号存入新词表中.软件n工程n课程n设计n出现11次,大于域值,因为已经到了标题的结尾,所以也认为其是可能的新词.处理为软件工程课程设计.将新词在标题中出现的次数填写在ne_ord(新词表)中的ount_n字段.删除所有出现次数小于域值的记录.在发现的新词的过程中可能包含一些新词的子串被当成新词的现象,比如软件工程课程设计中的工程课程被当成新词.如果标题中出现的软件工程课程子串全在软件工程课程设计串中,则算法是不会发现软件工程课程这个词的.但是,标题中有一个启动工程课程这
8、个词串,因为启动工程课程出现次数小于域值,所以不能成为新词,但计算软件工程课程设计出现次数的时候连工程课程也计算进去,所以认为工程课程是个新词.在进行后处理时,删除所有出现次数小于域值的新词记录的目的就是要去掉这种情况造成的错误.3确定新词对应的概念基本思想:由上一步的发现新词的算法可知,得到的新词一定对应了数量超过一定域值的文献.每篇文献都有一个或多个主题,每个主题对应一个或多个主题
此文档下载收益归作者所有