专业术语新词自动发现技术

专业术语新词自动发现技术

ID:12185636

大小:81.00 KB

页数:10页

时间:2018-07-16

专业术语新词自动发现技术_第1页
专业术语新词自动发现技术_第2页
专业术语新词自动发现技术_第3页
专业术语新词自动发现技术_第4页
专业术语新词自动发现技术_第5页
资源描述:

《专业术语新词自动发现技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、专业术语新词自动发现技术新词是指有特定含义的短语,若它的意义确定,这里就把它当作一个词来处理.比如软件工程课程设计这个词,如果在分词软件中没有切成一个词,而是切成了如软件工程课程设计这种形式,现在的任务就是将其合并成软件工程课程设计的形式.其基本思想就是如果几个词在不同的标题多次连续出现,而且出现次数超过特定的域值,就认为这几个词的组合可能是一个新词.再通过停用词表过滤,保证这几个词中没有停用词,最后过滤剩下的多个词的组合就认为是新词.例如,标题为软件工程课程设计,切分后为软件n工程n课程n设计n.软件n工程n在标题中出现17次,大于域值,软件n工程

2、n课程n出现2次,小于域值,所以认为软件工程是新词,将这个词和这标题对应的记录号存入新词表中.软件n工程n课程n设计n出现11次,大于域值,因为已经到了标题的结尾,所以也认为其是可能的新词.处理为软件工程课程设计.将新词在标题中出现的次数填写在ne_ord(新词表)中的ount_n字段.删除所有出现次数小于域值的记录.在发现的新词的过程中可能包含一些新词的子串被当成新词的现象,比如软件工程课程设计中的工程课程被当成新词.如果标题中出现的软件工程课程子串全在软件工程课程设计串中,则算法是不会发现软件工程课程这个词的.但是,标题中有一个启动工程课程这个词

3、串,因为启动工程课程出现次数小于域值,所以不能成为新词,但计算软件工程课程设计出现次数的时候连工程课程也计算进去,所以认为工程课程是个新词.在进行后处理时,删除所有出现次数小于域值的新词记录的目的就是要去掉这种情况造成的错误.3确定新词对应的概念基本思想:由上一步的发现新词的算法可知,得到的新词一定对应了数量超过一定域值的文献.每篇文献都有一个或多个主题,每个主题对应一个或多个主题词,而每个主题词对应一个概念,即每篇文献可看作含有的主题词对应的概念的集合.这些文献对应的概念集合可能相交或相离,即他们可能有共同的概念或者没有.确定新词所对应的概念就是要

4、看新词所在的文献集合中是否有大多数文献讨论同一概念.如果有这样的概念,则可以认为这个新词与这个概念是对应的.确定新词对应的概念不但可以找出新词与概念之间的对应关系,也可以对新词进行过滤,使发现的新词更加具有检索的意义.例如:剩余时间是我们在上一步发现的新词,但是它所出现的文献包含的概念很分散,没有一个概念能够同时在大多数文献中出现,所以这个新词就没有对应的概念,也可以知道这个新词的专指性不强,没有检索意义.相反,例如自然码这个新词所出现的文献包含的概念就很集中,其中汉字编码这个概念就在大多数文献中出现,所以认为新词自然码与概念汉字编码是对应的.同时也

5、可以知道自然码具有检索意义,是一个有效的新词.即有效词为具有检索意义的词.下面,对此思想用形式化的语言加以描述:4整体实验结果的分析这次实验共用了3130条有效的CNMARC记录,分3次导入数据库.在每次将CNMARC记录导入数据库后进行了发现新词和确定新词对应概念的工作,记录下相应的测试结果,并对结果进行了一定程度的人工分析统计.通过对书目记录规模不同的情况比较,发现了新词和确定新词对应概念所得到结果的数量和质量的变化情况,也初步预测了其变化趋势.通过分析记录增加对发现新词和确定新词对应概念的数量与质量的影响,统计结果反映出以下问题:(1)切分出来

6、的不同词的数量基本上是随着不重复的标题数的增长而线性增长.若文献数量足够大,那么切分出来的不同词的数量应该趋近于切词系统词库中的词汇总数,而不应该是线性增长.(2)经过确定新词对应概念这一步,可以将新词中的无效词过滤掉,从而很大程度上提高发现的新词的有效性.通过过滤,也去掉了一些有意义的新词(在表中没有对应概念的新词中的有效词列反映这些词的数量),但这种错误过滤的数量有限,基本上可以忽略.(3)有效的有对应概念的词占有对应概念词的比例和有效词占发现新词的比例都是大体稳定的.随着文献数量的增加,有对应概念的新词中有效词的比例也在增加.通过找出新词对应的

7、概念,可以提高新词的有效性.5结束语新词发现技术一直是自然语言处理、信息检索、文本挖掘和机器翻译等领域的一项基础性研究.该文提出了用最大匹配法发现书目记录的标题中的专业词汇,根据发现的新词与所在记录之间的对应关系,以及记录与主题的对应关系,确定新词是否有检索的价值,并找出这个新词对应的概念的技术方案.在实践证明,此方案可以有效地解决专业术语词表自动更新的工作.内容简介:FOB作为国际贸易中最常用的贸易术语之一,在我国近几年的对外贸易中使用比例也是最高的。FOB(Freeonboard)(namedPortofshipment),即装运港船上交货,是指

8、卖方负责在合同规定的日期或期间内,在指定的装运港把货物装到买方指论文格式论文范文毕业论文FOB作为国际贸易中

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。