术语自动抽取系统的设计与关键技术分析

术语自动抽取系统的设计与关键技术分析

ID:32138035

大小:1.59 MB

页数:62页

时间:2019-01-31

术语自动抽取系统的设计与关键技术分析_第1页
术语自动抽取系统的设计与关键技术分析_第2页
术语自动抽取系统的设计与关键技术分析_第3页
术语自动抽取系统的设计与关键技术分析_第4页
术语自动抽取系统的设计与关键技术分析_第5页
资源描述:

《术语自动抽取系统的设计与关键技术分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、⑩硕士学位论文MASTER.’STHESIS郑重声明本人的学位论文是在导师指导下独立撰写的,学位论文没有剽窃、抄袭、造假等违反学术道德、学术规范和侵权行为,本人愿意承担由此而产生的法律责任和法律后果。特此郑重声明。学位论文作者(签名):i且塞鱼2004年5月23日⑩硕士学位论文MASTER.’STHESIS1.1课题背景及意义第一章绪论中文信息处理,是指利用计算机对汉语信息(包括书面的和口头的)进行处理。信息在当代是极其重要的资源,不能充分掌握它、利用它,无论是对个人还是对整个社会,都是巨大的灾难。因此,获取、处理和运用信息的手段至关

2、重要。中文信息自动化处理每提高一步,给我国的科学技术(包括国家的信息化)、文化教育、经济建设、国家安全所带来的效益,将是无法用金钱的数额来计算的。反之,如果我们落后了,不管是落后于国际水平还是落后于现实需要。后果也是严重的。术语集中体现和负载了一个学科领域的核心知识,术语的变化在一定程度上反映了一个学科领域的发展变化。当今时代科技信息飞速发展.科技文献大量涌现,随之而来涌现出大批新的术语。大多数人对这些新术语所表示的概念知之不深或一知半解。如果不及时发现、收集并解释这些新术语,势必会影响科技信息在大众之中的理解和传播,给学术交流带来不

3、便,同时也会成为中国与国际接轨的障碍。因此,在中国进行术语库的建设以及对术语进行规范化的基础上进行术语自动抽取已经成为当务之急。另一方面,在科技发展的新形势下,传统的手工方式己远远不能满足术语标准化工作的实际需求。利用计算机等先进的信息技术手段已经成为术语标准化工作的一个必然趋势。术语自动抽取ATE(AutomaticTermExtraction,或者称作术语自动提取)是中文信息处理中的一个重要课题,它对于信息检索、信息提取、数据挖掘等自然语言处理课题的研究,以及了解、把握一个学科领域的发展现状、未来趋向等都具有重要的理论和现实意义。

4、具体的来说.有下面几点:①术语自动抽取是很多自然语言处理应用的一个起始点。如:建立领域Ontology、机器翻译、多语索引、文档分类、辞典编辑以及双语对齐(g:yo,1996)。②随着科学技术的发展,有些术语已经停用了或者出现了某些新的术⑩硕士学位论文MASTER.’STHESIS语,这需要术语抽取来更新词法和知识资源。③由于术语的表现形式可能多种多样,因此.术语抽取在维护术语一致性、避免术语混淆方面也有很重要的作用。④随着技术术语的快速发展,随着信息量的日益增长,在海量数据中用人工的方法去获取术语显得非常不现实。目前有很多学者已经开

5、始了对术语自动抽取工作的研究,并取得了令人可喜的成果,但是,大部分关于术语抽取的研究都是国外的.是针对英语等西方语言的,国内学者对汉语术语抽取所作的工作还不是很多,这对汉语的发展和使用很不利,因此,研究与实现汉语术语自动抽取,是一件非常有意义的工作,将会促进中文信息处理在这个领域的发展。1.2国内外学术界对术语自动抽取的研究1.2.1国外的研究情况当前,国外学者对术语自动抽取工作的研究主要是在基于语料库的基础上进行的。最早的关于术语抽取的研究是H.P.LullIl(1957)所作的工作。到目前为止,国外已经有很多学者参与术语抽取工作的

6、研究,并且取得了一定的成效。概括起来,主要有以下几种方法。1利用信息检索中的自动索引技术进行术语抽取自动索引是信息检索IR(InformationRetrieval)中的一种技术。许多学者认为IR技术与ATE相关,因为IR中的自动索引跟ATE有些类似,它们的焦点都集中在标识词语上。并且在标识词语中,都用到了词语同现频率这个信怠。事实也是如此.有很多ATE方法借鉴了自动索引中的某些成熟的技术。自动索引的处理过程主要有两步:Stepl:为索引定义基本单元。Step2:在与这个基本单元相关的各种频率信息基础上赋予每个单元一个权值,并以此来选

7、择索引词。定义权值的时候,有些方法是按在文档中的出现次数来计算的,如,2⑩硕士学位论文MASTER’STHESISSparck-Jones(1973),Noreault,McGilI和Koll(1977),他们的计算方法如公式1.1所示。‘=器mt,其中,Io.表示词Ⅵ在文档嘭中的权值,厂(~)表示词Ⅵ在文档以中出现的次数。有的是按在语料库中出现的次数来计算的,其中著名的一个就是倒排文档频率(inversedocumentfrequency),它是由SMton和Yang(1973)提出的,铲鹏).1092焉(12)其中,%表示文档以的

8、词汇表,当WjE%.时,g(%)等于I,否则等于0;n(功表示文档的个数。还有一些则是按照跨文档分布来计算的(Salton,Yang&Yu,1975;Salton,1989),他们的基本思想就是;一个能够减小文档密度的词

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。