欢迎来到天天文库
浏览记录
ID:34620326
大小:102.20 KB
页数:9页
时间:2019-03-08
《汉语术语定义的结构分析和提取1》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、1汉语术语定义的结构分析和提取张艳宗成庆徐波(中国科学院自动化所模式识别国家重点实验室北京100080)摘要:本文介绍的工作是在汉语句法分析的基础上的一种应用研究,对术语的下定义问题进行了理论上的探讨。术语的定义概念提供模板和构成方式,可以作为知识发现研究的数据基础。本文针对电子学和计算机领域的语料进行了分词和词性标注处理,然后应用句法分析工具分析出句子中的短语成分,并根据汉语句子的句型结构,总结出术语定义的结构特点,自动提取定义的模板。最后根据已建立的数据和概念描述,给出了术语发现的算法。关键词:句法分析,知识发现,术语定义Struct
2、ureAnalysisandExtractionfortheDefinitionsofChineseTermsZHANGYan,ZONGChengqing,XUBo(NationalLaboratoryofPatternRecognition,InstituteofAutomation,ChineseAcademyofSciences,Beijing100080,China)Abstract:TheworkpresentedinthispaperisakindofapplicationbasedonChinesesyntacticpars
3、ing.Itistheoreticdiscussiontodefinetermnames.Thedefinitionoftermsprovidespatternsandstructuresfortermconceptsandisthedatabasisofknowledgediscovery.Inthispaper,thecorporaofelectronicsandcomputerdomainarefirstlysegmentedandtaggedwithpart-of-speech.Thentwoparsersareappliedto
4、obtainstructuresandphrasesofsentences.AccordingtothesyntacticstructuresofChinesesentences,wehavesummarizedthestructurecharacteristicsoftermdefinitionsandautomaticallyextractedthepatternsofdefinitions.Finally,wedescribethealgorithmtodefineanewtermaccordingtothebuiltdatakno
5、wledge.Keywords:SyntacticParsing,KnowledgeDiscovery,TermDefinition一、引言术语是持有某一目的而使用的语言,分为日常生活中使用的一般性术语和科学技术专业用术语。专业术语是对一个专业概念的系统性、概括性的描述[1]。本文所做的工作主要研究专业术语的定义。术语数据库是自然语言处理领域的一个重要的知识资源。通常术语用来描述科学技术方面的概念,属于语言词汇的一部分,但又不是被人们普遍认知的词汇。术语的记录和整理与现代科学技术的发展密切相关,同时也是总结和扩展新的科学概念的需要。术语的
6、定义在自然语言处理领域中的研究还不是十分广泛,它为术语概念提供模板和结构方式,也可以作为特定领域知识发现研究的数据基础。目前国内还没有在术语下定义这方面进行过系统的研究。作为汉语句法分析的一个应用,如何给术语下定义有着重要的理论研究意义和应用价值。它1基金项目:国家自然科学基金资助项目(60175012);国家973项目(G1998030504)作者张艳,1973年出生,女,北京人,博士生.主要研究领域为自然语言处理.不仅可以得到新的语法知识结构,还能够为自然语言处理的应用领域,如问答系统,知识发现等提供基础的知识数据库。本文是针对电子学
7、和计算机领域提取出相关的术语及其定义模板,通过自动获取的结构模板,给出术语下定义的实现算法。文章第二部分概述了定义的概念,并且总结了术语下定义的一些规则和方法,第三部分针对电子学和计算机领域的术语知识,自动获取了相关的定义组成结构和模板结构,第四部分是根据获取的数据,提出了术语发现的算法和结果分析,最后是结论。二、“定义”的概念和下定义的方法2.1.“定义”的概念定义就是用一个已知概念来对一个新概念作综合性的语言描述[2]。从结构上来说,一个定义可以分为被定义项(definiendum)和定义项(definiens)两部分。定义项就是对被
8、定义项的概念性描述。它一般又可以分为属概念(genus)和种差(distinctivecharacteristics)两个部分。下面是定义的表示形式:被定义项=定义项(被定义的概念)属概念+种
此文档下载收益归作者所有