自然语言的应用研究

自然语言的应用研究

ID:11371109

大小:35.50 KB

页数:13页

时间:2018-07-11

自然语言的应用研究_第1页
自然语言的应用研究_第2页
自然语言的应用研究_第3页
自然语言的应用研究_第4页
自然语言的应用研究_第5页
资源描述:

《自然语言的应用研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、★精品文档★自然语言的应用研究自然语言的应用研究(朱丽(上海空军政治学院信息管理系))摘要作为情报语言学研究对象之一的自然语言,在情报检索中的应用正日趋广泛。本文将其与规范语言进行了比较,重点讨论了其应用中的三个问题,自然语言标引、标引检索用词表及检索语言整体化趋势,并就其未来发展作了阐述。主题词自然语言规范语言情报检索***自然语言与规范语言自然语言是相对于规范语言而言的,其本质特征是不受控制。从情报检索的发展历程来看,作为语言保障的规范语言是对自然语言实施控制而出现的;而情报检索的进一步发展必使得曾被否定的自然语言重新得以肯定。规范语言的产生规范语言是适应情报检索需要

2、而创制的一种人工语言,它在手工检索条件下产生,并得到了充分发展及应用。如历史最久远的分类语言,采用比较抽象的类号来表达概念,组织检索系统。它具有良好的系统性,适于学科或专业出发的族性检索。同时,随着学科发展及用户需求的变化,分类语言也由等级体系型日益向分面组配方向发展。而规范语言的另一重要分支——2016全新精品资料-全新公文范文-全程指导写作–独家原创13/13★精品文档★主题语言,则以自然语言为基础,经过人为的形式控制(词量、词形、词义及词间关系等),用来直接表达主题概念。年代由于计算机检索的迅速发展,主题语言也在经历了元词语言的短暂应用后进入叙词语言的大普及阶段。作

3、为吸取以往所有规范语言优点的叙词语言,适应了标引、检索的多种要求,是在机检条件下效率较好的一种规范语言。年代,在国外被称为“叙词表”时代,其应用达到了顶峰。无论是哪种规范语言,为了达到简明专指地进行标引及全准便捷地实现检索的目的,都对人们日常使用的自然语言进行了种种转换及限制处理。如分类语言是建立在代表主题概念的一系列类目基础上的号码体系,而主题语言则是有选择并加以规范化的自然语言的一个子集。这在克服了自然语言的两大不足:概念与语词非一一对应,及概念关系的隐含性的同时,也不可避免地导致了规范语言自身的局限,即表达概念的受限,词汇转换的失真及标引、检索前处理量大且难以达到统

4、一等。2016全新精品资料-全新公文范文-全程指导写作–独家原创13/13★精品文档★七、八十年代由于计算机软件硬件条件的支持,国外在联机检索的基础上进一步向网络化发展。年代初以来各国的信息高速公路建设更是方兴未艾,如火如荼,国内机检水平也在迅速提高,并与全球的大趋势相合拍。在这种形势下,作为情报检索语言保障的规范语言因其固有的人工性、受控性,越来越难以满足大量、迅捷、自由、多样的检索要求,其得不偿失的内在不足更趋明显化。自然语言的优势及当前信息条件下对其的需求自然语言作为日常使用的语言,无疑最符合人们进行情报检索的习惯,随着机检的高度发展,应用条件的日益完善,自然语言有

5、可能扬长避短,重新发挥其固有的优势。①直接采用文献作者使用的自然语言,标引工作就可以摆脱规范语言的了解掌握,以及繁复的分析转换过程。这大大降低了标引的脑力、体力负担,加快了标引速度,又减少了表达概念上的失真和不一致。②直接以日常使用的自然语言进行情报检索,符合检索者的习惯,简便易行,对于日益增大的普遍检索用户群而言更是如此。③采用自然语言标引与检索,可达到足够的专指度,且不存在类目或词汇迟滞的问题。④自然语言具有通用性,不存在规范语言的统一兼容问题,在使用自然语言的各数据库间可实现标引、检索成果的共享。⑤自然语言标引为计算机的自动处理创造了条件,其发展将可能取消费时、费力

6、的人工标引。2016全新精品资料-全新公文范文-全程指导写作–独家原创13/13★精品文档★因此自、年代进行的二次克兰菲尔德得出最少实施控制的系统较之其它系统优越的结果后,自然语言检索系统得到了迅速发展,发达国家的联机检索已从只能利用受控的叙词语言进行布尔逻辑检索的第一代发展能利用自然语言进行语境逻辑检索的第二代。自然语言在标引检索中的应用研究如前所述,自然语言较之规范语言更适于当前的信息状况及机检条件,并且数十年来在实践中也得到了相当的应用和发展。同时,由于它本身的不足,以及使用条件的不断变化,自然语言也面临着一些理论及实践方面的不足。以下分三方面进行论述。自然语言标引

7、问题按照兰开斯特的划分,自然语言标引可分为三种形式,人工标引(含赋词标引和抽词标引)、机器标引(抽词)和不标引(又分全文本和部分文本)。在实际应用中,人工标引虽然效果好,但处理速度较慢,因此较常用且带趋向性的仍是自动标引(即上述的后两种形式)以及部分人工的机助标引。目前国内已实现的自然语言标引方式有以下几种。①无标引,即全文单汉字标引这是与全文检索技术相对应的一种典型的自然语言标引方式。它比较完全地实现了自动化,且标引深度大,检索方便灵活,可以检到一些细节性、边缘性的信息。但由于以字为对象进行处理,易产生虚假组配,检索噪声大而

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。