欢迎来到天天文库
浏览记录
ID:9632069
大小:52.00 KB
页数:4页
时间:2018-05-04
《受控语言与自然语言结合模式比较研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、受控语言与自然语言结合模式比较研究随着信息传递的网络化,用户对检索语言也提出了差异性要求,需要检索语言和检索系统的交互更加方便、直接、透明。传统的中介行为已被抛弃,自主型“浏览检索”方式成为潮流。用户需求是服务性行业发展的动力,所以研发适应用户需求的新型检索模式也是大势所趋。规范化的受控语言与自然语言都有各自不可替代的优势,它们的优缺点处于相对、互补的状态。单独使用一种方式会因其缺点而达不到较优的检索效率。网络环境下,二者的结合是提高检索效率的必然要求。 1、受控语言与自然语言结合模式比较分析理想的检索状态是
2、:在系统外部,用户可以灵活使用自己的语言(自然语言)检索和组织信息,不需要看见和直接使用受控语言;在系统内部,存在着以超级知识库为基础的、高度专业化的受控语言,支持用户自然语言提问的转换。受控语言与自然语言一体化模式有很多种,其中影响较大的有:词素相似度识别转换模式、一体化语言系统模式、概念空间模型、学科事物概念组配模式和后控制模式等。现将此五种结合模式在体系结构上的相似与差异性作一比较。 1.1 五种结合模式的相似性它们的共同点是:基本都允许用户使用自然语言检索提问,由系统进行一定程度上的词汇转换与控制,支持用
3、户易用性要求。在体系结构上都能够:①构建语义网络。即以概念为中心对词汇实施控制,通过识别概念之间的关系,建立一个与概念体系相对应的具有层次结构的术语体系。②使用概念代码。以概念为中心,以唯一标识代码为主体是新型情报检索语言系统的特点。③使用入口词表。将符合语义索引要求的主题词或同义词、相关词反馈给用户,由用户来选择、确定他所需要的概念词,最后提交给索引系统进行检索。 1.2 五种结合模式的差异性1.2.1 词素相似度识别转换模式其代表是EMT系统,它的每个主题词款目基本数据项有:款目主题词、汉语拼音、英文译名、范
4、畴代号、1.2.4 学科事物概念组配模式该系统分为学科面部分和事物面部分,每一部分再分为第一层的分面(学科或事物)和第二层的分面(学科的问题或事物的部分)。对属于第一层的分面分别按系统性排列,可仿照体系分类法。对属于第二层的每个分面确定一个概括的名称,分为两个序列进行排序(与学科或事物的序列相对应)。并对两个序列的分面分别给予统一的分面序号[5]。在学科、事物、号码的共同作用下形成了一个语义空间。分类号、概念词和自然语言词都是概念代码的外部形式,三者在标引和检索中可任意使用,通过计算机与概念代码自动转换。自然语言可
5、大量使用,任意增补,但在系统内部受到控制。此种模式的特点是:①通过学科聚类和事物聚类的结合、号码标识和词语标识的结合,使其结合分类系统和主题系统的优点,检索更全面。②通过自然语言和受控语言的结合,增强用户使用的方便性。③不变概念代码与可变概念体系的结合增加了灵活性,便于分类体系的逐步细化和不断改造。④具有开放性,可根据环境的变化不断增补新概念。学科事物概念组配模式是朝着检索语言综合化和一体化进行的一次理论尝试。此种模式由张琪玉教授在1997年提出,到目前为止还没有进行系统开发设计,处于理论阶段。1.2.5 后控制模
6、式后控制词表将用户检索表达式中用词,即自然语言标识词,由计算机自动积累存储在系统内,自然语言标识一律置于控制词下,用关系符号表明与控制词的关系[6]。对自然语言中大量存在的等同关系、等级关系和大部分的相关关系进行控制或揭示。由控制词、自然语言标识词和关系符号共同组织成一个语义网络。后控制词表的特点是:①面向用户设计,易用性强。②词汇量大、增长快、更新及时。③可弥补受控语言处理信息中新事物主题的不足。④弥补自然语言因不受控制产生的缺陷,按族性检索。编制关键是必须在检索系统中实有的自然语言原词基础上进行编制,否则会在很
7、大程度上降低其控制功能。20世纪80年代后控制技术成为研究热点,国外相继有研究人员开发了词表生成或转换系统,并得到应用。国内90年代也出现了一些实验性的后控词表系统,但没有推广使用。在网络环境下单独使用后控制词表的检索效果不是很理想,但后控制原理已被其他模式吸收、利用。 2、适应我国信息环境的检索语言模式对使用者来说,未来的信息检索语言应该能满足三项基本需要:允许用户使用自然语言进行检索提问;系统自动将自然语言与受控语言进行链接、转换;支持标引、查询、浏览、检索等信息全过程。检索语言发展创新的关键环节就在于设
8、计合理高效的转换模式。综合比较上述几种模式,我们为设计适合我国信息环境的检索语言模式梳理出以下思路:在词表内容上侧重建立专业性的系统,然后向综合性发展;在具体词表的设计中,认为目前UMLS模式比较理想,因此新的系统设计主张以一体化语言系统模式为核心,合理借鉴其他模式;国外研究设计的比较成熟的系统在汉语环境下未能很好地发挥效果,其关键原因就是汉语需要分词技术来
此文档下载收益归作者所有