重新思考词表在科技文献服务中的作用

重新思考词表在科技文献服务中的作用

ID:31077948

大小:42.00 KB

页数:6页

时间:2019-01-06

重新思考词表在科技文献服务中的作用_第1页
重新思考词表在科技文献服务中的作用_第2页
重新思考词表在科技文献服务中的作用_第3页
重新思考词表在科技文献服务中的作用_第4页
重新思考词表在科技文献服务中的作用_第5页
资源描述:

《重新思考词表在科技文献服务中的作用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、重新思考词表在科技文献服务中的作用梁冰乔晓东王莉(中国科学技术信息研究所信息技术支持中心北京100038)摘要词表是文献与情报检索中用以标引的一种检索工具。它是一些规范化的、有组织的、体现主题内容的、已定义的名次术语的集合体,多年来为图书馆行业的信息组织起到了重大作用。随着互联网技术及相应产品的快速发展,新的词条及百科等知识化构建模式以及多语言服务对传统词表造成了强烈冲击,图书情报领域也在深刻思考传统词表如何适应新时期的发展。本文结合国家十二五科技支撑计划项目“信息资源自动处理、智能检索与STKOS应用服务集成”,简述新时期如何构建词表与利用词表展开

2、智能化科技文献服务。关键词词表科技文献服务文献检索1.概述早期的词表产生于19世纪中叶,它不是按照字母顺序排列,而是按照词语表达的概念进行系统排序,目的在于找到表达概念的最合适的词或词组。图书馆利用它来有效的组织资源,表达资源所属领域与涵盖范围。在20世纪中后期,词表的建设全面展开,专业领域的词表相继产生。图书馆标引员开始将词表用于文献的标引,并开始利用标引词汇与检索人员的语言相匹配,从而更有效地查找文献,国外有众多典型应用案例。我国的词表建设也经历了相同阶段,有代表性的项目有《中国分类主题词表》。但是我国的词表建设存在维护经费不足,应用理论与技术相

3、对落后不能支持推广,内容的数字化程度低等原因,造成词表应用与发展在后期停滞不前。传统的词表依靠专业人员手工编制与维护,主要保存于本地由专业人员用来做文献资源的组织、标引和检索。随着21世纪以来互联网的飞速发展,一些词表开始从单机电子版向网络环境移植,并逐渐被集成到信息检索系统中,如ERIC/HASSET/AAT/UMLS等[1]。词表的发展呈现出版本网络化、编制模式半自动化与协作化/协同、集成化与本体化、信息组织标准全面升级、发布为关联数据等特点[2]。各类基于词表的应用急剧增多,对网络化,知识化的词表研究逐渐形成热点,重点集中在词汇自动丰富、不同词

4、表间的互操作、基于叙词表构建本体、以及通过词表形成领域知识化服务等方面。此外,互联网服务商开始建设类似百度词条,维基百科等互联网应用及服务,以全新的模式对传统词表的建设和应用提出了挑战。由此,随着大数据时代的来临,图书情报行业更加需要强化知识组织手段,充分原有积累的词表工具,吸收互联网建设中的创新与技术,这不仅仅体现在词表的编制与构建上,更重要的是,新的应用需求与技术上的可能,使得词表这个传统知识组织工具重新回到应用的舞台。2.文献情报行业对词表的研究热点词表的自动更新研究:传统词表是依靠人工维护的,以科技领域词汇的发展变化来看,其更新速度远远跟不上

5、实际领域发展的速度。因此,文献情报行业研究重点逐渐从词表的数字化加工处理转向词汇的自动发现与补充,不断丰富和更新词表的建设模式。不断从科技领域学术研究的自由文本中抽取词汇,挖掘词汇间关系,而这些关系的准确性与采用的挖掘算法密切相关,虽然无法比拟人工编制词表的严谨与精确,但是可以作为其补充,促进词表更新。[3]词表间的互操作研究:各行业领域都拥有相对准确和专业的词表,如何使用多种不同词表,将其整合实现互操作提高应用水平成为研究热点。词表互操作包括两种方式,一是以统一标准进行数据整合,在其他系统中导入和使用;二是在两个不同词表之间建立两两映射关系,通过映

6、射将不同类型、不同语种的词表集成整合到一起。在标准化方面,研究热点集中在如何采用知识组织规范对叙词表进行描述。目前,通过词表间映射是解决互操作的最重要的方法,美国国立医学图书馆建设的UMLS(UnifiedMedicalLanguageSystem)就是非常典型且成功的案例,它不断整合国家医学系统的传统分类法、叙词表、标题表、术语词典等资源,通过映射、链接等对概念及概念关系进行自动抽取、集成归并,建立不同词表概念间的映射关系,形成了一部概念和语词覆盖面广、语义关系丰富的超大规模词表,广泛应用于医疗信息系统、病案系统、自然语言处理、文本自动标注、智能检

7、索及搜索引擎等领域。词表的本体化研究:本体是建立概念和概念之间关系的为核心,提供对特定领域知识的描述,而本体的构建较为复杂,并且在不同领域很难复用。叙词表由于其丰富的概念、词汇及词间的语义结构,为本体的构建提供基础条件[4],已经有较为成功的应用案例,如联合国粮农组织将Agrovoc叙词表转换为农业本体。3.新时期词表建设与应用的新模式与传统词表建设不同,美国普林斯顿大学建设的WordNet基于心理学和语言学的数据库,组织形式是用户在认知过程中所表现出的同概念性质,按照单词的意义组成一个“单词的网络”。它是一个覆盖范围宽广的英语词汇语义网,以一种“网

8、”的形式来描述词语的意义,可以是利用语义成分表示语义,也可以是利用关系表示语义。在WordNet中名词,动词

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。