汉语关键词自动转换主题词方法的步骤

汉语关键词自动转换主题词方法的步骤

ID:39392718

大小:18.51 KB

页数:10页

时间:2019-07-02

汉语关键词自动转换主题词方法的步骤_第1页
汉语关键词自动转换主题词方法的步骤_第2页
汉语关键词自动转换主题词方法的步骤_第3页
汉语关键词自动转换主题词方法的步骤_第4页
汉语关键词自动转换主题词方法的步骤_第5页
资源描述:

《汉语关键词自动转换主题词方法的步骤》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、精选公文范文管理资料汉语关键词自动转换主题词方法的步骤[键入文字][键入文字][键入文字]精选公文范文管理资料汉语关键词自动转换主题词方法的步骤[键入文字][键入文字][键入文字]精选公文范文管理资料汉语关键词自动转换主题词方法的步骤[键入文字][键入文字][键入文字]精选公文范文管理资料汉语关键词自动转换主题词方法的步骤[键入文字][键入文字][键入文字]精选公文范文管理资料汉语关键词自动转换主题词方法的步骤[键入文字][键入文字][键入文字]精选公文范文管理资料汉语关键词自动转换主题词方法的步骤[键入文字][键入文字][键入文字]精选公文范文管

2、理资料汉语关键词自动转换主题词方法的步骤[键入文字][键入文字][键入文字]精选公文范文管理资料  目前,主题自动标引形成的索引均为关键字或关键词的索引.关键词在选择的时候,可以是主题词,也可以是没有经过任何规范化处理过的任意词汇,也就是自由词.用自由词作为关键词进行标引时,用户检索文献的时候就很容易造成误检或者漏检.如果将近义词、同义词以及多义词规范化地统一处理,将会提高查准率和查全率,而规范处理即为将关键词转换为主题词.  1、汉语关键词自动转换主题词问题的提出  为提高检索效率,主题词有着重要的地位.所以,用主题词作为文献标引,形成检索标识进

3、行检索具有明显优点.  首先,主题词属于规范化词汇,具有单一性的特点,一个词能够准确地表达一个概念,不随时间变化,不被使用者的主观理解和上下文左右,是十分理想的分析元素.  其次,主题词所反应的概念并不是孤立的,它可以通过逻辑组合形成索引标识,来表达文献的中心内容这就有效避免了标引词对文献主题表达不清,检索率不高的问题.用主题词作为检索词进行对中文文本数据的分析与研究,能有效避免由于检索词的不规范性所导致检索数据库中主题标识的冗余或缺失.  主题词是一种专门从自然语言中挑选出来的表达文本内容的词汇,用于文献的标引或检索,再加以规范化,达到了一个词语

4、一个意义的要求的语词.  例如,“玉米”与“苞米”为同义词,在建立主题索引系统时,如果不进行规范和区分,那么在检索时,就会出现检索不全的情况,为此就必须选择“玉米”这个具有使用频率高而又具有单种含义的规范性词语作为主题词.  目前关键词-主题词转换实现方式主要包括3种:人工方式、计算机辅助方式和自动转换方式.1)人工方式,主要依赖智力劳动人工完成对应转换的操作,效率较低,但质量较高.2)自动转换方式,即由计算机根据释义词典、同义词表等各种语义工具通过各种相似度算法自动完成,效率较高,但质量参差不齐.3)计算机辅助方式,即由人与计算机共同完成,是当前

5、各种关键词-主题词转换采用的主要编制形式.  如李纲在《基于词汇链的关键词自动标引方法》中,利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引.程肖、路蓓等在《热点主题词提取方法研究》中,基于多特征的融合提出热点主题词权重计算方法,构造出热点主题词判断公式HK,实现对热点主题词的提取.将关键词自动转换为主题词是计算机中文信息处理一直关注和力争解决的问题.  2、汉语关键词自动转换主题词方法的步骤  在海量的数据库文献中,并不能保证每篇文章的题名都能反映文章的主题,有的甚至再加上关键词也

6、不能准确地表达文章的主旨.笔者是将文章的题名和摘要两者中的关键词抽出并转换为主题词,这样能有效地防止存取的主题词不能完全表达文章主旨问题的产生.  关键词自动转换主题词的过程可以分为以下几个步骤:第1步,利用已有的词法分析工具对文献进行分词处理和词性标注;第2步,将经过分词处理后的词汇信息根据词语的词性标注进行筛选和词频统计;第3步,将筛选和统计好的词与现有主题词表进行匹配,并重新进行词频统计;第4步,经过人工干预选择出能表达该文献主旨的相关主题词,并进行存储.  其主要的简单的设计流程如图1所示.  在此模块中所应用的是中国科学院计算技术研究所开

7、发的分词工具ICTCLAS(instituteofcomputingtechnology,Chineselexicalanalysissystem),应用此工具对数据库中的中文文献进行分词处理和词性标注.ICTCLAS(instituteofcomputingtechnology,Chineselexicala-nalysis[键入文字][键入文字][键入文字]精选公文范文管理资料system)是中国科学院计算技术研究所研制出的基于多层隐马模型的汉语词法分析系统,该系统的功能主要有:中文分词,词性标注,未登录词识别.  分词正确率高达97.58%(

8、最近的973专家组评测结果).  其最主要特点是把分出的词都进行了词性标注,且标注详细,不仅把词类分得很详细,而且把每一类

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。