欢迎来到天天文库
浏览记录
ID:10278201
大小:473.73 KB
页数:17页
时间:2018-06-14
《word排版素材_长文档草稿》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、一、绪论II(一)课题的背景和意义II1.研究的背景II2.研究的目的和意义II(二)国内外研究现状IV1.主题图和主题图融合研究现状IV2.词汇相似性度量研究现状V3.句子相似性度量研究现状VI(三)本文的研究contentVIII1.研究contentVIII2.研究方法及技术路线VIII(四)扩展主题图的融合X1.扩展主题图融合定义及原则X2.扩展主题图融合过程XII(五)语义冲突XIII1.语义异构的原因XIII2.语义冲突的定义及类型XIV(六)语义相似度在扩展主题图融合中的使用XVII1.简单文本分类的应用XVII2.扩展主题图融合中的文本分类技术应用XVIII3
2、.主题融合与词语语义相似度XXI4.知识元融合与句子语义相似度XXII(七)本章小结XXIV一、XVI一、绪论(一)课题的背景和意义1.研究的背景本课题源于国家863高技术研究发展计划:“面向教育的海量知识资源组织、管理与服务系统”,该项目旨在研究一套区别于搜索引擎和现有数字文献管理系统的,支持用户多层次、多粒度知识获取,能够体现知识资源内在关联的导航与互动学习,并支持用户个性化查询和结果呈现的知识资源管理与服务系统。系统的体系结构包括:1、知识资源的组织与管理;2、知识资源的处理;3、个性化多模式三个层次。相似性度量算法的关键技术是词汇、句子间语义相似度计算算法。语义相似度
3、计算的准确性直接影响到主题图最后融合的效果,因此语义相似性度量的研究在主题图融合过程有着很重要的作用。2.研究的目的和意义扩展主题图的数据格式用于描述信息资源组织、管理的结构,具有独立性和通用性,展示形式为“主题--知识元—资源”。相对于传统的基于元数据的资源组织方式,扩展主题图在物理资源实体上架构了一层语义网,实现了资源实体和抽象概念之间的语义组织和衔接,能提供知识的多层次,多粒度的语义搜索与导航。现有的语义相似性度量的方法主要有基于词典和基于语料库两种。词典有着丰富的语义信息,但存在着未登录词的严重问题。目前发布的实用的词典:英文的WordNet(词网)、中文的HowNe
4、t(知网)[2],均是封闭的系统,在计算未登录词时效果很差。XVI(一)国内外研究现状863课题组针对传统主题图无法提供多粒度知识组织管理的问题,提出了扩展主题图标准。当前关于扩展主题图的研究较少,本文在此只介绍传统主题图的相关研究。1.主题图和主题图融合研究现状主题图(TopicMaps)的概念最初是由W3C(WorldWideWebConsortium全球万维网联盟的简称)提出的,并由国际标准组织SGML(StandardGeneralizedMarkupLanguage)委员会第三工作小组的研究人员开发,用来实现索引和辞典构建过程的形式化。这些早期努力演变的结果就是IS
5、O/IEC13250:2000[3],这项国际标准定义出了TopicMaps的完整数据模型。2001年,基于可扩展标记语言(ExtensibleMarkuoLanguage,XML)的XML主题图—XMLTopicMaps(XTM)[4]成为ISO/IEC13250的一部分。同年,ISO委员会又提出主题图查询语言TMQL(ISO/IEC18048)和主题图约束语言TMCL(ISO/IEC1975)。主题图融合方面,在国外,2004年LutzMaicher等人提出了SIM算法[5]和2007年由Jung-MnKim[6]提出了TM-MAP算法。SIM算法的本质是字符统计法,TM
6、-MAP算法较之有很大的改进,一定程度上涉及到主题图本身所蕴含的语义信息,但核心思想还是基于字符统计。在国内,2006年,由南京航空航天大学的吴笑凡等人提出了基于主题和资源合并的TOM算法[7],TOM算法与SIM算法类似,基于字符统计,涉及到主题图三要素中的两个。2.词汇相似性度量研究现状国内比较突出的是中国科学院计算技术研究所的刘群[8]等人提出的基于《知网》的词汇语义相似度计算。刘群等的语义相似度计算方法以《知网》为计算依托,充分利用了《知网》中的义原(描述一个“概念”—词语的最小意义单位)通过上下位关系组成的一个树状义原层次体系。为了计算用知识描述语言表达的两个概念的
7、语义表达式之间的相似度,该算法采用了“整体的相似度等于部分相似度加权平均”的做法。该算法在同义、近义词语间的相似度计算结果上测试效果良好,但仅仅利用《知网》中义原间的上下位关系,所以对对义、反义的词语测试应用不佳,测试结果不利于进行词语的极性识别分析。国外较为突出的是美国的蒙大拿州立大学的ShenWan和RafalXVIA.Angryk提出了基于WordNet(词网)的上下文向量的语义相似度计算算法[9],该算法将一个概念的认知感觉定义为直接语义关联与与其相关的间接语义关联的综合体,然后利用wordne
此文档下载收益归作者所有