关于而向图书馆关联数据的语义链接构建研究

关于而向图书馆关联数据的语义链接构建研究

ID:23789514

大小:54.00 KB

页数:6页

时间:2018-11-10

关于而向图书馆关联数据的语义链接构建研究_第1页
关于而向图书馆关联数据的语义链接构建研究_第2页
关于而向图书馆关联数据的语义链接构建研究_第3页
关于而向图书馆关联数据的语义链接构建研究_第4页
关于而向图书馆关联数据的语义链接构建研究_第5页
资源描述:

《关于而向图书馆关联数据的语义链接构建研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、关于而向图书馆关联数据的语义链接构建研究导读:现在请大家一起欣赏本篇文章语义和链接专业方面的毕业论文范文,为广大学生们写作毕业论文是提供参考帮助。(广州大学图书馆广东广州510006)摘要:语义链接构建原则包括链接确定、链接对象评价与链接属性选择,而链接类型则分为概念间的词汇型链接与实体间的关系型链接.基于此,图书馆利用SPARQL查询从目标数据集中选择满足链接要求的术语变量,或通过基于本体映射的相似度计算概念间构建词汇型链接.另一方面,关系型链接构建利用SPARQL查询寻找与馆藏存语义相似性的实体判断其语义关系,或利用字符串相似度匹配对资

2、源文本特征属性进行精确匹配,从而实现图书馆与外部关联数据集的链接构建与资源共享.关键词:关联数据语义链接链接构建信息聚合中图分类号:G254。91文献标识码:A:10036938(2014)030074051引言长期以来,馆藏资源以良的信息质量、较高的组织水平与开放的获取性而成为公共文化服务体系的重要组成部分.而随着信息爆炸式增长与用户自主意识觉醒,馆藏分散性、异构性、无序性与用户严苛的信息需求形成了尖锐矛盾,图书馆用户希望基于内需求一站式获取本地馆藏至外部X络资源,以一种关联化和知识化的方式加以组织,从而为关联数据的图书馆应用提供了现实需

3、求.2006年7月,万维X父TimBernersLee提出了关联数据概念,力图探索balunargin:0auto;font-size:12px;color:#666666;">语义和链接论文开题报告部数据集中寻找与馆藏存语义相似性的资源对象,进而判断和构建二者间的关系型链接.dbpedia。org/resource/Temple:singleinfobox} }}上述,实体间的语义链接构建能够利用SPARQL查询中的限制条件来提高关联结果的指向性与辨识度.然而面对图书馆关联数据中的海量链接对象,基于SPARQL查询的链接构建方式虽然能够提

4、供较强操作性与较实现难度,但却缺乏足够的执行效率,此难以满足海量语义链接的构建要求,而基于文本相似度匹配的相关性检索方法恰恰能够通过关联数据背景下的扩展延伸提供能途径.3。2。2基于文本相似度匹配的链接构建实际上,由于关联数据中任意资源都需要提供包括文本属性内的语义描述,此果语义框架一致性基础上对不数据集中资源的类属性进行相似度匹配,能够判断二者间是否具有关联利用语义链接标识其关联关系.总体而言,无论采用何种文本相似度匹配算法都应满足延展性与高精确度两项基本要求.延展性是指相似度算法能够根据文本属性字符串长度进行延展,使适应任意长度字符串间

5、的精确匹配,普遍使用的qgrams策略是依据连续字符序列单元长度q将属性字符串切分为若干字符单元,其中q以依据延展需要自行调整,字符串r=dblabq=2的设定下被切分为r={‘d’,‘db’,‘b’,‘bl’,‘l’,‘la’,‘a’,‘ab’,‘b’}多个字符单元,进而通过每个字符单元赋予相似度权重以计算整个字符串的相似度.高精确度是指相似度匹配算法能够准确判断资源属性间是否具有语义关联,这一方面取决于算法自身性能,另一方面也与相似度阈值设置有关.具体而言,用于关系型链接构建的文本相似度匹配算法基本原理均是将图书馆数据集中馆藏属性字符串

6、r1作为源数据,将相关数据集中资源属性字符串r2作为目标数据,进而计算二者的语义相似度,具体算法包括EditSimilarity算法、基于信息检索的相似度算法、隐马科夫模型算法等.(1)EditSimilarity算法[7].该算法通过计算字符串间的编辑距离来实现文本属性的相似度匹配,其中馆藏文本属性源字符串r1与外部实体属性字符串r2间的编辑距离表示为tc(r1,r2),具体指代借助字符复制、插入、删除、替代等编辑操作将r1转换为r2需的最成本.基于此,属性字符串r1与r2的编辑相似度进一步定义为:由于属性字符串的编辑距离与具体编辑操作有

7、关,此针对编辑相似度算法也拥有多种编辑距离模型,其中最常见的是Levenshtein编辑距离,即对于复制以外的其他编辑操作均以单位成本1赋值,而复制操作则赋值为零,据此判断文本属性是否存语义关联.(2)基于信息检索的cosine算法[8].该算法源于信息检索领域的一个基本问题,即给定查询语句和一组源文件的情况下何查询最为相关的文件对象,而果将馆藏与外部资源的属性字符串均视为信息检索算法中的查询文件,将依据qgram策略切分的字符单元视为文件中的语词,那能将文件相关性检索技术用于文本属性相似性匹配中.具体而言,基于tfidf加权的cosine

8、相似性是基于向量空间模型的相似性测度方法,利用该方法能够将馆藏属性r1与目标资源属性r2分别转换为单位向量,进而通过测度字符串对应向量间的矢量角来确定其相似距离,具体cosine

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。