《基于.语义的网络化制造资源智能检索技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
浙江大学硕士学位论文图目录图2.1MRISS系统总体结构图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯12图2.2M魁Ss系统层次结构图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯13图3.1制造资源概念层次(部分)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯19图4.1Heritrix架构设计图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯27图4.2“中华机床网”定制抓取流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..34图4.3信息抽取和语义标注流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.37图4.4横向网页⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.38图4.5纵向网页⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯38图5.1多层次智能检索模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯~41图5.2智能检索总体结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯42图5.3Jena总体结构图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯43图5.4语义查询前端⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯49图5.5查询树相关节点类类图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..5l图5.6QueryTreeNode类图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..52图5.7QueryTreeDataPropertiesNode类图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯5l图5.8QueryTreeConceptNode类图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.52图5.9QueryTreeOjectPropertiesNode类图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯51图5.10查询树⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.52图5.11查询树到SPARQL转换算法流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯53图6.1运行实例一(查询条件)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..56图6.2运行实例一(相关概念)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯56图6.3运行实例一(查询结果)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一57图6.4运行实例二(查询条件)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯58图6.5运行实例二(查询结果)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一58图6.6运行实例三⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一59图6.7运行实例四⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..60 浙江大学研究生学位论文独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他入已经发表或撰写过的研究成果,也不包含为获得逝姿盘堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:莓山.§签字日期:沙F年占月磊日学位论文版权使用授权书本学位论文作者完全了解滥鎏盘堂有权保留并向国家有关部门或机构送交本论文的复印件和磁盘,允许论文被查阅和借阅。本人授权.迸婆盘堂.可以将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:套≯.去导师签名:签字日期:加髫年‘月营日吓倪签字日期:h启年(月∥日 浙江大学硕士学位论文第1章绪论1.1引言随着互联网的快速发展,网络技术对于制造业的影响已经渗透到相关的各个领域,并且还在不断地迅速扩大,并由此形成了一种新的制造模式,即网络化制造。所谓网络化制造,是先进制造技术在网络上实施,它吸收了计算机辅助设计、集成制造、虚拟制造、协同设计等方面的最新技术成果,尤其是计算机网络技术,并将其综合应用于基于互联网的产品开发与设计、制造、检测、管理及售后服务的制造全过程,实现优质、高效、低耗、清洁、敏捷制造I¨。相对于传统方式,网络化制造跨越了企业间的空间差距,实现企业间的信息集成、业务过程集成、资源共享,实现产品商务、设计、制造的协同,缩短产品的研制周期和研制费用,提高整个产业链和制造群体的竞争力。然而目前我国网络化制造系统的发展还不尽如人意,还存在着制约网络化制造技术发展的一系列瓶颈问题。其中的一个核心问题是如何实现网络化制造资源的智能获取和智能检索。网络化制造资源的获取一般有两种方法:方法一是通过人工搜集并手工输入数据库进行管理,其缺点是开放性、实时性较差,成本高;方法二是直接从因特网上获取网络化制造资源并进行集成管理,这种方法可以克服方法一的缺点。但方法二存在着一系列关键问题有待解决:能从因特网中直接获取到的网络化制造资源,其信息描述的复杂度高、一致性低、表现形式具有多样性、结构化程度低,互操作性差【2】,同时获取的信息不包含语义。而网络化制造资源检索,基于目前Intemet信息表达主要以HTML等文本页面为主,其检索仍然存在着许多缺陷,主要表现在:信息是面向用户直接阅读,不利于计算机直接阅读和处理;检索以关键字匹配为主,易出现不相关内容,准确率低,遗漏大量的与检索概念同义或相关的内容,查全率不高;检索粒度过大、精度不够,无法实现问答式的查询,检索效率低;以页面为单位,无法跨越网页 浙江大学硕士学位论文第l章绪论边界;难以进行推理,实现间接的信息内容检索【21。针对目前因特网在信息表达、检索等方面存在的缺陷,WWW的创始人TimBemers.Lee提出了语义网(SemanticWeb)的概念[3]141,其目标是使因特网上的信息具有计算机可以理解的语义,从而满足智能软件代理Agent对WWW上异构、分布信息的有效检索和访问,实现网上信息资源在语义层上的全方位互联,并在此基础上,实现更高层的、基于知识的智能应用。由于现有的信息获取和检索技术仍存在难以避免的局限性,而同时网络化制造环境又是非常复杂的,迫切需要有一种新的思路和方法来解决这些问题。从语义网技术的内涵和发展来看,能解决目前网络化制造系统在资源信息表达和检索中所面临的问题,因此,引入语义网技术,对于有效解决网络化制造资源的自动获取和智能检索问题很有必要,也很有价值。1.2网络化制造资源概述1.2.1网络化制造资源概念随着制造业的不断发展,敏捷制造(AM),虚拟制造ⅣM)等一批新的制造模式应运而生。相应地,供应链技术、多智能体(multi.agent)结构与网络化制造技术等成为研究热点。网络化制造技术就是为满足制造业网络化发展的需要而在二十世纪九十年代发展起来的一系列制造技术的总称。网络化制造技术是先进制造技术在网络上实施,它吸收了计算机网络、计算机辅助设计、集成制造、虚拟制造、协同设计、计算机仿真、工作流、现代管理等方面的最新技术成果,并将其综合应用于基于互联网的产品开发与设计、制造、检测、管理及售后服务的制造全过程,实现优质、高效、低耗、清洁、敏捷制造。从本质上可以说,网络化制造技术是传统制造技术、信息技术、自动化技术和现代管理技术等的有机融合【11。把网络化制造资源的定义分为广义和狭义两种,其狭义网络化制造资源的定义【2】,适合于本文的研究内容,狭义网络化制造的定义:网络化制造是指企业通过因特网,从事产品协同加工制造活动,具体包括搜寻或发布产品供求信息、搜索加工任务、寻找产品生产合作伙伴,以及进行产品2 浙江大学硕士学位论文第l章绪论的合作加工制造等等,以实现企业或企业间的资源共享、优化组合配置,实现加工制造过程集成和异地协同制造。1.2.2网络化制造资源研究意义网络技术对于制造业的影响渗透到相关的各个领域,并且还在不断的迅速扩大,它使得企业间的合作效率更高、成本更低,企业的资源得到更加充分和合理的利用,对于提高企业的新产品开发能力,快速、低成本地制造产品能力等都具有非常重要的意义,具体体现在以下一些方面:·充分利用资源、减少重复投资●降低企业内运营成本●降低企业外交易合作成本●扩大合作伙伴的选择范围·寻找新机遇、开拓新市场1-2.3网络化制造资源面临的问题‘网络化制造资源具有信息描述的复杂性高、一致性低、表现形式具有多样性、结构化程度普遍较低的特剧列。下面,我们以加工制造领域为例,说明信息描述的不一致性和复杂性。我们收集了一些加工制造中在术语使用上或者表现形式上的同义异形例子,并根据产生原因进行分类,如表1.1所示。这些情况广泛存在,它是互操作性差的直接体现,不仅严重影响了设计、制造人员人之间的信息交流,同时也给信息检索加大了难度。表1.1加工制造领域术语使用的同义异形示例原因分析举例地域差异造成类别标准术语地方术语同义异形单位10Um丝(南方)、道(北方)加工方法铸造翻砂新、老标准更替类别新标准旧标准造成术语混用常用术语表面粗糙度表面光洁度热处理氧化处理发黑、发蓝 浙江大学硕士学位论文第1章绪论续表1.1原因分析举例描述形式不同造成类别形式一形式二同义异形机床参数最大加工直径在“最大工件=最大工件执行宰最大工件长度”中包含级数数字表示,如文字描述,如“无级”24或“所有级别”同时,传统信息的表达和检索技术方面,仍然存在着许多缺陷,因此为网络化制造中的合作伙伴寻找、发现,协作的建立造成了极大的困难,主要体现在以下一些方面:·以HTML语言表达的页面信息和组织方式,主要面向用户直接阅读,没有将信息的表现形式、内在结构和表达内容相分离,因而,非常不利于计算机直接阅读和处理。·信息检索主要以关键字匹配的方式为主,因此,检索结果往往出现一些不相关的内容,准确率低,同时只通过关键字匹配的方法,遗漏了大量的与检索概念同义或相关的概念内容,因此检索在查全率方面也不高。·信息检索的粒度过大、精度不够,无法实现问答式的查询,检索返回结果以页面或链接为主,因此仍需花费大量的人工进行查找,检索效率低。·信息检索以页面为单位,无法跨越网页边界,因此造成检索结果分离,需要附加大量的人工进行信息整合工作。·目前的信息检索只能搜索到网页中直接提及的问题,而难以进行推理和回答间接的问题。综上所述,由于目前现有信息表达和检索技术仍存在难以避免的局限性,而同时面对的又是非常复杂的网络化制造环境所特有的诸多问题,因此,这越来越成为制约网络化制造发展的一个问题。1.2.4语义网与网络化制造资源WWW的创始人TimBemers.Lee于2000年12月18日在XML2000会议上,提出了下一代因特网的概念一语义网(SemanticWeb)。4 浙江大学硕士学位论文第1章绪论语义网与目前我们所使用的万维网的区别在于:万维网实际上是一个存储和共享图像、文本的媒介,电脑所能看到的只是一堆文字或图像,对其内容无法进行识别。而语义网的建立则将事情变得简单得多。语义网的主要开发任务是使数据更加便于电脑进行处理和查找,其最终目标是让用户变成全能的上帝,对因特网上的海量资源达到几乎无所不知的程度,计算机可以在这些资源中找到你所需要的信息,从而将万维网中一个个现存的信息孤岛,发展成一个巨大的数据库。语义网将使人类从搜索相关网页的繁重劳动中解放出来。因为网中的计算机能利用自己的智能软件,在搜索数以万计的网页时,通过“智能代理”从中筛选出相关的有用信息。而不像现在的万维网,只给你罗列出数以万计的无用搜索结果。语义网是一项面向因特网应用的通用技术,它提出的目标完全能解决目前网络化企业协作中在资源信息表达和检索中所面临的问题,因此,我们认为通过引入该技术并进行尝试,对于有效解决目前的问题很有必要,也很有价值。1.3网络化制造资源智能检索相关技术研究现状1.3.1国内网络化制造资源检索现状近几年,国内网络化制造资源检索相关的知识表示、资源获取、检索模型等的研究主要如下:贵州大学的谢庆生等进行了网络制造资源多层次智能检索模型的研究,建立了制造资源智能化检索系统知识库,综合使用用户建模、机器学习、WEB网页识别、信息过滤、数据挖掘、人机交互等多项技术提出了多层次的智能检索模型的总体结构,包括用户界面、信息采集子系统、信息反馈子系统、信息推送子系统四个模块。其中信息推送子系统采用关联规则挖掘技术对用户兴趣进行挖掘,实现了个性化搜索,基于案例推理技术的动态联盟伙伴企业检索模式【5】【酬。兰州理工大学在甘肃省科技攻关项目“有色行业集成信息体系结构研究’’支持下进行了基于语义Wreb的网络化制造知识集成技术的研究,采用Protdgd工具,使用OWLDL语言对制造企业进行了本体建模,将制造企业本体分为时间本体、活动本体和状态本体,并且使用SWRL建立了公理集。提出基于语义的制造资源 浙江大学硕士学位论文第l章绪论检索,将语义检索分为:概念检索、实例检索和关系检索,并实现检索算法。并且设计了PINMBS系统,包括:制造业元知识自动提取模块、数据存储模块、知识查询推理模块和知识接收发布模块【。71。华中科技大学的祁型虹等进行了制造网格环境下制造资源的建模与形式化描述的研究。将制造网格的体系结构分为构造层、制造网格核心中间件层、用户中间件层和应用层四个大的层次,是以GlobusTooldt的元计算目录服务组件和网格资源分配管理者为基础而设计的。采用面向对象方法和统一建模语言UML相结合建立了制造资源分类模型。实现了基于STEP—XML.WSDL制造资源的描述【8l。东南大学的江勇等进行了基于XML的网络化制造资源应用平台的研究与应用,基于产品表达与交换标准STEP,建立了制造资源信息模型,包括制造资源物理模型、能力模型、关联模型和状态模型。应用神经元仿生学原理,构建了多层结构的制造资源组织模型,通过细胞、逻辑神经和知识网络实现对制造资源信息、面向功能的制造资源组织逻辑和面向制造资源应用的知识的描述,为异地制造资源信息集成、制造资源检索和应用提供支持。基于XML定义了制造资源标注语言MRML,实现了MRML在制造资源的集成、信息挖掘、资源重构、数据重用等制造资源应用【11。西南交通大学的屈喜龙等进行了区域网络化制造中的资源管理及其优化配置技术研究,提出了一个三层的BTCQS资源描述模型,并结合webservice技术的优点,提出一个基于总平台/重点城市分平台/企业平台的三级资源管理解决方案。在区域内制造资源的优化配置方面提出一个基于模糊AHP方法的优选模型和一个基于AHP的CBR实例检索模型【9】。1.3.2基于语义网智能检索研究现状基于语义网的智能检索系统的开发已经处于快速发展阶段。比较具有代表性的系统主要包括以下一些:CORESE[10I是由INRIA(法国国家信息与自动化研究所)开发的基于本体的搜索引擎,内部使用概念图,支持混合的元组查询。查询语言于6 浙江大学硕士学位论文第l章绪论SPARQL,SeRQL,RDQL类似,但是支持近似化查询。近似化查询是基于两个类在层次结构中的距离和rdfs:seeAlso的属性来衡量的。结果以与查询条件的相似度来衡量。OntoSearch[111是由新加坡NTU大学研发的“OntologyGoogle’’,使用了GoogleAPIs,用户输入关键字来搜索Internet上的ontology文件。后端采用了Jena。对结构的排序采用向量空间的方法。Be珂e++1121由德国L3S研究中心和Hanover大学在开源搜索引擎Beagle的基础上联合开发的桌面搜索原型系统,加入语义增强了全文搜索模块和ranking模块。使它支持RDF元组索引。文档中的predicate和object根据subject建立索引。提出predicatepaths(在RDF图中能横穿文档节点的predicate路径)。采用关键词进行检索。Swoogletl3】是由美国UMB大学研发的基于本体的语义搜索引擎,自行实现了多个Crawler,抽取每个发现的文档的语义信息,计算文档之间的关系,采用N.Gram或者URIrefs建立索引,还提出了一种衡量语义文档重要性的方法。OntoSearch2114】【15】由英国Aberdeen大学研发的语义本体搜索引擎,用户搜索和发现本体。后端由知识库支持,提供了三种语义搜索本体的方法,基于关键字的搜索,基于搜索结果的搜索,模糊搜索。Watson[161是英国的KMI(KnowledgeMediaInstitute)研发的本体搜索引擎,能够抓取语义文档(OWL,RDF(S),DAML+OIL)。首先检测本体位置,能维护位于不同位置、不同语言本体之间的一致性。能够检索概念、实例和概念间的关系。国内目前主要有浙江大学吴朝晖【17】等第一个将语义网用于解决中医药信息的知识集成和管理,实现了基于本体的检索引擎,并且实现了关系数据库到语义层之间的转换。上海交通大学俞勇等【18】【191研究把关键子查询转换成语义查询,包括Q2Semantic转换接口和SPARK系统。7 浙江大学硕士学位论文第l章绪论1.4论文研究背景和内容近年来网络化制造飞速发展,致力于跨越企业间的空间差距,实现企业间的信息集成、业务过程集成、资源共享,实现产品商务、设计、制造的协同,缩短产品的研制周期和研制费用,提高整个产业链和制造群体的竞争力。然而网络化信息表现形式多样,结构化程度低,不是机器可理解格式,获取困难;而传统搜索引擎,只针对关键字匹配,不具有语义,影响了查全率和查准率。因而网络化制造资源的智能获取和查询,成为制约网络化制造技术发展的一个瓶颈问题。本论文就是在这样的背景下提出的,属于浙江省重点攻关科技项目。本论文开发和完成了一个基于语义网技术的、制造资源智能获取、智能智能检索的原型系统MRISS(ManufactoryResourcesImellectualSearchSystem)。MRISS的关键技术和创新点,主要包括,◆适合网络化制造开放环境的共享资源本体建模技术;●网络化制造信息智能获取技术;●半自动化的语义标注技术;·多层次的网络化制造资源检索融合技术;●易用、清晰、简洁的网络化制造资源检索语义查询前端技术。本论文共分为七章,第一章“绪论”,对网络化制造资源资源检索相关技术的研究现状进行分析,介绍了本文的研究背景、研究意义和内容组织结构。第二章“MRISS总体结构",对MRISS的需求和功能进行分析,提出了MRISS的系统总体结构和四层系统层次结构。第三章“网络化制造资源本体建模”,建立了面向网络化制造资源的本体结构,采用OWL建模语言,使用概念、概念属性以及概念间关系,通过概念蕴涵、属性关联、相互约束以及公理定义等方法,形成复杂的网状结构,从而成为系统在语义和推理上的底层支撑。第四章“网络化制造资源获取”,本文在分析当前网络化信息获取方式的基础上,提出定制Spider的方案。并在开源SpiderHeritrix的基础上进行定制和扩8 浙江大学硕士学位论文第l章绪论展,实现了针对目标网站进行抓取的聚焦Spider。并根据网页信息分布特点,完成半自动化标注工作。第五章“网络化制造资源智能检索",最后,本文针对当前制造资源检索方法存在的问题,提出多层次智能检索模型和智能检索模块的总体结构。运用Jerla工具包,设计和实现多层次智能检索,设计了界面友好的图示化语义查询前端。并设计了查询树这一数据结构用来连接用户输入和SPARQL语义查询语言,且研究了查询树和SPARQL的转换算法。第六章“运行实例”,以四个运行实例进行演示,验证系统实现了基于语义的网络化制造资源的智能检索的目标;第七章“总结与展望",对全文所进行的主要工作和研究成果进行总结,并对还需要进一步研究的工作进行了展望。9 浙江大学硕士学位论文第2章-IRISS总体结构第2章MRISS总体结构2.1功能分析借鉴已有的基于语义网的智能检索系统,结合网络化制造资源的特点,本文认为,MRISS,应该具有如下功能模块。1.网络化制造资源智能获取模块,简称聚焦Spider模块传统网络爬虫追求大的覆盖率,无目标性,如果应用于网络化制造资源信息获取,将会影响抓取效率,浪费存储空间,加重后期信息处理的负担,不适合网络化制造资源的智能获取。近年来人们提出了聚焦Spider,其与通用爬虫不同,将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。在MRISS中,设计一个定制的、适合网络化制造资源的聚焦Spider,对网络化制造资源相关的网页进行自动的、智能的、高效的抓取。自动是指设定好Spider配置参数后,无需人工干预。智能是指能对网络化制造资源进行判断,对重复资源进行判断。高效指抓取策略高效,存储结构好,方便后期的访问。2.网络化制造资源的本体建模模块,简称本体建模模块对网络化制造资源进行本体建模使整个系统具有语义的基础。建立适用各个领域的大本体,本体构建将十分复杂,各个领域的本体也失去灵活性;建立各种小本体,增加灵活性的同时,却带来了本体间的异构,导致信息共享和交流困难。因而构建适合网络化制造开放环境的共享领域资源本体十分有必要。其必须符合网络化制造领域的特点,并具有清晰性、客观性、可扩展性、一致性。3.网络化制造资源语义半自动标注模块,简称半自动标注模块。在获取了网络化制造资源相关的网络信息,并且建立了网络化制造资源的本体之后,所获取的网络信息还是不具有语义的,我们需要对其进行标注,使其具有语义,为智能检索做基础。人工标注,工作量大,维护一致性难度高,工作效率低;目前的标注工作存在一些缺陷,不适合本文的工作12们。而基于网络化制造资源这一领域的本体,针对一些有代表性的专业网站进行语义标注,是有可能的。10 浙江大学硕士学位论文第2章MRISS总体结构本文将设计实现针对典型网络化制造资源门户网站的半自动化标注。4.网络化制造资源智能检索模块,简称智能检索模块针对传统搜索引擎主要针对用户提交的查询关键字进行匹配来返回搜索结果,不具有语义性。提供具有智能检索能力的检索系统是十分有必要的。除了具有一般的精确性查询功能外,还应具有语义查询、模糊查询、智能推理功能。5.网络化制造资源智能检索语义查询前端模块,简称语义查询前端Baidu,Google经常对其搜索引擎主页页面进行升级、改版,使用户使用更加方便、简洁,用户想要的信息更加直接的展现给用户,对颜色的设计也具有心理学的分析。足见前端交互技术的重要性,其极大程度的影响用户的体验,从而影响用户的粘度。基于语义网的网络化制造资源智能检索的语义查询前端,应适用于网络化制造资源这一特定的领域,并且具有语义导向、界面直观、操作方便、结果直接的特点。2.2总体结构2.2.1MRISS总体结构我们提出了MRISS系统的总体结构图,如图2.1所示。整个系统分为5部分,即:本体建模、聚焦Spider、半自动化标注、智能检索和语义查询前端,系统处理流程为:首先构建网络化制造资源本体和相关的领域知识和常识。本体建模得到网络化制造资源本体库,领域知识建模得到领域知识库,常识建模得到常识库。然后由聚焦Spider在Intemet中自动获取与网络化制造资源相关的网络信息。然后利用本体库、领域知识库、常识库对聚焦Spider获取的网络信息进行解析和半自动化标注得到个体库。智能检索基于本体库、领域知识库和常识库的指导下对个体库进行语义检索和智能推理。 浙江大学硕上学位论文第2章bfRISS总体结构2.2.2MRISS层次模型层次结构模型是软件系统和协议工程中常用的重要分析手段,它采用了分而治之的思想,使不同层次的功能明确、接口清晰,因此,对于复杂问题的解决可以大大简化,ISO/OSI的网络协议7层参考模型、语义网的层次模型以及W3C的WebService协议标准栈模型都采用了这种方法。借鉴层次结构模型的思想,我们也采用层次结构模型描述MRISS系统功能的逻辑关系。如图2.1所示,MRISS的层次模型共分为5层结构,自下而,卜分别为数据层、本体层、知识层、服务层和表示层,该层次结构遵循了由数据到语义,再到知识和服务,最后到与用户交互的逻辑顺序,各层的具体功能及作用阐述如下: 浙江人学硕一L学位论义第2章MRISS总体结构I...一概念语义层次树可编辑语义查询树概念属性列表相关概念列表查询偏好设置语义结果展示。’———————————————————————————~智能检索1~/国HTML,ASP,JSP,XML,RDFS,OWL等图2.2MRISS系统层次结构图·数据层:该层是以Intemet为载体,包括网络上所有的与网络化制造资源相关的网络资源。从形式卜.可能是文本、图片、视频资源;从结构上可能是结构化数据、半结构化数据、非结构化数据;从网页的类型看,可能是静态网页如HTML,可能是动态网页如JSP;从是否具有语义来看,可能是一般的网页,可能使已经标注过的网页,如RDFS或OWL等(目前万维网上标注的网页相当的少,如果已经标注也未必能直接使用,还要看其标注语言,看其本体构建);从内容上,包括制造资源信息,生产、加工、销售制造资源的企业信息,同时还包括领域知识信息和常识性信息也以网页形式在网络中存在。该层的数据特点是易于人理解,而机器不可理解的。·本体层:该层是使得整个系统具有语义的基础,是整个系统的关键层。其根据产品设计、制造开发过程中涉及的关键要素,将制造领域中的常用概念、术语,通过概念、概念的属性、概念间的关联、概念的约束、属性的约束、概念关联的约束,公理定义等,组织成具有网状结构的、可共享的形式化本体表示,揭示概念间的本质联系。非语义化的原始数据经过本体的标注后,也就是实例化后,可以实现数据的表现形式、结构和内容三者之fHJ的分离,成为一种机器可理枣不层一服务层知识层本体层~数据层羹i 浙江大学硕士学位论文第2章鹾RISS总体结构解的信息,从而为语义互操作、智能推理提供可靠的保障。●知识层:建立在本体层之上,为实现基于语义的信息检索和智能推理提供有力的支持。根据本体层构建领域知识库和常识性知识库。领域知识层通过提供经验性的信息,对本体层中概念及其相互间关系进行补充和扩展。拥有领域知识的支持,能够使系统具有领域特点,方便领域相关人员的使用,结合进领域权威知识,可以使该系统具有专家系统的功能,同时领域知识是开放的,通过标注得出的新的领域知识可以添加进入领域知识库中的。而常识性知识库则从更广泛的角度出发提供深层的事实信息和知识,为推理提供基础。◆服务层:建立在知识层之上,根据知识层所提供的领域知识和常识性知识提供智能检索服务,包括精确检索、语义检索、模糊检索和智能推理的多层次智能检索服务。同时,以领域知识和常识知识为引导,提供了面向网络化制造资源的聚焦Spider服务和半自动化标注服务。·表示层:建立在服务层之上,将服务层的所提供的语义信息以用户易理解、具有语义的形式展现给用户。包括概念语义层次树,把本体库中概念的语义层次结构以树的形式展现;概念属性列表,展示当前概念的属性,包括属性名称和属性的值域,用户可对属性值进行编辑;相关概念列表,把和当前概念有直接关联的概念列出来;查询偏好设置,用户可以设置是否查询下位概念的等查询设置;可编辑语义树查询,通过对属性和相关概念的编辑,用户将查询条件和结果集挂载到语义查询树上;语义结果展示,准确表达用户所要查询的结果集,并且结果和信息来源的URL相关联。这些语义结构是语义查询前端的基础。2.3本章小结本章对MRISS进行了需求分析和功能设计,设计了系统总体结构,明确了系统所包括五个的模块:聚焦Spider,本体建模,半自动化标注,智能检索,语义查询前端,所应具有的功能。并设计了系统的层次模型,使系统功能层次化,逻辑更加清晰。14 浙江大学硕士学位论文第3章网络化制造资源本体建模3.1本体3.1.1本体简介本体Ontology本来是哲学中元物理学(形而上学)的一个分支。直观地讲,本体是对某领域应用本体论的方法分析、建模的结果,即把现实世界中的某个领域抽象为一组概念及概念之间的关系。自二十世纪九十年代初,本体概念被广泛地引用到计算机领域,特别是人工智能(Ab和知识工程研究中。在灿领域,本体通常被称为领域模型(DomainModel)或概念模型(ConceptualModel),是关于特定知识领域内各种的对象、对象特性以及对象之间可能存在的关系的内容理论。通过对应用领域的概念和术语进行抽象,本体形成了应用领域中共享和公共的领域概念,可以描述应用领域的知识或建立一种关于知识的描述。本体已经成为知识工程、自然语言处理、协同信息系统、智能信息集成、智能信息获取、知识管理等各方面普遍研究的热点。最近十年以来,各种研究机构提出了具有细微差别本体定义。其中Gruberl21】的定义被引用最多,也是迄今为止被普遍认为的最准确的本体的定义:“本体是概念模型的明确的规范说明。”Studerl22】等总结认为,“本体是共享概念模型的明确的形式化的规范说明。"从根本上说,本体的作用是为了构建领域模型。3.1.2本体语言OWL语义Wreb被认为是Web未来的发展方向。在语义W曲上,信息都带有显式的含义,使其易于机器自动处理和web信息集成。语义Web利用了XML可以自定义标签模式(taggingschemes)的能力和RDF可以灵活表示资料的能力。W3C提出了~些与语义Web有关的建议,包括XML、XML模式、RDF、RDF模式。XML为结构化文件提供了基本的语法,但对文件的含义并未施加任何语义上的限fN;XML模式是一种约束XML文文件结构的语言:RDF是一个关于对象(或资 浙江大学硕士学位论文第3章网络化制造资源本体建模源)和它们之间关系的数据模型,并为这个数据模型提供了简单的语义。这些数据模型使用XML语法表示。RDF模式是描述RDF资源中属性和类的词汇表,并带有这些属性和类的泛化层次的语义。这些建议构成了一个七层堆栈层次结构。本体层是堆栈层次结构中重要的一层。目前已经出现了许多种本体描述语言,包括XOL,SHOE,OML,RDFS,OIL,DAML+OIL,OWL。其中OⅥ亿是W3C推崇的本体语言标准。OWLt23】是基于网络本体语言DAML+OIL的基础上进行改进的。在设计过程中吸取了DAML+0IL的设计和应用经验。OWL有3个表达能力递增的子语言:OWLLite,OWLDL和OWLFUll。OWLLite表达能力最弱的子语言,提供了类分层的能力和简单的约束功能。它支持基数约束,但只容许基数值为0或l。因为表达能力较弱,为OWLLite开发支持工具要比其它两个子语言容易一些。OWLDL(DL表示描述逻辑)在保持计算完整性(所有的结论可以保证计算出来)和可判定性(所有的计算在有限时间内结束)的前提下,提供了尽可能大的表达能力。OWLDL包含了OWL的全部语言构造成分,但它们的使用受到一些限制(如一个类可以是许多类的子类,但不能是另一个类的实例)。描述逻辑是OWL的形式化基础。OWLDL提供了描述逻辑的推理功能。0WLFull包含OWL的全部语言构造成分并取消了OWLDL中的限制。在OWLFull中,一个类可以看成是个体的集合,也可以看成是一个个体。由于OWLFull取消了OWLDL中的保证可计算性的某些限制,因此不存在完整的推理算法支持OWLFull的全部特性。总之,OWLLite的表达能力最有限,推理效率最高;OWLDL在保证推理的完备性和可判定性的前提下,有尽可能强的表达能力:OWLFull有最强的表达能力但不对是否能计算出来作任何保证。鉴于OWL的上述特点,我们选用OWL作为本文的本体描述语言,并且可以根据实际应用需要选择使用OWLLite、OWLDL还是OWLFull。3.1.3本体建模工具Prot696Prot696[24】是目前流行的本体建模工具。Pr0艏96由斯坦福大学的Stanford16 浙江大学硕士学位论文第3章网络化制造资源本体建模MedicalInformaties开发的一个开源的本体编辑器,用Java编写。提供了较好的本体和知识库的开发环境,更支持面向对象方式的本体构建,与目前本体构建的发展方向很好的融合,界面风格与普通Windows应用程序风格一致,并且使用简单,能很快的构造、修改本体。本体结构以树形的层次目录结构显示,用户可以通过点击相应的项目来增加或编辑类、子类、属性、实例等,使用户在概念层次上设计领域模型,所以本体工程师不需要了解具体的本体表示语言。虽然暂时没有中文版,但是支持中文输入法。并且Prot6醇支持多重继承,并对新数据进行一致胜检查,并且具有很强的可扩展性,主要表现在如下几点:(1)文件输出格式可以定制。可以将Prot6醇的内部表示转换成多种形式的文本表示格式,包括XML,RDF(S),OIL,DAML,DAML+OIL,OWL等系列语言。(2)后台支持数据库存储,使用JDBC和JDBC.ODBC桥访问数据库。(3)用户接口可以定制。提供可扩展的API接口,用户可以更换Prot6西的用户接口的显示和数据获取模块来适应新的语言。(4)有可以与其他应用结合的可扩展的体系结构。用户可以将其与外部语义模块(例如针对新语言的推理引擎)直接相连,支持推理DIG接口。(5)提供查询接口,支持SWRL查询语言。由于Prot696开放源代码,提供了本体构建的基本功能,使用简单方便,有详细友好的帮助文档,模块划分清晰,提供完全的API接口,软件的更新较快,特别是对W3C标准的良好支持,因此,它基本上成为国内外众多本体研究机构的首选工具。本文选用Prot6酌的最新版本Prot∈西3.3进行本体建模。3.2本体的内部组织通过分析,我们认为可以将网络化制造本体中所涉及的内容概括为三种抽象类型进行表达,即概念、概念的属性以及概念问的关系,在此基础上,根据制造领域特点,通过进一步细分和增加语义信息,并叠加公理定义,形成具有复杂语义关系、支持推理的网状结构,下面分别进行介绍。17 浙江大学硕士学位论文第3章网络化制造资源本体建模3.2.1概念概念所描述的是那些制造系统中存在的实体对象或者活动。实体对象包括企业、加工设备、工艺装备、零件材料、毛坯等静态概念,而活动则表达针对某种对象所产生的动作序列,是动态概念的集合,如加工方法中的车削、铣削、刨削、磨削,以及工艺设计任务中的工艺参数选择和计算、资源选择等。概念间通过上下位、同义和反义等语义关系,组成概念网络,下层概念能自动继承上层概念的所有属性和关系,如加工设备各有一个设备型号属性和所属企业关系,车床是加工设备的下位概念,因此车床也具有这些特性。在定义概念时,可以通过OWL语言中的owl:disjointWith表达概念之间彼此互不相交关系,这是一些可用于推理的公理,如表3.1所示:表3.1概念OWL定义通过owl:disjoimWith表达了车床是一种与铣床、刨床和磨床等几个概念都不相交的、独立的机床类型。此外,OWL语言中的owl:intersectionof、owl:tmionof和owl:complemenof还能表达概念间更为复杂的布尔关系,在此不一一举例。在我们的系统中,共建立了6类概念,其中一类是基础概念,它定义了区域、度量等基本概念,在此基础上,建立了5类概念作为描述网络化制造系统特有的领域本体概念。在本体库中当需要增加新的概念类型时,必须继承其中的某一类18 浙江大学硕士学位论文第3章网络化制造资源本体建模或者是其子类的子概念才被认为是合法的。这5类领域概念实体分别是:企业、制造资源、制造对象、制造方法和制造任务,其中前3类概念属静态的实体概念,后2类则属于动态的活动概念,它们分别包含以下一些内容:(1)企业(Enterpriseprofile):描述企业的基本情况,以便于其他企业了解和联系,其属性具体包括企业名称、法人代表、联系电话、传真、电子信箱、联系地址、邮政编码、企业网址和行业类别。(2)制造资源(Manufactureresougce):描述企业具备的、提供加工制造能力的资源集合,它所包含的子概念实体类别、层次和数量都非常多,就二级概念实体(指仅次于项层制造资源的子概念)来说,主要有加工设备(包括机床、非机床)和工艺装备(包括刀、夹、量、辅、检具)。制造资源部分层次结构如?图3.1所示。图3.1制造资源概念层次(部分)(3)制造对象(Manufactureobject):在制造系统中,其他概念实体都直接或间接地作用于制造对象,因此,它是制造系统综合作用的集中体现。制造对象既包括制造系统的原始输入,同时又包括最终输出,既有宏观高层概念实体,又描19 浙江大学硕士学位论文第3章网络化制造资源本体建模述了微观底层概念实体。具体来说,属于原始输入的制造对象有材料、毛坯,属于最终输出和高层概念实体的制造对象是零件,属于微观底层概念实体的制造对象是制造特征。蚴制造方法(Manufacturemethod):制造方法用于描述制造资源面向制造对象,所具有的各种制造手段和种类。制造方法属于动态概念集合,可以分为机加工制造方法和非机加工制造方法两类,机加工制造方法又可以分为车削、铣削、刨削、磨削、钻削、镗削、拉削等,非机加工制造方法也可以进一步分为热处理、冲压、锻造、铸造、焊接、涂装等。(勘制造任务(Manufacturetask):制造任务是一系列蕴含大量丰富知识和经验的活动,属于动态概念集合。我们将制造任务分为三类,制造资源选择、制造参数选择和制造参数计算。上述5类概念实体都不是彼此完全孤立存在的,它们相互间存在着各种关联关系,制造对象处于中心地位,因为,制造企业的所有资源、任务(活动),都是围绕着制造对象而展开,产品制造过程就是采用制造资源、执行制造任务、对制造对象的初始状态施加各种制造方法,逐步改变其状态,使之最终成为合格产品的一系列过程。3.2.2概念的属性概念属性用于描述概念所具备的区别于其他概念的特性。对概念及其属性进行语义分析,可以进一步细分为以下一些类型:度量属性;材料属性;状况属性;外观属性;特性属性;附属属性。以上几类属性是网络化制造本体系统中预定义的顶层概念属性,因此,在增加新的概念属性时,必须定义为其中的某一类或者是其子类的子类属性才认为合法。概念属性之间的语义关系包括上下位关系和同义关系,如表面粗糙度是工作精度的下位属性,与表面光洁度是同义关系。概念属性之间通过上下位和同义关系,构成概念属性网络。此外,对概念属性可以进一步定义公理。如表3.2所示, 浙江大学硕士学位论文第3章网络化制造资源本体建模表中定义表明“型号”是定义在设备和字符串之间的一种附属属性,其中,domain域表示属性所属的概念实体,即属性的定义域,range域表示值域。表3.2概念属性OWL定义 此文档下载收益归作者所有、 标签嵌套。我们需要根据实际情况解析出列名和列内容的对应关系。 浙江人学硕士学位论文第4章网络化制造资源获取详绸信息生t产品囊■鲁:开糟机,教控并檀机,数控冲床,不锈{R开槽机.金属薄板开撸机,创坑机,转堵冲库量警曩孟:生产翌罾习嵌■●■:中国E海上海市厂扈醐:占地面积15000平方米罾司业立桶:1998年主,市场:犬陆港澳台地区中末主要客户:攘人代罩E,盘蠢人:p一家林瑾曩壹盒:曼工人量:人民币1∞万10t·卸人主要最蕾地点:E海市虹口区泼水末路35I号髓晶尊:懂力磊’电器’‘焦不绣钒加工’建筑装饰-电年警业·:人民币1000万元,年一2000万元/年年出口■:^民币300万元,年一500万元,年珥置毒门人披:量量控翻:联系方式5一10人内鄙公司名嚣上海恒力锻压机庶有限公司联系人■霉#先生(锖售舒经理)地量上海上海市虹口匠波术东路35l号■编200d34电话008802l6561ll】0传真008802165363734移动电话13801055585公司主重htt☆://"_.shheⅣh88.c“是否叠供on代栩工:月产量:图4.4横向网页机斥参数准臻镪撺0芽,车库娄昔通车辟=(1)否∞台侧鬻铷18039—0。孑橼·一锅1嘞18012强1800一2l∞X—l5/2.2{,12l,035Il∞+Xl毒∞啦300’B3瑚10。-t6039—0‘尹幻彰一一。一一-。茹ool;o!s/z羁一2s3蝉搿320l∞36弧一}1一_-·一一12图4.5纵向网页·抽取规则:基于本体库中的概念、概念的属性和概念问的关联,根据网页模板中HTML的结构特征和属性特征构造的能够抽取信息的正则表达式。例如,针对“企业”的属性,“企业注册资金”,其在某一具体网页中为,“ (【人万】}万)</span></td>”,凡是匹配该正则表达式的就是可以找到我们要获取企业注册资金的位置。·抽取器:根据抽取规则从大量待处理网页中抽取信息。◆标注器:将抽取出来的信息根据本体库进行标注。面举例说明属性标注,概念标注和概念间关联的标注。属性标注对图4.4所示企业的注册资金用OWL语言进行标注,如表4.2所示,表4.2概念属性OWL标注<注册资金rd£datatype=“http://www.w3.org/2001/XMLSchema#stfing”>人民币50万<,沣册咨余>概念标注对图4.5所示的车床进行标注后,标注信息如表4.3所示,表4.3“车床”概念OWL标注<车床rdf.ID=”C6132”><名称rdf:datatype=”http://www.w3.org/2001/XMLSchema#stdng”>普通车床<,名称><型号rdf:datatype=”http://www.w3.org/2001/XMLSchema#string”>C6132</型号><最人上件直径rdf:datatype=”http://www.w3.org/2001/XMLSchema#float”>320叫最大工件直径><最人工件长度rdf:datatype=”http://www.w3.org/2001/XMLSchema#float”>500叫最人工件长度><圆皮rdf:datatype=”http://www.w3.org/2001/XMLSchema#float”>O.ol</L园度><圆柱度rdfidatatype=”http://www.w3.org/2001/XMLSchema#float”>0.03<,圆柱度><平面度rdf:datatype=”http://www.w3.org/2001/XMLSchema#float”>O.02</平面度><粗糙度rdf:datatype=”http:#www.w3.org/2001/XMLSchema#float”>1.25</粗糙度><,车床>对图4.4所示的企业用OWL语言标注后,标注信息如表4.4所示,39 浙江大学硕士学位论文第4章网络化制造资源获取表4.4“企业”概念OWL标注<企业rdf.'lD=”上海恒力锻压机床有限公司”><企业名称rdf:datatype=”httpJ/www.w3.org/2001/XMLSchema#string”>上海恒力锻压机床有限公司</企业名称><法人代表rdf:datatype=”http'.//www.w3.org/2001/XMLSchema#string”>陶家林可法人代表><企业所属地域rdf:resouree=”撑上海”/><注册资金rdfidatatype=”http://www.w3.org/2001/XMLSchema#string”>人民币100万吲注册资金><成立时间rdf:datatype=”http://www.w3.org/2001/XMLSchema#string”>1998年</成立时间><联系人rdf:datatype=”http://www.w3.org/2001/XMLSchema#string”>陶家林先生(销售部经理)叫联系人><公司地点rdf:datatype=”http://www.w3.org/2001/XMLSchema#string”>上海上海市虹口区汶水东路351号</公司地点><邮政编码rdf:datatype=”http://www.w3.org/2001/XMLSchema#string’t>200434可邮政编码><电话rdf:datatype=”http://www.w3。org/2001/XMLSchema#string”>00860216561110</电话><传真rdf:datatype=”http://www.w3.org/2001/XMLSchema#string”>008602165363734</传真><,企ib概念间的关系标注上海恒力锻压机床有限公司供应型号为PG02K的机床,我们对其标注如表4.5所示,“拥有机车”是企业概念和机床概念的关系。表4.5概念间关系OWL标注4.7本章小结本文在分析当前网络化信息获取方式的基础上,提出了定制智能Spider的可行性方案。分析典型的网络化制造资源I'-JP网站,在开源SpiderHeritrix的基础上,进行定制和扩展,实现了针对目标网站进行抓取的智能Spider。并根据网页信息分布的特点,完成了半自动化标注工作。 浙江大学硕士学位论文第5章网络化制造资源智能检索5.1智能检索总体结构5.1.1多层次智能检索模型在MRISS系统中,我们建立了一个多层次的检索模型完成信息查询,以此克服目前制造资源检索方法的不足。多层次检索模型【2】,其智能化程度逐级递增,用户可以一种统一的查询方式进行检索,系统内部处理过程对用户完全透明。该检索模型结构可以分为四个层次,依次分别为:◆精确检索:实现与用户查询需求进行精确匹配的检索功能,并解决相关实例信息处于分布状态的跨页面检索。·语义检索:采用基于本体的语义检索方式,能检索出与用户查询中所表达的概念具有同义、上下位等语义关系的实例信息。●模糊检索:可以接受用户查询中的模糊量。●智能推理:能根据用户查询所表达的蕴涵信息进行检索。上述各种检索技术之间并不互斥,是一种相辅相成的关系,如图5.1所示,通过模糊扩展对模糊查询量精确化,在此基础上根据本体中的语义信息,实现语义扩展(包括同义扩展、语义蕴涵、语义外延和语义联想),采用精确匹配结合智能推理,最终完成检索任务。检索需求语义蕴含语义外延语义联想检索结果图5.1多层次智能检索模型4l 浙江大学硕上学位论文第5章网络化制造资源智能榆索5.1.2智能检索总体结构智能检索总体结构如图5.2所示,旧查询树l卜义}卜SPARQL.转换器⋯Q铲‰擎茵.I甘Ⅱ.Il}结果组装器}.端数据库卜l固圆l固固Jena持久化数据库SPMCQL酉词结果图5.2智能检索总体结构·查洵和推理模块:包括模糊转换器,Jena推理机,JenaARQ查询引擎。模糊转换器,在领域知识库和常识库中查询模糊量的精确值,把语义查询语言SPARQL中的模糊量替换成精确值,生成精确查询的SPARQL。Jena是丌源的,用于创建语义网应用系统的Java框架结构。Jena推理机实现了同义扩展、语义扩展和智能推理。JenaARQ对Jena推理机推理后的结果进行查询,得到SPARQL形式的查询结果。·数据库:包括领域知识库、常识库、本体库和个体库。其中本体库和个体库是用Jena持久化接口进行存取和更新的。·语义查询前端:传统的搜索引擎前端不适合语义查询。为本文设计了一个图示化的具有语义导向的查询6仃端。界面上包含了查询树,概念树,属性表,关联概念表,语义查询结果等。·前端交互接口:负责语义查询前端和查询推理模块的交互。包括向前端提供概念树、属性表、关联概念表的本体封装器;将SPARQL查询结果形式转换成适合用户阅读的语义查询结果形式的结果组装器;将用户提交的查询树转换成SPARQL查询语言的SPARQL转换器。42 浙江大学硕士学位论文第5章网络化制造资源智能检索5.2相关技术介绍5.2.1Jena简介Jena是来自于惠普实验室语义网研究项目的开放资源,是用于创建语义网应用系统的Java框架结构,它为RDF、RDFS、OWL提供了一个程序开发环境。是开源的,在下载的文档中有Jena的完整代码。Jena框架具体包括,用于对RDF文件和模型进行处理的RDFAPI,用于对RDF、RDFS、OWL文件(基于XML语法)进行解析的解析器;RDF模型的持续性存储方案;用于检索过程推理的基于规则的推理机子系统;用于对Ontology进行处理和操作的Ontology子系统;用于信息搜索的ARQ搜索引擎。Jena的这些组成部分在解决语义网环境下语义检索中各司其职,起到重要的作用,其总体结构【30】如图5.3所示:图5.3Jena总体结构图43 浙江大学硕士学位论文第5章网络化制造资源智能检索●Ⅺ咀n①F解析器资源描述框架是(RDF)是描述资源的一项标准(在技术上是W3C的推荐标准),Jena提供了RDFAPI,包括了RDF模型的创建、读写、查询等操作,以及RDF容器的操作等。●Ontology子系统【31】Jena框架包含一个本体子系统(OntologySubsystem),它提供的API允许处理基于RDF的本体数据,也就是说,它支持OWL,DAML+OIL和RDFS。本体API与推理子系统结合可以从特定本体中提取信息,Jena2还提供文档管理器(OntDocumentManager)以支持对导入本体的文档管理。●RDF模型持久化存储1321Jena2允许将数据存储到硬盘中,或者是OWL文件,或者是关系数据库中。关系数据库目前支持MySQL,Oracle,PostgreSQL,MicrosoftSQLserver。Jena2缺省的关系数据库存储方式采用一种不正规的存储资源的方法,把资源直接存入声明表中,这种方式以更多的存储空间为代价,使得插入和检索数据库具有更高的性能。同时,持久化子系统,来支持FastPath算法的能力,来提高SPARQL的查询效率。●ARQ查询模型Jena2提供了ARQ查询引擎,它实现SPARQL查询语言和RDQL,从而支持对模型的查询。另外,查询引擎与关系数据库相关联,这使得查询存储在关系数据库中的本体时能够达到更高的效率。●推理子系统【33】Jena2支持基于规则的简单推理,包括Transitivereasoner,RDFSrulereasoner,OWLMini/MicroReasoners,DAMLmicroreasoner,DAMLmicroreasoner,Genericrulereasoner。同时Jena2可以接入DIG标准的推理机,包括Pellet、Racer、FaCT等。 浙江大学硕士学位论文第5章网络化制造资源智能检索5.2.2SPARQL简介SPARQL/341是w3c的workingdraft,很可能成为推荐标准,其综合各种查询语言RQL,DERQ,SeRQL等的优点,功能强大,得到Jena开发者大力支持。在W3C的官方网站上明确提出,如果可能的话,应该尽量选择SPARQL。SPARQL是通过图形化模式匹配实现对多个RDF图的查询的,其基本模式就是三元组匹配,通过匹配得到查询变量的数据值的对应关系。这种对应关系在SPARQL中成为“绑定"(binding)。SPARQL的语法形式与关系数据库中的结构化查询语言SQL比较相似,但仅仅是语法形式上的相似,两者是有本质区别的:SQL是基于关系代数模型来构造查询的,而SPARQL是基于图的模型来构造查询。整体上来说,SPARQL语句可以分成四个部分:声明部分,结果集,数据源,查询模式。下面以一个例子来简单说明:例5.1SPARQL查询PREFIXmr-
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
最近更新
更多
大家都在看
近期热门
举报
文档下载
请先输入手机号