基于.语义的网络化制造资源智能检索技术的研究

基于.语义的网络化制造资源智能检索技术的研究

ID:33329452

大小:14.44 MB

页数:64页

时间:2019-02-24

上传者:U-22107
基于.语义的网络化制造资源智能检索技术的研究_第1页
基于.语义的网络化制造资源智能检索技术的研究_第2页
基于.语义的网络化制造资源智能检索技术的研究_第3页
基于.语义的网络化制造资源智能检索技术的研究_第4页
基于.语义的网络化制造资源智能检索技术的研究_第5页
资源描述:

《基于.语义的网络化制造资源智能检索技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

浙江大学硕士学位论文图目录图2.1MRISS系统总体结构图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯12图2.2M魁Ss系统层次结构图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯13图3.1制造资源概念层次(部分)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯19图4.1Heritrix架构设计图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯27图4.2“中华机床网”定制抓取流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..34图4.3信息抽取和语义标注流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.37图4.4横向网页⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.38图4.5纵向网页⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯38图5.1多层次智能检索模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯~41图5.2智能检索总体结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯42图5.3Jena总体结构图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯43图5.4语义查询前端⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯49图5.5查询树相关节点类类图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..5l图5.6QueryTreeNode类图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..52图5.7QueryTreeDataPropertiesNode类图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯5l图5.8QueryTreeConceptNode类图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.52图5.9QueryTreeOjectPropertiesNode类图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯51图5.10查询树⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.52图5.11查询树到SPARQL转换算法流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯53图6.1运行实例一(查询条件)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..56图6.2运行实例一(相关概念)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯56图6.3运行实例一(查询结果)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一57图6.4运行实例二(查询条件)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯58图6.5运行实例二(查询结果)⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一58图6.6运行实例三⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一59图6.7运行实例四⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..60 浙江大学研究生学位论文独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他入已经发表或撰写过的研究成果,也不包含为获得逝姿盘堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:莓山.§签字日期:沙F年占月磊日学位论文版权使用授权书本学位论文作者完全了解滥鎏盘堂有权保留并向国家有关部门或机构送交本论文的复印件和磁盘,允许论文被查阅和借阅。本人授权.迸婆盘堂.可以将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:套≯.去导师签名:签字日期:加髫年‘月营日吓倪签字日期:h启年(月∥日 浙江大学硕士学位论文第1章绪论1.1引言随着互联网的快速发展,网络技术对于制造业的影响已经渗透到相关的各个领域,并且还在不断地迅速扩大,并由此形成了一种新的制造模式,即网络化制造。所谓网络化制造,是先进制造技术在网络上实施,它吸收了计算机辅助设计、集成制造、虚拟制造、协同设计等方面的最新技术成果,尤其是计算机网络技术,并将其综合应用于基于互联网的产品开发与设计、制造、检测、管理及售后服务的制造全过程,实现优质、高效、低耗、清洁、敏捷制造I¨。相对于传统方式,网络化制造跨越了企业间的空间差距,实现企业间的信息集成、业务过程集成、资源共享,实现产品商务、设计、制造的协同,缩短产品的研制周期和研制费用,提高整个产业链和制造群体的竞争力。然而目前我国网络化制造系统的发展还不尽如人意,还存在着制约网络化制造技术发展的一系列瓶颈问题。其中的一个核心问题是如何实现网络化制造资源的智能获取和智能检索。网络化制造资源的获取一般有两种方法:方法一是通过人工搜集并手工输入数据库进行管理,其缺点是开放性、实时性较差,成本高;方法二是直接从因特网上获取网络化制造资源并进行集成管理,这种方法可以克服方法一的缺点。但方法二存在着一系列关键问题有待解决:能从因特网中直接获取到的网络化制造资源,其信息描述的复杂度高、一致性低、表现形式具有多样性、结构化程度低,互操作性差【2】,同时获取的信息不包含语义。而网络化制造资源检索,基于目前Intemet信息表达主要以HTML等文本页面为主,其检索仍然存在着许多缺陷,主要表现在:信息是面向用户直接阅读,不利于计算机直接阅读和处理;检索以关键字匹配为主,易出现不相关内容,准确率低,遗漏大量的与检索概念同义或相关的内容,查全率不高;检索粒度过大、精度不够,无法实现问答式的查询,检索效率低;以页面为单位,无法跨越网页 浙江大学硕士学位论文第l章绪论边界;难以进行推理,实现间接的信息内容检索【21。针对目前因特网在信息表达、检索等方面存在的缺陷,WWW的创始人TimBemers.Lee提出了语义网(SemanticWeb)的概念[3]141,其目标是使因特网上的信息具有计算机可以理解的语义,从而满足智能软件代理Agent对WWW上异构、分布信息的有效检索和访问,实现网上信息资源在语义层上的全方位互联,并在此基础上,实现更高层的、基于知识的智能应用。由于现有的信息获取和检索技术仍存在难以避免的局限性,而同时网络化制造环境又是非常复杂的,迫切需要有一种新的思路和方法来解决这些问题。从语义网技术的内涵和发展来看,能解决目前网络化制造系统在资源信息表达和检索中所面临的问题,因此,引入语义网技术,对于有效解决网络化制造资源的自动获取和智能检索问题很有必要,也很有价值。1.2网络化制造资源概述1.2.1网络化制造资源概念随着制造业的不断发展,敏捷制造(AM),虚拟制造ⅣM)等一批新的制造模式应运而生。相应地,供应链技术、多智能体(multi.agent)结构与网络化制造技术等成为研究热点。网络化制造技术就是为满足制造业网络化发展的需要而在二十世纪九十年代发展起来的一系列制造技术的总称。网络化制造技术是先进制造技术在网络上实施,它吸收了计算机网络、计算机辅助设计、集成制造、虚拟制造、协同设计、计算机仿真、工作流、现代管理等方面的最新技术成果,并将其综合应用于基于互联网的产品开发与设计、制造、检测、管理及售后服务的制造全过程,实现优质、高效、低耗、清洁、敏捷制造。从本质上可以说,网络化制造技术是传统制造技术、信息技术、自动化技术和现代管理技术等的有机融合【11。把网络化制造资源的定义分为广义和狭义两种,其狭义网络化制造资源的定义【2】,适合于本文的研究内容,狭义网络化制造的定义:网络化制造是指企业通过因特网,从事产品协同加工制造活动,具体包括搜寻或发布产品供求信息、搜索加工任务、寻找产品生产合作伙伴,以及进行产品2 浙江大学硕士学位论文第l章绪论的合作加工制造等等,以实现企业或企业间的资源共享、优化组合配置,实现加工制造过程集成和异地协同制造。1.2.2网络化制造资源研究意义网络技术对于制造业的影响渗透到相关的各个领域,并且还在不断的迅速扩大,它使得企业间的合作效率更高、成本更低,企业的资源得到更加充分和合理的利用,对于提高企业的新产品开发能力,快速、低成本地制造产品能力等都具有非常重要的意义,具体体现在以下一些方面:·充分利用资源、减少重复投资●降低企业内运营成本●降低企业外交易合作成本●扩大合作伙伴的选择范围·寻找新机遇、开拓新市场1-2.3网络化制造资源面临的问题‘网络化制造资源具有信息描述的复杂性高、一致性低、表现形式具有多样性、结构化程度普遍较低的特剧列。下面,我们以加工制造领域为例,说明信息描述的不一致性和复杂性。我们收集了一些加工制造中在术语使用上或者表现形式上的同义异形例子,并根据产生原因进行分类,如表1.1所示。这些情况广泛存在,它是互操作性差的直接体现,不仅严重影响了设计、制造人员人之间的信息交流,同时也给信息检索加大了难度。表1.1加工制造领域术语使用的同义异形示例原因分析举例地域差异造成类别标准术语地方术语同义异形单位10Um丝(南方)、道(北方)加工方法铸造翻砂新、老标准更替类别新标准旧标准造成术语混用常用术语表面粗糙度表面光洁度热处理氧化处理发黑、发蓝 浙江大学硕士学位论文第1章绪论续表1.1原因分析举例描述形式不同造成类别形式一形式二同义异形机床参数最大加工直径在“最大工件=最大工件执行宰最大工件长度”中包含级数数字表示,如文字描述,如“无级”24或“所有级别”同时,传统信息的表达和检索技术方面,仍然存在着许多缺陷,因此为网络化制造中的合作伙伴寻找、发现,协作的建立造成了极大的困难,主要体现在以下一些方面:·以HTML语言表达的页面信息和组织方式,主要面向用户直接阅读,没有将信息的表现形式、内在结构和表达内容相分离,因而,非常不利于计算机直接阅读和处理。·信息检索主要以关键字匹配的方式为主,因此,检索结果往往出现一些不相关的内容,准确率低,同时只通过关键字匹配的方法,遗漏了大量的与检索概念同义或相关的概念内容,因此检索在查全率方面也不高。·信息检索的粒度过大、精度不够,无法实现问答式的查询,检索返回结果以页面或链接为主,因此仍需花费大量的人工进行查找,检索效率低。·信息检索以页面为单位,无法跨越网页边界,因此造成检索结果分离,需要附加大量的人工进行信息整合工作。·目前的信息检索只能搜索到网页中直接提及的问题,而难以进行推理和回答间接的问题。综上所述,由于目前现有信息表达和检索技术仍存在难以避免的局限性,而同时面对的又是非常复杂的网络化制造环境所特有的诸多问题,因此,这越来越成为制约网络化制造发展的一个问题。1.2.4语义网与网络化制造资源WWW的创始人TimBemers.Lee于2000年12月18日在XML2000会议上,提出了下一代因特网的概念一语义网(SemanticWeb)。4 浙江大学硕士学位论文第1章绪论语义网与目前我们所使用的万维网的区别在于:万维网实际上是一个存储和共享图像、文本的媒介,电脑所能看到的只是一堆文字或图像,对其内容无法进行识别。而语义网的建立则将事情变得简单得多。语义网的主要开发任务是使数据更加便于电脑进行处理和查找,其最终目标是让用户变成全能的上帝,对因特网上的海量资源达到几乎无所不知的程度,计算机可以在这些资源中找到你所需要的信息,从而将万维网中一个个现存的信息孤岛,发展成一个巨大的数据库。语义网将使人类从搜索相关网页的繁重劳动中解放出来。因为网中的计算机能利用自己的智能软件,在搜索数以万计的网页时,通过“智能代理”从中筛选出相关的有用信息。而不像现在的万维网,只给你罗列出数以万计的无用搜索结果。语义网是一项面向因特网应用的通用技术,它提出的目标完全能解决目前网络化企业协作中在资源信息表达和检索中所面临的问题,因此,我们认为通过引入该技术并进行尝试,对于有效解决目前的问题很有必要,也很有价值。1.3网络化制造资源智能检索相关技术研究现状1.3.1国内网络化制造资源检索现状近几年,国内网络化制造资源检索相关的知识表示、资源获取、检索模型等的研究主要如下:贵州大学的谢庆生等进行了网络制造资源多层次智能检索模型的研究,建立了制造资源智能化检索系统知识库,综合使用用户建模、机器学习、WEB网页识别、信息过滤、数据挖掘、人机交互等多项技术提出了多层次的智能检索模型的总体结构,包括用户界面、信息采集子系统、信息反馈子系统、信息推送子系统四个模块。其中信息推送子系统采用关联规则挖掘技术对用户兴趣进行挖掘,实现了个性化搜索,基于案例推理技术的动态联盟伙伴企业检索模式【5】【酬。兰州理工大学在甘肃省科技攻关项目“有色行业集成信息体系结构研究’’支持下进行了基于语义Wreb的网络化制造知识集成技术的研究,采用Protdgd工具,使用OWLDL语言对制造企业进行了本体建模,将制造企业本体分为时间本体、活动本体和状态本体,并且使用SWRL建立了公理集。提出基于语义的制造资源 浙江大学硕士学位论文第l章绪论检索,将语义检索分为:概念检索、实例检索和关系检索,并实现检索算法。并且设计了PINMBS系统,包括:制造业元知识自动提取模块、数据存储模块、知识查询推理模块和知识接收发布模块【。71。华中科技大学的祁型虹等进行了制造网格环境下制造资源的建模与形式化描述的研究。将制造网格的体系结构分为构造层、制造网格核心中间件层、用户中间件层和应用层四个大的层次,是以GlobusTooldt的元计算目录服务组件和网格资源分配管理者为基础而设计的。采用面向对象方法和统一建模语言UML相结合建立了制造资源分类模型。实现了基于STEP—XML.WSDL制造资源的描述【8l。东南大学的江勇等进行了基于XML的网络化制造资源应用平台的研究与应用,基于产品表达与交换标准STEP,建立了制造资源信息模型,包括制造资源物理模型、能力模型、关联模型和状态模型。应用神经元仿生学原理,构建了多层结构的制造资源组织模型,通过细胞、逻辑神经和知识网络实现对制造资源信息、面向功能的制造资源组织逻辑和面向制造资源应用的知识的描述,为异地制造资源信息集成、制造资源检索和应用提供支持。基于XML定义了制造资源标注语言MRML,实现了MRML在制造资源的集成、信息挖掘、资源重构、数据重用等制造资源应用【11。西南交通大学的屈喜龙等进行了区域网络化制造中的资源管理及其优化配置技术研究,提出了一个三层的BTCQS资源描述模型,并结合webservice技术的优点,提出一个基于总平台/重点城市分平台/企业平台的三级资源管理解决方案。在区域内制造资源的优化配置方面提出一个基于模糊AHP方法的优选模型和一个基于AHP的CBR实例检索模型【9】。1.3.2基于语义网智能检索研究现状基于语义网的智能检索系统的开发已经处于快速发展阶段。比较具有代表性的系统主要包括以下一些:CORESE[10I是由INRIA(法国国家信息与自动化研究所)开发的基于本体的搜索引擎,内部使用概念图,支持混合的元组查询。查询语言于6 浙江大学硕士学位论文第l章绪论SPARQL,SeRQL,RDQL类似,但是支持近似化查询。近似化查询是基于两个类在层次结构中的距离和rdfs:seeAlso的属性来衡量的。结果以与查询条件的相似度来衡量。OntoSearch[111是由新加坡NTU大学研发的“OntologyGoogle’’,使用了GoogleAPIs,用户输入关键字来搜索Internet上的ontology文件。后端采用了Jena。对结构的排序采用向量空间的方法。Be珂e++1121由德国L3S研究中心和Hanover大学在开源搜索引擎Beagle的基础上联合开发的桌面搜索原型系统,加入语义增强了全文搜索模块和ranking模块。使它支持RDF元组索引。文档中的predicate和object根据subject建立索引。提出predicatepaths(在RDF图中能横穿文档节点的predicate路径)。采用关键词进行检索。Swoogletl3】是由美国UMB大学研发的基于本体的语义搜索引擎,自行实现了多个Crawler,抽取每个发现的文档的语义信息,计算文档之间的关系,采用N.Gram或者URIrefs建立索引,还提出了一种衡量语义文档重要性的方法。OntoSearch2114】【15】由英国Aberdeen大学研发的语义本体搜索引擎,用户搜索和发现本体。后端由知识库支持,提供了三种语义搜索本体的方法,基于关键字的搜索,基于搜索结果的搜索,模糊搜索。Watson[161是英国的KMI(KnowledgeMediaInstitute)研发的本体搜索引擎,能够抓取语义文档(OWL,RDF(S),DAML+OIL)。首先检测本体位置,能维护位于不同位置、不同语言本体之间的一致性。能够检索概念、实例和概念间的关系。国内目前主要有浙江大学吴朝晖【17】等第一个将语义网用于解决中医药信息的知识集成和管理,实现了基于本体的检索引擎,并且实现了关系数据库到语义层之间的转换。上海交通大学俞勇等【18】【191研究把关键子查询转换成语义查询,包括Q2Semantic转换接口和SPARK系统。7 浙江大学硕士学位论文第l章绪论1.4论文研究背景和内容近年来网络化制造飞速发展,致力于跨越企业间的空间差距,实现企业间的信息集成、业务过程集成、资源共享,实现产品商务、设计、制造的协同,缩短产品的研制周期和研制费用,提高整个产业链和制造群体的竞争力。然而网络化信息表现形式多样,结构化程度低,不是机器可理解格式,获取困难;而传统搜索引擎,只针对关键字匹配,不具有语义,影响了查全率和查准率。因而网络化制造资源的智能获取和查询,成为制约网络化制造技术发展的一个瓶颈问题。本论文就是在这样的背景下提出的,属于浙江省重点攻关科技项目。本论文开发和完成了一个基于语义网技术的、制造资源智能获取、智能智能检索的原型系统MRISS(ManufactoryResourcesImellectualSearchSystem)。MRISS的关键技术和创新点,主要包括,◆适合网络化制造开放环境的共享资源本体建模技术;●网络化制造信息智能获取技术;●半自动化的语义标注技术;·多层次的网络化制造资源检索融合技术;●易用、清晰、简洁的网络化制造资源检索语义查询前端技术。本论文共分为七章,第一章“绪论”,对网络化制造资源资源检索相关技术的研究现状进行分析,介绍了本文的研究背景、研究意义和内容组织结构。第二章“MRISS总体结构",对MRISS的需求和功能进行分析,提出了MRISS的系统总体结构和四层系统层次结构。第三章“网络化制造资源本体建模”,建立了面向网络化制造资源的本体结构,采用OWL建模语言,使用概念、概念属性以及概念间关系,通过概念蕴涵、属性关联、相互约束以及公理定义等方法,形成复杂的网状结构,从而成为系统在语义和推理上的底层支撑。第四章“网络化制造资源获取”,本文在分析当前网络化信息获取方式的基础上,提出定制Spider的方案。并在开源SpiderHeritrix的基础上进行定制和扩8 浙江大学硕士学位论文第l章绪论展,实现了针对目标网站进行抓取的聚焦Spider。并根据网页信息分布特点,完成半自动化标注工作。第五章“网络化制造资源智能检索",最后,本文针对当前制造资源检索方法存在的问题,提出多层次智能检索模型和智能检索模块的总体结构。运用Jerla工具包,设计和实现多层次智能检索,设计了界面友好的图示化语义查询前端。并设计了查询树这一数据结构用来连接用户输入和SPARQL语义查询语言,且研究了查询树和SPARQL的转换算法。第六章“运行实例”,以四个运行实例进行演示,验证系统实现了基于语义的网络化制造资源的智能检索的目标;第七章“总结与展望",对全文所进行的主要工作和研究成果进行总结,并对还需要进一步研究的工作进行了展望。9 浙江大学硕士学位论文第2章-IRISS总体结构第2章MRISS总体结构2.1功能分析借鉴已有的基于语义网的智能检索系统,结合网络化制造资源的特点,本文认为,MRISS,应该具有如下功能模块。1.网络化制造资源智能获取模块,简称聚焦Spider模块传统网络爬虫追求大的覆盖率,无目标性,如果应用于网络化制造资源信息获取,将会影响抓取效率,浪费存储空间,加重后期信息处理的负担,不适合网络化制造资源的智能获取。近年来人们提出了聚焦Spider,其与通用爬虫不同,将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。在MRISS中,设计一个定制的、适合网络化制造资源的聚焦Spider,对网络化制造资源相关的网页进行自动的、智能的、高效的抓取。自动是指设定好Spider配置参数后,无需人工干预。智能是指能对网络化制造资源进行判断,对重复资源进行判断。高效指抓取策略高效,存储结构好,方便后期的访问。2.网络化制造资源的本体建模模块,简称本体建模模块对网络化制造资源进行本体建模使整个系统具有语义的基础。建立适用各个领域的大本体,本体构建将十分复杂,各个领域的本体也失去灵活性;建立各种小本体,增加灵活性的同时,却带来了本体间的异构,导致信息共享和交流困难。因而构建适合网络化制造开放环境的共享领域资源本体十分有必要。其必须符合网络化制造领域的特点,并具有清晰性、客观性、可扩展性、一致性。3.网络化制造资源语义半自动标注模块,简称半自动标注模块。在获取了网络化制造资源相关的网络信息,并且建立了网络化制造资源的本体之后,所获取的网络信息还是不具有语义的,我们需要对其进行标注,使其具有语义,为智能检索做基础。人工标注,工作量大,维护一致性难度高,工作效率低;目前的标注工作存在一些缺陷,不适合本文的工作12们。而基于网络化制造资源这一领域的本体,针对一些有代表性的专业网站进行语义标注,是有可能的。10 浙江大学硕士学位论文第2章MRISS总体结构本文将设计实现针对典型网络化制造资源门户网站的半自动化标注。4.网络化制造资源智能检索模块,简称智能检索模块针对传统搜索引擎主要针对用户提交的查询关键字进行匹配来返回搜索结果,不具有语义性。提供具有智能检索能力的检索系统是十分有必要的。除了具有一般的精确性查询功能外,还应具有语义查询、模糊查询、智能推理功能。5.网络化制造资源智能检索语义查询前端模块,简称语义查询前端Baidu,Google经常对其搜索引擎主页页面进行升级、改版,使用户使用更加方便、简洁,用户想要的信息更加直接的展现给用户,对颜色的设计也具有心理学的分析。足见前端交互技术的重要性,其极大程度的影响用户的体验,从而影响用户的粘度。基于语义网的网络化制造资源智能检索的语义查询前端,应适用于网络化制造资源这一特定的领域,并且具有语义导向、界面直观、操作方便、结果直接的特点。2.2总体结构2.2.1MRISS总体结构我们提出了MRISS系统的总体结构图,如图2.1所示。整个系统分为5部分,即:本体建模、聚焦Spider、半自动化标注、智能检索和语义查询前端,系统处理流程为:首先构建网络化制造资源本体和相关的领域知识和常识。本体建模得到网络化制造资源本体库,领域知识建模得到领域知识库,常识建模得到常识库。然后由聚焦Spider在Intemet中自动获取与网络化制造资源相关的网络信息。然后利用本体库、领域知识库、常识库对聚焦Spider获取的网络信息进行解析和半自动化标注得到个体库。智能检索基于本体库、领域知识库和常识库的指导下对个体库进行语义检索和智能推理。 浙江大学硕上学位论文第2章bfRISS总体结构2.2.2MRISS层次模型层次结构模型是软件系统和协议工程中常用的重要分析手段,它采用了分而治之的思想,使不同层次的功能明确、接口清晰,因此,对于复杂问题的解决可以大大简化,ISO/OSI的网络协议7层参考模型、语义网的层次模型以及W3C的WebService协议标准栈模型都采用了这种方法。借鉴层次结构模型的思想,我们也采用层次结构模型描述MRISS系统功能的逻辑关系。如图2.1所示,MRISS的层次模型共分为5层结构,自下而,卜分别为数据层、本体层、知识层、服务层和表示层,该层次结构遵循了由数据到语义,再到知识和服务,最后到与用户交互的逻辑顺序,各层的具体功能及作用阐述如下: 浙江人学硕一L学位论义第2章MRISS总体结构I...一概念语义层次树可编辑语义查询树概念属性列表相关概念列表查询偏好设置语义结果展示。’———————————————————————————~智能检索1~/国HTML,ASP,JSP,XML,RDFS,OWL等图2.2MRISS系统层次结构图·数据层:该层是以Intemet为载体,包括网络上所有的与网络化制造资源相关的网络资源。从形式卜.可能是文本、图片、视频资源;从结构上可能是结构化数据、半结构化数据、非结构化数据;从网页的类型看,可能是静态网页如HTML,可能是动态网页如JSP;从是否具有语义来看,可能是一般的网页,可能使已经标注过的网页,如RDFS或OWL等(目前万维网上标注的网页相当的少,如果已经标注也未必能直接使用,还要看其标注语言,看其本体构建);从内容上,包括制造资源信息,生产、加工、销售制造资源的企业信息,同时还包括领域知识信息和常识性信息也以网页形式在网络中存在。该层的数据特点是易于人理解,而机器不可理解的。·本体层:该层是使得整个系统具有语义的基础,是整个系统的关键层。其根据产品设计、制造开发过程中涉及的关键要素,将制造领域中的常用概念、术语,通过概念、概念的属性、概念间的关联、概念的约束、属性的约束、概念关联的约束,公理定义等,组织成具有网状结构的、可共享的形式化本体表示,揭示概念间的本质联系。非语义化的原始数据经过本体的标注后,也就是实例化后,可以实现数据的表现形式、结构和内容三者之fHJ的分离,成为一种机器可理枣不层一服务层知识层本体层~数据层羹i 浙江大学硕士学位论文第2章鹾RISS总体结构解的信息,从而为语义互操作、智能推理提供可靠的保障。●知识层:建立在本体层之上,为实现基于语义的信息检索和智能推理提供有力的支持。根据本体层构建领域知识库和常识性知识库。领域知识层通过提供经验性的信息,对本体层中概念及其相互间关系进行补充和扩展。拥有领域知识的支持,能够使系统具有领域特点,方便领域相关人员的使用,结合进领域权威知识,可以使该系统具有专家系统的功能,同时领域知识是开放的,通过标注得出的新的领域知识可以添加进入领域知识库中的。而常识性知识库则从更广泛的角度出发提供深层的事实信息和知识,为推理提供基础。◆服务层:建立在知识层之上,根据知识层所提供的领域知识和常识性知识提供智能检索服务,包括精确检索、语义检索、模糊检索和智能推理的多层次智能检索服务。同时,以领域知识和常识知识为引导,提供了面向网络化制造资源的聚焦Spider服务和半自动化标注服务。·表示层:建立在服务层之上,将服务层的所提供的语义信息以用户易理解、具有语义的形式展现给用户。包括概念语义层次树,把本体库中概念的语义层次结构以树的形式展现;概念属性列表,展示当前概念的属性,包括属性名称和属性的值域,用户可对属性值进行编辑;相关概念列表,把和当前概念有直接关联的概念列出来;查询偏好设置,用户可以设置是否查询下位概念的等查询设置;可编辑语义树查询,通过对属性和相关概念的编辑,用户将查询条件和结果集挂载到语义查询树上;语义结果展示,准确表达用户所要查询的结果集,并且结果和信息来源的URL相关联。这些语义结构是语义查询前端的基础。2.3本章小结本章对MRISS进行了需求分析和功能设计,设计了系统总体结构,明确了系统所包括五个的模块:聚焦Spider,本体建模,半自动化标注,智能检索,语义查询前端,所应具有的功能。并设计了系统的层次模型,使系统功能层次化,逻辑更加清晰。14 浙江大学硕士学位论文第3章网络化制造资源本体建模3.1本体3.1.1本体简介本体Ontology本来是哲学中元物理学(形而上学)的一个分支。直观地讲,本体是对某领域应用本体论的方法分析、建模的结果,即把现实世界中的某个领域抽象为一组概念及概念之间的关系。自二十世纪九十年代初,本体概念被广泛地引用到计算机领域,特别是人工智能(Ab和知识工程研究中。在灿领域,本体通常被称为领域模型(DomainModel)或概念模型(ConceptualModel),是关于特定知识领域内各种的对象、对象特性以及对象之间可能存在的关系的内容理论。通过对应用领域的概念和术语进行抽象,本体形成了应用领域中共享和公共的领域概念,可以描述应用领域的知识或建立一种关于知识的描述。本体已经成为知识工程、自然语言处理、协同信息系统、智能信息集成、智能信息获取、知识管理等各方面普遍研究的热点。最近十年以来,各种研究机构提出了具有细微差别本体定义。其中Gruberl21】的定义被引用最多,也是迄今为止被普遍认为的最准确的本体的定义:“本体是概念模型的明确的规范说明。”Studerl22】等总结认为,“本体是共享概念模型的明确的形式化的规范说明。"从根本上说,本体的作用是为了构建领域模型。3.1.2本体语言OWL语义Wreb被认为是Web未来的发展方向。在语义W曲上,信息都带有显式的含义,使其易于机器自动处理和web信息集成。语义Web利用了XML可以自定义标签模式(taggingschemes)的能力和RDF可以灵活表示资料的能力。W3C提出了~些与语义Web有关的建议,包括XML、XML模式、RDF、RDF模式。XML为结构化文件提供了基本的语法,但对文件的含义并未施加任何语义上的限fN;XML模式是一种约束XML文文件结构的语言:RDF是一个关于对象(或资 浙江大学硕士学位论文第3章网络化制造资源本体建模源)和它们之间关系的数据模型,并为这个数据模型提供了简单的语义。这些数据模型使用XML语法表示。RDF模式是描述RDF资源中属性和类的词汇表,并带有这些属性和类的泛化层次的语义。这些建议构成了一个七层堆栈层次结构。本体层是堆栈层次结构中重要的一层。目前已经出现了许多种本体描述语言,包括XOL,SHOE,OML,RDFS,OIL,DAML+OIL,OWL。其中OⅥ亿是W3C推崇的本体语言标准。OWLt23】是基于网络本体语言DAML+OIL的基础上进行改进的。在设计过程中吸取了DAML+0IL的设计和应用经验。OWL有3个表达能力递增的子语言:OWLLite,OWLDL和OWLFUll。OWLLite表达能力最弱的子语言,提供了类分层的能力和简单的约束功能。它支持基数约束,但只容许基数值为0或l。因为表达能力较弱,为OWLLite开发支持工具要比其它两个子语言容易一些。OWLDL(DL表示描述逻辑)在保持计算完整性(所有的结论可以保证计算出来)和可判定性(所有的计算在有限时间内结束)的前提下,提供了尽可能大的表达能力。OWLDL包含了OWL的全部语言构造成分,但它们的使用受到一些限制(如一个类可以是许多类的子类,但不能是另一个类的实例)。描述逻辑是OWL的形式化基础。OWLDL提供了描述逻辑的推理功能。0WLFull包含OWL的全部语言构造成分并取消了OWLDL中的限制。在OWLFull中,一个类可以看成是个体的集合,也可以看成是一个个体。由于OWLFull取消了OWLDL中的保证可计算性的某些限制,因此不存在完整的推理算法支持OWLFull的全部特性。总之,OWLLite的表达能力最有限,推理效率最高;OWLDL在保证推理的完备性和可判定性的前提下,有尽可能强的表达能力:OWLFull有最强的表达能力但不对是否能计算出来作任何保证。鉴于OWL的上述特点,我们选用OWL作为本文的本体描述语言,并且可以根据实际应用需要选择使用OWLLite、OWLDL还是OWLFull。3.1.3本体建模工具Prot696Prot696[24】是目前流行的本体建模工具。Pr0艏96由斯坦福大学的Stanford16 浙江大学硕士学位论文第3章网络化制造资源本体建模MedicalInformaties开发的一个开源的本体编辑器,用Java编写。提供了较好的本体和知识库的开发环境,更支持面向对象方式的本体构建,与目前本体构建的发展方向很好的融合,界面风格与普通Windows应用程序风格一致,并且使用简单,能很快的构造、修改本体。本体结构以树形的层次目录结构显示,用户可以通过点击相应的项目来增加或编辑类、子类、属性、实例等,使用户在概念层次上设计领域模型,所以本体工程师不需要了解具体的本体表示语言。虽然暂时没有中文版,但是支持中文输入法。并且Prot6醇支持多重继承,并对新数据进行一致胜检查,并且具有很强的可扩展性,主要表现在如下几点:(1)文件输出格式可以定制。可以将Prot6醇的内部表示转换成多种形式的文本表示格式,包括XML,RDF(S),OIL,DAML,DAML+OIL,OWL等系列语言。(2)后台支持数据库存储,使用JDBC和JDBC.ODBC桥访问数据库。(3)用户接口可以定制。提供可扩展的API接口,用户可以更换Prot6西的用户接口的显示和数据获取模块来适应新的语言。(4)有可以与其他应用结合的可扩展的体系结构。用户可以将其与外部语义模块(例如针对新语言的推理引擎)直接相连,支持推理DIG接口。(5)提供查询接口,支持SWRL查询语言。由于Prot696开放源代码,提供了本体构建的基本功能,使用简单方便,有详细友好的帮助文档,模块划分清晰,提供完全的API接口,软件的更新较快,特别是对W3C标准的良好支持,因此,它基本上成为国内外众多本体研究机构的首选工具。本文选用Prot6酌的最新版本Prot∈西3.3进行本体建模。3.2本体的内部组织通过分析,我们认为可以将网络化制造本体中所涉及的内容概括为三种抽象类型进行表达,即概念、概念的属性以及概念问的关系,在此基础上,根据制造领域特点,通过进一步细分和增加语义信息,并叠加公理定义,形成具有复杂语义关系、支持推理的网状结构,下面分别进行介绍。17 浙江大学硕士学位论文第3章网络化制造资源本体建模3.2.1概念概念所描述的是那些制造系统中存在的实体对象或者活动。实体对象包括企业、加工设备、工艺装备、零件材料、毛坯等静态概念,而活动则表达针对某种对象所产生的动作序列,是动态概念的集合,如加工方法中的车削、铣削、刨削、磨削,以及工艺设计任务中的工艺参数选择和计算、资源选择等。概念间通过上下位、同义和反义等语义关系,组成概念网络,下层概念能自动继承上层概念的所有属性和关系,如加工设备各有一个设备型号属性和所属企业关系,车床是加工设备的下位概念,因此车床也具有这些特性。在定义概念时,可以通过OWL语言中的owl:disjointWith表达概念之间彼此互不相交关系,这是一些可用于推理的公理,如表3.1所示:表3.1概念OWL定义通过owl:disjoimWith表达了车床是一种与铣床、刨床和磨床等几个概念都不相交的、独立的机床类型。此外,OWL语言中的owl:intersectionof、owl:tmionof和owl:complemenof还能表达概念间更为复杂的布尔关系,在此不一一举例。在我们的系统中,共建立了6类概念,其中一类是基础概念,它定义了区域、度量等基本概念,在此基础上,建立了5类概念作为描述网络化制造系统特有的领域本体概念。在本体库中当需要增加新的概念类型时,必须继承其中的某一类18 浙江大学硕士学位论文第3章网络化制造资源本体建模或者是其子类的子概念才被认为是合法的。这5类领域概念实体分别是:企业、制造资源、制造对象、制造方法和制造任务,其中前3类概念属静态的实体概念,后2类则属于动态的活动概念,它们分别包含以下一些内容:(1)企业(Enterpriseprofile):描述企业的基本情况,以便于其他企业了解和联系,其属性具体包括企业名称、法人代表、联系电话、传真、电子信箱、联系地址、邮政编码、企业网址和行业类别。(2)制造资源(Manufactureresougce):描述企业具备的、提供加工制造能力的资源集合,它所包含的子概念实体类别、层次和数量都非常多,就二级概念实体(指仅次于项层制造资源的子概念)来说,主要有加工设备(包括机床、非机床)和工艺装备(包括刀、夹、量、辅、检具)。制造资源部分层次结构如?图3.1所示。图3.1制造资源概念层次(部分)(3)制造对象(Manufactureobject):在制造系统中,其他概念实体都直接或间接地作用于制造对象,因此,它是制造系统综合作用的集中体现。制造对象既包括制造系统的原始输入,同时又包括最终输出,既有宏观高层概念实体,又描19 浙江大学硕士学位论文第3章网络化制造资源本体建模述了微观底层概念实体。具体来说,属于原始输入的制造对象有材料、毛坯,属于最终输出和高层概念实体的制造对象是零件,属于微观底层概念实体的制造对象是制造特征。蚴制造方法(Manufacturemethod):制造方法用于描述制造资源面向制造对象,所具有的各种制造手段和种类。制造方法属于动态概念集合,可以分为机加工制造方法和非机加工制造方法两类,机加工制造方法又可以分为车削、铣削、刨削、磨削、钻削、镗削、拉削等,非机加工制造方法也可以进一步分为热处理、冲压、锻造、铸造、焊接、涂装等。(勘制造任务(Manufacturetask):制造任务是一系列蕴含大量丰富知识和经验的活动,属于动态概念集合。我们将制造任务分为三类,制造资源选择、制造参数选择和制造参数计算。上述5类概念实体都不是彼此完全孤立存在的,它们相互间存在着各种关联关系,制造对象处于中心地位,因为,制造企业的所有资源、任务(活动),都是围绕着制造对象而展开,产品制造过程就是采用制造资源、执行制造任务、对制造对象的初始状态施加各种制造方法,逐步改变其状态,使之最终成为合格产品的一系列过程。3.2.2概念的属性概念属性用于描述概念所具备的区别于其他概念的特性。对概念及其属性进行语义分析,可以进一步细分为以下一些类型:度量属性;材料属性;状况属性;外观属性;特性属性;附属属性。以上几类属性是网络化制造本体系统中预定义的顶层概念属性,因此,在增加新的概念属性时,必须定义为其中的某一类或者是其子类的子类属性才认为合法。概念属性之间的语义关系包括上下位关系和同义关系,如表面粗糙度是工作精度的下位属性,与表面光洁度是同义关系。概念属性之间通过上下位和同义关系,构成概念属性网络。此外,对概念属性可以进一步定义公理。如表3.2所示, 浙江大学硕士学位论文第3章网络化制造资源本体建模表中定义表明“型号”是定义在设备和字符串之间的一种附属属性,其中,domain域表示属性所属的概念实体,即属性的定义域,range域表示值域。表3.2概念属性OWL定义如表3.3所示,机床必须拥有有且只有一个型号属性。owl:Restriction是针对属性的约束,owl:eardinality是针对属性数值个数的约束。owl:equivalentClass是OWL中的一个公理定义算子,表明机床的等价类。通过上述定义,表明机床必须拥有有且只有一个型号属性。表3.3概念约束OWL描述3.2.3概念间的关系概念间关系主要用于描述概念相互之间存在的一对一、一对多以及多对多的语义关系,它表达了一种跨越概念层次和类别的相互间约束或联系。如加工设备 浙江大学硕士学位论文第3章网络化制造资源本体建模与企业,可以通过拥有设备这样一个关系进行连接,同时,企业又能与地域通过所属地域发生联系。概念间关系的语义类型非常丰富,我们目前主要归纳为以下几种:整体一部分关系;活动一工具关系;工具一客体关系;活动一客体关系;归属关系;来源关系;关联关系;空间关系;时间关系。需要指出的是,这些概念间的语义关系大都存在反义关系,即定义域和值域互逆的情况,如加工设备与企业是一种归属关系,反过来企业与加工设备之间就是一种所有关系,因此,两者构成一种互为反义的关系。以上几类关系及其反义关系是我们系统预定义的顶层概念间关系,在增加新的概念问关系时,必须定义为其中的某一类或者是其子类的子类关系才认为是合法。概念关系之间同样也能够通过上下位、同义和反义等语义关系形成复杂的概念间关系网络。此外,概念间关系除了可以由owl:cardinality来约束定义域和值域相互间一一映射关系外,还可以定义更多的有助于推理的公理,如传递关系和对称关系,如表3.4所示是传递关系的例子:表3.4传递关系OWL描述</owl:TransitiveProperty>“所属地域"是定义域、值域都为地域的空间关系,owl:TransitiveProperty其具有传递性,即:X所属地域YnY所属地域z—X所属地域Z。对称关系的表达可以采用owl:inverseOf,如定义所有的关联关系都是对称的,如表3.5所示: 浙江大学硕士学位论文第3章网络化制造资源本体建模表3.5对称关系OWL描述3.3本章小结本章首先对本体,本体语言OWL,本体建模工具Prot696进行了介绍,然后在分析先有本体建模方法的基础上,提出了适合网络化制造资源本体建模的方法。最后建立了网络化制造资源本体的概念,概念的属性和概念间的关系。 浙江大学硕士学位论文第4章网络化制造资源获取网络化制造资源的获取分为两个步骤,第一步,聚焦爬虫从Intemet中抓取和制造资源相关的网页,第二步,从这些网页中进行语义信息抽取,并且标注成语义实例。4.1网络化资源获取方式分析网络化资源信息搜集的方式,目前主要有两种,一种是人工手工的方式,另一种是资源自动搜集的方式。人工手工的方式是采用集中式的手工信息提交与管理,把所有信息通过用户手工按照规定好的格式提交入系统数据库,这样方法主要存在这样一些问题12】:工作量大,容易引起重复输入,不易保持数据的一致性;信息来源的广度和深度都不够;信息的表现形式单一、结构不灵活。目前,互联网R新月异地发展,为了跟上互联网发展的步伐,为了自如遨游于互联网这个浩瀚的数据海洋,采用积极、主动的方式,从互联网上获取网络化制造资源相关的信息资源,开发和利用好这些现有的、极为广阔范围内的信息资源,是很有意义的。而自动资源信息搜集方式能够适应互联网的这种发展趋势。目前主要有两种实现手段:一种是直接信息获取方式,即采用Spider利用HrrP、FTP等标准协议,沿着超链遍历Web文档集合,读取页面进行存储,并提取其中的相关信息建立索引,然后又沿着文档中的新超链继续访问新的文档,并如此继续进行;另一种间接的方式是建立在元搜索基础上,通过向各个数据引擎的查询接口发送检索请求并获取信息,采用这种方式不需要为页面建立索引,也不需要维护庞大的索引数据库。这些自动资源信息搜集方式在信息获取的自动化程度、搜索广度方面都比第一种方式要优越。但由于目前计算机还无法从所搜集的页面中准确分离信息,更无法理解这些信息中所包含的语义,因此,资源信息检索的查准率低,即信息的利用率不高。基于上述分析,使用采用Spider方式是用来进行网络化制造资源的获取,是24 浙江大学硕士学位论文第4章网络化制造资源获取一种可以考虑的方式,但是一般的网络爬虫,只关注于网页URL链接的获取,以及网页或网页块的整体抓取,对网页内容基本不作分析与处理。同时一般的网络爬虫的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾进一步加深。基于上述缺点,一般网络爬虫未能满足针对网络化制造资源这一专门领域资源获取的应用需要。我们需要一种定制的针对网络化制造资源这一领域的,智能的、自动的、高效的Spider。4.2聚焦爬虫为了克服一般网络爬虫的缺点,人们提出了聚焦爬虫(FocusingCrawler)。聚集爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择地访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫(generalpurposewebcrawler)不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源【251。传统的网络爬虫的工作流程为:它从一个或若干起始网页URL链接开始,在抓取网页信息的过程中,不断从当前页面上抽取新的URL链接作为下一步执行的目标链接而不断循环下去,直到满足一定的停止条件才结束。而聚焦爬虫与传统的网络爬虫不同,其工作流程具体分以下几部分:(1)首先,需要根据一定的网页分析算法,从超链接集合中过滤掉与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。或者只是提取符合要求的新链接,加入到待抓取URL队列中去。(2)然后,它再根据一定的搜索策略从待抓取URL队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。(3)所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。当然,也可以直接解析目标网页,提取并获得最终的结构化数据和元数据信息。聚焦爬虫,主要需要处理下列问题: 浙江大学硕士学位论文第4章网络化制造资源获取(1)对抓取目标的定义和描述(2)对网页URL的搜索策略目前主要包括如下几种方法:IP地址或域名搜索策略、广度优先搜索策略、深度优先搜索策略、深度与广度综合的搜索策略、最佳优先搜索策略(3)对网页的分析及信息的提取目前主要包括如下几种算法:基于网络拓扑关系的分析算法、基于网页内容的分析算法、基于用户访问行为的分析算法。聚集爬虫的内涵和处理流程都符合网络化制造资源智能获取的要求,下一节中,我们将通过定制Heritrix这一开源的Spider,使其成为符合网络化制造资源智能获取的要求的聚焦Spider。4.3网络爬虫Heritrix4.3.1Heritrix简介如果开发者自行开发一套Spider,开发者需要自己实现一套爬虫调度及监控程序,不但成本高,且效果未必好,还尚须解决类似多线程调度、抓取策略、相关数据库设计等棘手问题,大大增加了聚焦爬虫开发的难度。于是,我们对目前流行的开源的Spider进行了调查。如表4.1所示是2007年12月12日,目前流行开源Siper在www.sourceforge.net上的表现。表4.1Spider在sourceforge上表现名称活跃程度排名注册同期最近更新下载数目日期Heritrix99.65%7092003.02.112007.12.0674230Jspider93.28%136682002.10.252003.05.0l86281WebLech89.74%208772001.10.192002.06.0922529URLSpiderSperowider79.95%408082003.09.142005.07.231056Spidered80.93%388052003.09.222003.10.191082DataRetrievalASpider72。26%564432004..12..142005—06.081482WebSPHINX84.17%322122002..03..122002.03.226228 浙江大学硕士学位论文第4章网络化制造资源获取如表4.1所示,Heritrix和JSpider是在www.sourceforge.net上表现最好的两个Spider。但是JSpider,更新日期比较慢,最后一次更新是五年前了。于是,我们对Heritrix进行了详细的调研,分析其功能看是否符合抓取网络化制造资源的要求。Heritrix【261是一个由Java开发的开源Web爬虫系统,它最出色之处在于强大的可扩展性,允许开发者任意选择或扩展各个组件,实现特定的抓取逻辑。其默认提供的组件又完全支持传统爬虫的工作。可见Heritrix不仅是出色的全文搜索爬虫,而且还是可以用来扩展定制聚焦爬虫的控制系统的首选。而且heritrix提供源码可以对相应的类进行定制修改,使其符合我们的需要.还可以配置硬件的运行参数来适合自己的硬件条件。4.3.2Heritrix架构设计分析Heritrix的杰出特性都源自其优异的架构设计。Heritrix的架构设计【271如图4.1所示,包括如下几个模块:/厂Heritrix、\厂CrawlController、、CrmwOrderFronti●rToePoolfP一一心ha;n“.t1Cr'awlSeope≮/\么、/\7-,一<乡一厂T∞Tbread、弋7弋夕厂BdbFrontier、\/,Pr眦∞sorChainLisI八l剐bMultiplew。rkQue⋯If爿⋯PrePr。⋯J{Bdbw。r。Q”eu”{JFttchIrIBdbUriUn蛔ueFilter胁nctor/、\么∑/jw一时/叫、JP哪ProcessorI,、\~一//\/图4.1Heritrix架构设计图27 浙江大学硕士学位论文第4章网络化制造资源获取(1)中央控制器CrawlController:该模块是Heritrix最核心的组件,它控制整个抓取任务的开始与结束。负责对抓取范围策略组件CmwScope、链接制造器Frontier、处理器链ProcessorChainList和工作线程池ToePool进行初始化工作。(2)抓取范围策略组件CrawlScope:CrawlScope组件用于提供抓取网页链接范围选择的策略,它会影响Frontier和部分处理器(主要是预处理链和扫尾处理链内的处理器)行为,决定接受或是拒绝各选URL链接的处理。(3)链接制造器Frontier:Frontier是链接制造工厂,它专门负责为工作线程提供IJl也,也是所有组件中最为重要的。Heritrix提供一个高效实用的Frontier,即BdbFrontier组件。BdbFrontier是基于美国Sleepycat公司开发的一套高性能、可伸缩、事务保护的开源嵌入式数据库Berkeley,用来解决“URL等待队列”和“已处理链接哈希表’’的存放问题,使得Heritrix的数据存取具有较高的性能。(4)多线程处理:线程池ToePool会根据用户设置的工作线程数目启动ToeThread工作线程。并且工作在线程池的管理下,按控制器规定的线程数,动态创建或回收线程。(5)处理器Processor和处理器链:处理器是Heritfix中被最细化的组件,其可以被用户定制和扩展。处理器主要依次被划分为以下5大类:(a)预处理器PreProcessor:作为整个处理器链的入口,主要负责对抓取时作一些先决判断。(b)获取器Fetcher.主要用来抓取前解析网络协议。(c)解析器Extractor:用来解析各种URL的返回内容,包括HTML、CSS、SWT、JS、PDF、DOC和XML等不同类型信息,分析提取新的URL加入到候选队列去。(d)记录器Writer:负责保存URL内容。包括抓取内容完全镜像保存,压缩 浙江大学硕士学位论文第4章网络化制造资源获取方式保存。(e)后处理器PostProcessor-负责进行最后的一系列扫尾工作,将不符合CrawlScope范围策略的候选URL过滤掉,或者将最终符合抓取规范的URL加入它。以上每种类型处理器都各自形成一种类型的处理器链(即ProcessorChain),每条处理器链都包含若干同类型处理器,多条处理器链又形成处理器链列(即ProcessorChainList)。它们被中央控制器CrawlController初始化后,在工作线程中被循环遍历执行。用户可以在Web控制台上任意组合选择,也可以自行定制它们,但是处理器链和处理器之间都有先后顺序,需要正确配置才能正常工作。(6)抓取任务CmwOrder:该模块是用来选择以上各种组件模块的结果反应,还包括任务的命名、初始种子链接,以及抓取代理设置等基础配置。4.3.3Heritrix的扩展点组件化的Heritrix提供了很多的扩展点可供用户进行定制。依据实际开发经验,主要有如下四大扩展点:(1)定制自己的Extractor处理器:Extractor是用来解析各种URL的返回内容,分析提取新的URL加入到候选队列去。我们将根据网络化制造资源特定网站的网络拓步结构、网页内容URL的具体特征对URL进行解析,分析出与网络化制造资源相关的URL。伫)扩展PostProcessor中的FrontierScheduler:FrontierScheduler是用来决定最终哪些类型的URL将被过滤掉,哪些将被保留下来。(3)定制链接制造器BdbFrontier的URL散列算法:由于BdbFrontier链接制造器的数据存储是基于近似哈希Key/Value方式保存的,它在构造BdbMultipleWorkQueues时会将一连串链接放在一起形成队列,并赋予一个Key。该Key值的计算在默认Heritrix配置中是选择用HostName或工P 浙江大学硕士学位论文第4章网络化制造资源获取生成策略的,因而在聚焦于个别网站抓取时,会产生只有一个线程工作的情况。因为每个线程从一个很长的队列中取出头部链接后,该队列进入阻塞状态,要直到此链接处理完后才恢复。所以,实际运用时,需要继承QueueAssignmentPolicy抽象类,实现一个有效的散列算法策略类,并配置到heritrix.properties中去。(4)robots.txt对个别Processor的影响:遵循robots.txt附加协议的聚焦爬虫不但牺牲了抓取速度,而且可能受到抓取目标站点的限制,因此在实际应用中,根据实际情况把相关的Processor中对robots的处理注释掉。4.4抓取对象及目标站点的分析4.4.1抓取对象机床是制造资源中十分重要的资源。研发前期,我们先以机床为研究对象。我们选取中华机床网(www.22882.net)为样例,抓取企业信息和企业供应信息。该网站包括两万多家的企业信息,约十三万信息条目,并且拥有丰富的企业供应信息,网页信息相对规范。另外,我们选取中国机床商业网(http://www.machine.trade.com)为样例,抓取机床标准化参数信息,该网站信息丰富,拥有规范、翔实机床分类信息,和每一类机床各种型号的标准化参数。同时,该网站还有机床精度参数信息,这是一些领域知识,对每种类型机床是处于国际先进、国内先进、国内一般还是国内落后水平进行了标准的规范。4.4.2目标站点分析4.4.2.1中华机床网对中华机床网站08年4月的研究与分析表明,其站点具有以下抓取特征:(1)种子URL:企业名录页面(http://www.22882.net/corporation/index.asp)存在按行业分类的公司信息,包括“机床”分类和“机床附件"分类的所有企业信息。企业信息中有企业基本信息,同时还具有企业的供应信息,供应信息链接着机床信息。因 浙江大学硕士学位论文第4章网络化制造资源获取此,我们可以以这个URL作为种子,分析出更多有用的待抓取的链接。(2)待抓取URL:通过上述种子。我们目的是要抓取到企业的基本信息,企业的供应信息,和通过供应信息得出企业具体供应的机床的信息。因此,我们需要分析,能够链接到企业基本信息,企业供应信息,机床信息所在页面的链接的特征,然后把这些链接提取出来,添加到待抓取URL中。(3)去除重复的网页:在网页抓取过程中,经常会抓取到重复的网页,这里的重复网页是指内容完全一样而URL不同的网页。重复的网页又经常会引发新一轮的抓取重复,恶性循环,从而严重的影响抓取的效率,也给后续的网页内容分析工作带来一定的麻烦。在抓取过程中,就应将做好去除重复网页的工作,以提高抓取效率。去除重复的网页,可以通过分析各种重复情况,研究其链接特征,对待抓取的URL进行过滤,避免重复。(4)翻页的提取:网页的信息往往一页显示不下,通过翻页来显示,需要研究翻页的URL特征,不同页之间的URL前缀是一样的,区别只是在于后面的传递参数不同。翻页的提取也应作为待抓取的URL。4.4.2.2中国机床商业网对中国机床商业网站08年4月的进行分析表明,其站点具有以下抓取特征:(1)种子URL:该站点的机床参数页面(http://www.maehine.trade.corn/canshu/index.html)存在类被分类的机床参数信息,包括“金属切削机床”、“锻压机械”和“铸造机械”三大类,每一大类又有具体的细分类别。通过具体的细分类别就可以访问到具体的机床参数信息了。因此,我们可以以这个URL作为种子,分析出更多有用的待抓取的链接。该站点的机床精度参数页面(http://www.machine-trade.corn/canshu/ 浙江大学硕士学位论文第4章网络化制造资源获取.jingdu.html),具有与机床参数页面相类似的结构。可以通过其找到我们需要的机床精度参数信息,这一部分信息用于做领域知识,我们也将其作为种子。(2)待抓取URL:通过上述种子,我们目的是要抓取到各种类型机床参数信息,和机床精度参数信息。因此,我们需要分析,能够链接到具体机床参数信息、机床精度参数信息所在页面的链接的特征,然后把这些链接提取出来,添加到待抓取URL中。中国机床商业网包含机床参数和机床精度资源的网络拓步结构相对简单,并没有出现重复URL和需要翻页处理的情况。可以认为对中国机床网页网的Spider抓取是对中华机床网的Spider抓取的子集,下面我们将集中介绍对中华机床网的处理。4.5网络化制造资源爬虫的设计与实现4.5.1Extractor的定制“中华机床网”定制抓取组件主要由定制化的Heritrix解析器Extractor和后处理器FrontierScheduler组成。定制的Extractor主要功能:(1)从种子URL分析出企业列表的URL,加入候选URL队列;(2)从企业列表页分析出“下~页”的分页URL,加入候选URL队列;(3)从企业列表页分析出一个企业的URL,加入候选URL队列:(4)从企业页面,分析出企业基本信息URL和企业供应信息列表URL,并加入候选URL队列;(5)从企业供应信息列表页分析出“下一页”的分页URL,加入候选URL队列;(6)从企业供应信息列表页分析出一条供应信息的URL,加入候选URL队列;(7)对除种子URL、和上述候选URL不作处理。(8)分析重复网页URL的特点,去除重复的网页。32 浙江大学硕士学位论文第4章网络化制造资源获取4.5.2FrontierScheduler的定制定制的FrontierScheduler主要功能:(1)将上述定制Extractor种子URL和候选URL队列加入链接制造器的待抓取URL队列中;(2)除以上URL外的所有Http或Uttp请求URL不予加入链接制造器的待抓取URL队列,而DNS等辅助性URL则要加入。我们采用ELFHash算法作为定制链接制造器BdbFrontier的URL散列算法。以上是针对“中华机床网’’网站的定制Heritrix组件。除此之外,还有一些需要小调整的抓取Heritrix组件变动(如消除robot附加协议影响的组件小变动),来避免Heritrix每次总要发时间去抓取多次,避免降低效率。4.5.3定制抓取流程图“中华机床网”定制抓取流程图,如图4.2所示,图中分析网页中所包含的某类信息的URL是通过对该类信息的URL进行特征分析,通过正则表达式来匹配,提取出符合条件的URL。以企业基本信息为例,企业基本信息的页面,是通过单个企业页面链接过去的,其在当个企业页面(为html网页)的href都是形如“/company/l/index.asp?id=86757283810011”,我们就可以为其构造正则表达式”/company/l/index\\.aSp\\?id_【\\d]+.钊,在当个企业页面寻找符合上述正则表达式的字符串,然后为所找到的字符串加上前缀“www.22882.net",这样就形成了完整的Ⅵ也,将此URL放入候选UIU队列中。33 浙江大学硕士学位论文第4章网络化制造资源获取图4.2“中华机床网”定制抓取流程图4.6网络化制造资源语义标注4.6.1语义标注简介在传统Web上添加语义信息,将Web的状态从机器可读提高到机器可理解, 浙江大学硕士学位论文第4章网络化制造资源获取这是整个语义Web实现的基础。这种语义信息的添加是基于本体进行的,称之为语义标注。语义标注将推动语义Wreb走向实际应用,智能Agent能够根据W曲上的语义信息实现智能推理任务,并能提高信息检索的精确性。如果将本体看作简化了的知识库,那么从本体的角度来看,添加实例,即进行语义标注,可视为丰富本体的过程。然而,语义Web中的标注问题由于受到多方面因素的影响,变得很复杂。一部分人希望语义标注由用户来完成,因为任何机构都不可能完成如此庞大的语义标注任务。这样用户根据自己自己喜好选择本体,并利用它们来标注页面。但这种观点的缺点很明显:大量的小本体往往是异构的,这将造成在使用语义信息的过程中需要频繁执行处理本体异构的操作,给应用系统带来沉重的负担。另外,一部分人希望某些大型的机构能提供一些权威而通用的大本体,让用户在标注的过程中使用。但这样也有很多问题:本体的提供者如果被少数机构垄断,大大限制了用户使用的自由,同时创建涵盖人类多个方面知识的大规模本体又极其困难。上述两种观点都过于极端,切实可行的标注方案应该是二者的折中,既要保证标注的本体具有一定的通用性,又要保证它能满足用户的要求。涉及专业领域的本体可由领域中的权威机构统一制定,而涉及文化冲突的本体制定时可以考虑多个版本。4.6.2语义标注工具分析当前基于本体的语义标注工具有SHOEKnowledgeAnnotator,SemanticMarkupPlug—inforMSInternetExplorer,Annotea,Melita,GATE,BriefingAnnotizer,SMORE等。据廖述梅【20】等基于分析提出现有工具普遍存在以下的不足:(1)几乎所有标注工具的本体语言使用RDF(S)、DAML、0IL、DAML+0IL、SHOE或F—I幻gic,标注语言使用XML、RDF(S)、DAML、DAML+0IL或SHOE,而没有工具支持最新的W3CWeb本体语言OWL;(2)除少数工具如SMORE支持本体词汇的编辑、修改和扩充外,多数工具都不支持本体词汇扩充;(3)一个页面上的词汇往往涉及多个本体中的概念,少数工具如SMORE允许用户使用多个本体 浙江大学硕士学位论文第4章网络化制造资源获取标注页面;(4)要建立全球共享的语义Web,不同语言的用户都能使用自己的语言标注页面,然而所有工具只是英语标注,不支持多语言;(5)所有工具的标注对象为HTML页、Image、E—1Ilail、Wrord、PowerPoint及PlainText,且以静态内容为主,而Web上含有大量动态内容;(6)大部分工具采用先创建内容、后进行标注的“两步法",只有少数工具支持内容写作与语义标注的同步进行;(7)语义标注过程中本体查询、辅助推理支持及元数据产生的自动化程度还不够。最新版本的SMORE[281支持OWL语言的标注,但目前只支持部分的OWL标注,而且标注工具没有删除功能,操作十分不方便。并不适合在实际开发中使用。4.6.3语义标注设计与实现基于上述分析,当前没有合适的语义标注工具能够支持我们需的标注工作。本体一般是领域本体,标注则是针对这一领域本体进行的,于是,有可能根据领域的特征,实现标注的半自动化。另一方面,由于WEB环境的数据不规范,一下子要做到任何网页的领域化标注难度很大。我们以第三章选用“中华机床网"和“中国机床商业网”为样例,研究其半自动化标注的设计与开发。本文将针从对中华机床网获取企业信息、企业供应信息相关的网页进行语义标注,得到企业的实例,企业实例和机床实例的关联。针对从中国机床商业网获取的机床信息,进行语义标注,得到机床的实例。这些实例和关联构成了图2.1所述的个体库。语义标注工作分成两个步骤,首先是对网页进行分析,抽取出所需的语义信息,然后再根据本体对抽取的信息进行标注。目前Web信息的抽取方法主要有基于自然语言处理方式的信息抽取、基于wrapper的信息抽取、基于HTML结构的信息抽取和基于视觉特征的信息抽取。基于自然语言处理方式的信息抽取,主要是针对大量文本的网页,首先将网页中的HTML代码过滤掉,在把网页当成一般的文本进行词性标注和语法分析来建立短语和语句元素间的关联,没有利用HTML的特征。后面三种方法则利用了。基于HTML结构的方法利用了HTML的结构特征,基于视觉特征的方法利用了HTML的属性特征,如字体的大小颜色,段落的长短等。而基于Wrapper的方法 浙江大学硕上学位论文第4章网络化制造资源获取综合利用了HTML结构和属性特征。基于Wrapper数据抽取方法是目前广泛流行的数据抽取方法。一个Wrapper主要包括抽取规则和抽取器两部分。抽取规则主要描述网页结构、数据项位置、抽取步骤、转换规则、输出方式等。而抽取器是一个可执行程序,用来抽取规则,产生结果数据【29】。本文借鉴基于Wrapper数据抽取方法的思想,设计了MRISS的半自动语义标注模块,其信息抽取和语义标注流程如图413所示。图4.3信息抽取和语义标注流程·网页模板:分析大量网页信息分布的规律,提取出来的模板。我们将模板分成横向模板和纵向模板。这是因为根据网页信息分布的特征,信息规范的网站中的网页一般分为两类,一类是横向网页,一类是纵向网页。横向网页,信息以行表示,左边为信息的类别,右边是信息的具体内容,如图4.4所示。纵向网页,信息以列表示,上面为信息的类别,下面是信息的具体内容,如图4.5所示。横向网页,信息类别和信息具体内容的位置关系在同一行或者附近,比较好确定。而纵向网页,相对比较复杂,信息的类别往往以表头方式(html的table标签)表示。而table的目的是为了让用户阅读更加的方便,列名和列的内容之间并没有没有直接的关联,网页中进行会有大量的table嵌套,大量的、标签嵌套。我们需要根据实际情况解析出列名和列内容的对应关系。 浙江人学硕士学位论文第4章网络化制造资源获取详绸信息生t产品囊■鲁:开糟机,教控并檀机,数控冲床,不锈{R开槽机.金属薄板开撸机,创坑机,转堵冲库量警曩孟:生产翌罾习嵌■●■:中国E海上海市厂扈醐:占地面积15000平方米罾司业立桶:1998年主,市场:犬陆港澳台地区中末主要客户:攘人代罩E,盘蠢人:p一家林瑾曩壹盒:曼工人量:人民币1∞万10t·卸人主要最蕾地点:E海市虹口区泼水末路35I号髓晶尊:懂力磊’电器’‘焦不绣钒加工’建筑装饰-电年警业·:人民币1000万元,年一2000万元/年年出口■:^民币300万元,年一500万元,年珥置毒门人披:量量控翻:联系方式5一10人内鄙公司名嚣上海恒力锻压机庶有限公司联系人■霉#先生(锖售舒经理)地量上海上海市虹口匠波术东路35l号■编200d34电话008802l6561ll】0传真008802165363734移动电话13801055585公司主重htt☆://"_.shheⅣh88.c“是否叠供on代栩工:月产量:图4.4横向网页机斥参数准臻镪撺0芽,车库娄昔通车辟=(1)否∞台侧鬻铷18039—0。孑橼·一锅1嘞18012强1800一2l∞X—l5/2.2{,12l,035Il∞+Xl毒∞啦300’B3瑚10。-t6039—0‘尹幻彰一一。一一-。茹ool;o!s/z羁一2s3蝉搿320l∞36弧一}1一_-·一一12图4.5纵向网页·抽取规则:基于本体库中的概念、概念的属性和概念问的关联,根据网页模板中HTML的结构特征和属性特征构造的能够抽取信息的正则表达式。例如,针对“企业”的属性,“企业注册资金”,其在某一具体网页中为,“人民币3007j'</span></td>”。我们设定正则表达式为“(【人万】}万)</span></td>”,凡是匹配该正则表达式的就是可以找到我们要获取企业注册资金的位置。·抽取器:根据抽取规则从大量待处理网页中抽取信息。◆标注器:将抽取出来的信息根据本体库进行标注。面举例说明属性标注,概念标注和概念间关联的标注。属性标注对图4.4所示企业的注册资金用OWL语言进行标注,如表4.2所示,表4.2概念属性OWL标注<注册资金rd£datatype=“http://www.w3.org/2001/XMLSchema#stfing”>人民币50万<,沣册咨余>概念标注对图4.5所示的车床进行标注后,标注信息如表4.3所示,表4.3“车床”概念OWL标注<车床rdf.ID=”C6132”><名称rdf:datatype=”http://www.w3.org/2001/XMLSchema#stdng”>普通车床<,名称><型号rdf:datatype=”http://www.w3.org/2001/XMLSchema#string”>C6132</型号><最人上件直径rdf:datatype=”http://www.w3.org/2001/XMLSchema#float”>320叫最大工件直径><最人工件长度rdf:datatype=”http://www.w3.org/2001/XMLSchema#float”>500叫最人工件长度><圆皮rdf:datatype=”http://www.w3.org/2001/XMLSchema#float”>O.ol</L园度><圆柱度rdfidatatype=”http://www.w3.org/2001/XMLSchema#float”>0.03<,圆柱度><平面度rdf:datatype=”http://www.w3.org/2001/XMLSchema#float”>O.02</平面度><粗糙度rdf:datatype=”http:#www.w3.org/2001/XMLSchema#float”>1.25</粗糙度><,车床>对图4.4所示的企业用OWL语言标注后,标注信息如表4.4所示,39 浙江大学硕士学位论文第4章网络化制造资源获取表4.4“企业”概念OWL标注<企业rdf.'lD=”上海恒力锻压机床有限公司”><企业名称rdf:datatype=”httpJ/www.w3.org/2001/XMLSchema#string”>上海恒力锻压机床有限公司</企业名称><法人代表rdf:datatype=”http'.//www.w3.org/2001/XMLSchema#string”>陶家林可法人代表><企业所属地域rdf:resouree=”撑上海”/><注册资金rdfidatatype=”http://www.w3.org/2001/XMLSchema#string”>人民币100万吲注册资金><成立时间rdf:datatype=”http://www.w3.org/2001/XMLSchema#string”>1998年</成立时间><联系人rdf:datatype=”http://www.w3.org/2001/XMLSchema#string”>陶家林先生(销售部经理)叫联系人><公司地点rdf:datatype=”http://www.w3.org/2001/XMLSchema#string”>上海上海市虹口区汶水东路351号</公司地点><邮政编码rdf:datatype=”http://www.w3.org/2001/XMLSchema#string’t>200434可邮政编码><电话rdf:datatype=”http://www.w3。org/2001/XMLSchema#string”>00860216561110</电话><传真rdf:datatype=”http://www.w3.org/2001/XMLSchema#string”>008602165363734</传真><,企ib概念间的关系标注上海恒力锻压机床有限公司供应型号为PG02K的机床,我们对其标注如表4.5所示,“拥有机车”是企业概念和机床概念的关系。表4.5概念间关系OWL标注4.7本章小结本文在分析当前网络化信息获取方式的基础上,提出了定制智能Spider的可行性方案。分析典型的网络化制造资源I'-JP网站,在开源SpiderHeritrix的基础上,进行定制和扩展,实现了针对目标网站进行抓取的智能Spider。并根据网页信息分布的特点,完成了半自动化标注工作。 浙江大学硕士学位论文第5章网络化制造资源智能检索5.1智能检索总体结构5.1.1多层次智能检索模型在MRISS系统中,我们建立了一个多层次的检索模型完成信息查询,以此克服目前制造资源检索方法的不足。多层次检索模型【2】,其智能化程度逐级递增,用户可以一种统一的查询方式进行检索,系统内部处理过程对用户完全透明。该检索模型结构可以分为四个层次,依次分别为:◆精确检索:实现与用户查询需求进行精确匹配的检索功能,并解决相关实例信息处于分布状态的跨页面检索。·语义检索:采用基于本体的语义检索方式,能检索出与用户查询中所表达的概念具有同义、上下位等语义关系的实例信息。●模糊检索:可以接受用户查询中的模糊量。●智能推理:能根据用户查询所表达的蕴涵信息进行检索。上述各种检索技术之间并不互斥,是一种相辅相成的关系,如图5.1所示,通过模糊扩展对模糊查询量精确化,在此基础上根据本体中的语义信息,实现语义扩展(包括同义扩展、语义蕴涵、语义外延和语义联想),采用精确匹配结合智能推理,最终完成检索任务。检索需求语义蕴含语义外延语义联想检索结果图5.1多层次智能检索模型4l 浙江大学硕上学位论文第5章网络化制造资源智能榆索5.1.2智能检索总体结构智能检索总体结构如图5.2所示,旧查询树l卜义}卜SPARQL.转换器⋯Q铲‰擎茵.I甘Ⅱ.Il}结果组装器}.端数据库卜l固圆l固固Jena持久化数据库SPMCQL酉词结果图5.2智能检索总体结构·查洵和推理模块:包括模糊转换器,Jena推理机,JenaARQ查询引擎。模糊转换器,在领域知识库和常识库中查询模糊量的精确值,把语义查询语言SPARQL中的模糊量替换成精确值,生成精确查询的SPARQL。Jena是丌源的,用于创建语义网应用系统的Java框架结构。Jena推理机实现了同义扩展、语义扩展和智能推理。JenaARQ对Jena推理机推理后的结果进行查询,得到SPARQL形式的查询结果。·数据库:包括领域知识库、常识库、本体库和个体库。其中本体库和个体库是用Jena持久化接口进行存取和更新的。·语义查询前端:传统的搜索引擎前端不适合语义查询。为本文设计了一个图示化的具有语义导向的查询6仃端。界面上包含了查询树,概念树,属性表,关联概念表,语义查询结果等。·前端交互接口:负责语义查询前端和查询推理模块的交互。包括向前端提供概念树、属性表、关联概念表的本体封装器;将SPARQL查询结果形式转换成适合用户阅读的语义查询结果形式的结果组装器;将用户提交的查询树转换成SPARQL查询语言的SPARQL转换器。42 浙江大学硕士学位论文第5章网络化制造资源智能检索5.2相关技术介绍5.2.1Jena简介Jena是来自于惠普实验室语义网研究项目的开放资源,是用于创建语义网应用系统的Java框架结构,它为RDF、RDFS、OWL提供了一个程序开发环境。是开源的,在下载的文档中有Jena的完整代码。Jena框架具体包括,用于对RDF文件和模型进行处理的RDFAPI,用于对RDF、RDFS、OWL文件(基于XML语法)进行解析的解析器;RDF模型的持续性存储方案;用于检索过程推理的基于规则的推理机子系统;用于对Ontology进行处理和操作的Ontology子系统;用于信息搜索的ARQ搜索引擎。Jena的这些组成部分在解决语义网环境下语义检索中各司其职,起到重要的作用,其总体结构【30】如图5.3所示:图5.3Jena总体结构图43 浙江大学硕士学位论文第5章网络化制造资源智能检索●Ⅺ咀n①F解析器资源描述框架是(RDF)是描述资源的一项标准(在技术上是W3C的推荐标准),Jena提供了RDFAPI,包括了RDF模型的创建、读写、查询等操作,以及RDF容器的操作等。●Ontology子系统【31】Jena框架包含一个本体子系统(OntologySubsystem),它提供的API允许处理基于RDF的本体数据,也就是说,它支持OWL,DAML+OIL和RDFS。本体API与推理子系统结合可以从特定本体中提取信息,Jena2还提供文档管理器(OntDocumentManager)以支持对导入本体的文档管理。●RDF模型持久化存储1321Jena2允许将数据存储到硬盘中,或者是OWL文件,或者是关系数据库中。关系数据库目前支持MySQL,Oracle,PostgreSQL,MicrosoftSQLserver。Jena2缺省的关系数据库存储方式采用一种不正规的存储资源的方法,把资源直接存入声明表中,这种方式以更多的存储空间为代价,使得插入和检索数据库具有更高的性能。同时,持久化子系统,来支持FastPath算法的能力,来提高SPARQL的查询效率。●ARQ查询模型Jena2提供了ARQ查询引擎,它实现SPARQL查询语言和RDQL,从而支持对模型的查询。另外,查询引擎与关系数据库相关联,这使得查询存储在关系数据库中的本体时能够达到更高的效率。●推理子系统【33】Jena2支持基于规则的简单推理,包括Transitivereasoner,RDFSrulereasoner,OWLMini/MicroReasoners,DAMLmicroreasoner,DAMLmicroreasoner,Genericrulereasoner。同时Jena2可以接入DIG标准的推理机,包括Pellet、Racer、FaCT等。 浙江大学硕士学位论文第5章网络化制造资源智能检索5.2.2SPARQL简介SPARQL/341是w3c的workingdraft,很可能成为推荐标准,其综合各种查询语言RQL,DERQ,SeRQL等的优点,功能强大,得到Jena开发者大力支持。在W3C的官方网站上明确提出,如果可能的话,应该尽量选择SPARQL。SPARQL是通过图形化模式匹配实现对多个RDF图的查询的,其基本模式就是三元组匹配,通过匹配得到查询变量的数据值的对应关系。这种对应关系在SPARQL中成为“绑定"(binding)。SPARQL的语法形式与关系数据库中的结构化查询语言SQL比较相似,但仅仅是语法形式上的相似,两者是有本质区别的:SQL是基于关系代数模型来构造查询的,而SPARQL是基于图的模型来构造查询。整体上来说,SPARQL语句可以分成四个部分:声明部分,结果集,数据源,查询模式。下面以一个例子来简单说明:例5.1SPARQL查询PREFIXmr-SELECTDISTINCT?y?z7XFROMWHEI迮{?xmr-拥有机床?z.?】【mr:企业所属地域?y.?ylilt:所属地域mr;广东)声明部分在RDF数据图中包含两种基本的数据类型:一种是Literal(文字型),它主要用来表示一些文字类型的值。另一种是IRI(InternationalizedResourceIdentifiers,国际化资源标识符),用于表示Intemet网络上的各种资源实体。人们可以通过IRI找到对应的资源,并从IRI子节点中获取资源的具体信息。IRI的语法结构可以分为前缀和局部名称两部分,通常IRI的前缀比较长书,人们就用简单的词作为前缀缩写。声明部分主要声明前缀的缩写。如例5.1中,PREFIXlllr:就是前缀声明。结果集SPARQL查询语法中规定了四种结果集形式,它们分别是:SELECT,CONSTRUCT和ASK。SELECT结果集以一张表的形式返回所有匹配的结果,45 浙江大学硕士学位论文第5章网络化制造资源智能检索表的列是变量名,每一条记录表示一个的变量绑定。CONSTRUCT结果则是每一条结果记录表示成为CONSTRUCT子句描述的图的形式。DESCRIBE结果集是只SPARQL查询处理器对某一个变量进行描述,具体描述的内容由查询处理器的实现来决定,SPARQL语法标准中没有规定。ASK结果集询问当前查询是否能成功匹配,如果成功返回YES,如果失败返回NO。在这四种结果集中,最常用的是SELECT结果集。数据源数据源部分相当于SQL中的FROM子句,它规定了本次查询的RDF数据集。数据源中一般会给出几个RDF文件的IN引用,SPARQL查询处理器可以从相应位置获取这些RDF数据。数据源在SPARQL中通常是可以省略的。查询模式查询模式描述了一个查询子图,这个图中包含SPARQL变量和一些约束条件。查询处理器依据这个子图去搜索RDF数据集,并返回匹配的数据结果。与RDF图的表现形式一样,SPARQL查询模式也是由三元组组成,另外为了实现一些基本的查询约束,SPARQL语法标准还规定了一组条件谓词:比如像ORDERBY,DISTINCT,LIMIT,OFFSET,OPTION等等。5.3多层次智能检索的实现5.3.1模糊扩展用户在查询时,有时并不知道应该如何准确的描述他的需求,比如他要查找“国际领先的车床’’,“国际领先”就是一个模糊概念,我们需要运用领域知识对查询中的模糊量明确化,并进行查询扩展的方式来实现。一般分为以下两种情况,一是,查询中出现的模糊量在工程领域中有较为明确的精确量可以对应,因此,这种类型问题的解决方法可以通过知识库中的映射规则,将模糊量替换为精确值,从而构造出有效的查询图。例如,“高加工精度的车床,它的加工精度中表面粗糙度一般应≤0.8微米”这样一条规则,就可以将“加工精度高的车床"映射到车床的加工精度中表面粗糙度上进行量化处理。二是,查询中出现的模糊量,在工程领域中没有很确切的对应量,但它的上下界是较为明确的,因此,可以将相关的模糊量划分为若干个词集,并分别映射 浙江大学硕士学位论文第5章网络化制造资源智能检索到相应的区间值来处理。我们需要为模糊量提供领域知识支持,我们选用“中国机床商业网’’上的机床精度参数(http://www.machineotrade.com/canshu/jingdu.html)资源,其定义了“国际先进”、“国内先进"、“国内一般”、“国内落后"标准的主要参数限制。我们将上述资源提出成领域知识,用户可以直接在查询前端查询模糊量,服务器后台依据领域知识,将模糊量转换为标准量进行精确检索。5.3.2语义检索语义检索是在精确检索的基础上,通过语义扩展,实现同义、上下位和平级概念的检索。同义,就是语义上是完全等价的,当用户查找一个资源的时候,搜索引擎应该自动给出其同义资源。比如,用户查找“车床"的时候,除了返回“车床”的搜索结果,同时返回“用户加工各种回转表面和回转体的端面的机床”的搜索结果。在OWL语言中,概念之间有owl:equivalentClass,实例之问有owl:sameAs,属性之间有owl:equivalentProperty,这些都可以用来表示同义关系。下位概念,也就是语义的蕴含。比如,用户查找“机床”,除了返回“机床”的搜索结果,同时返回“车床’’、“铣床"、“刨床’’等。在OWL语言中,概念之间有rdf:subClassOf,属性之间有rdf:subPropertyOf,这些都可以用来表示某个概念的下位概念。上位概念,也就是语义的外延。比如,用户查找“车床",除了返回“车床”的搜索结果,同时返回“机床"等。在OWL语言中,同下位概念一样,概念之间可用rdf:subClassOf,属性之间可用rdf:subPropertyOf,这些都可以用来表示上位概念与下位概念之间的关系。平级概念,也就是语义的联想。比如,用户查找“车床”,除了返回“车床”的搜索结果,同时返回“铣床"等。在OWL语言中,没有直接的语法支持,我们可以通过自定义一个brotherOf的属性,来表示,并且让brotherOf具有传递关系,我们也可以通过查找一个概念的所有儿子,则这些儿子之间就具有平级的关47 浙江大学硕士学位论文第5章网络化制造资源智能检索系。语义蕴含、语义外延、语义联想,有些时候并不一定是用户想要的,我们在查询前端,将会提供给用户自行配置的权利,给用户查询的提示。5.3.3智能推理在owl语言中,推理包括在语义检索中所提到的owl:equivalentClass等,还包括概念的owl:disjointWith,实例的owl:AllDifferent,owl:differentFrom,属性的owl:TransitiveProperty,owl:SymmetricProperty。支持OWL的推理机有许多,包括Racer、Pellet、Fact++等,这些专业的推理机功能强大,其支持OWLDL。OWLDL计算完备,推理具有可判定的最大表达能力,但是处理复杂,因而处理机大都运行速度比较慢和耗费资源比较大。本文采用Jena2自带的推理机,其功能和上述专业推理机相比较弱。目前只支持OWLLite,少部分的OWLDL和OWLFULL,而面对OWLLite的推理能力,符合本文的要求,在处理一些简单的推理问题上,具有较好的运行性能。同时Jena2具有一系列的推理机,允许多种推理机迭代,以取得更优的性能,因而用户可以根据具体的实际情况选择合适的推理机进行推理。Jena2包括如下几种推理机【33】:RDFSreasoner、OWLreasoner、Transitivereasoner、Generalpurposeruleengine。其中OWLreasoner又包括针对OWLFull,OWLDL,OWLLite的多种推理机,我们可以根据实际需要选择。而Generalpurposeruleengine允许我们自己定义规则来进行推理。这使得我们的推理机可定制,使用更加的灵活,功能更加的强大。5.3.4精确检索在Jena中是通过aRQ模块完成的,其查询接口为Queryquery=QueryFactory.create(rule);Opop2Algebra.compile(query);Querylteratorqlter2Algebra.exec(op,ontModel);其中rule是String类型,为SPARQL的查询语句。48 浙江大学硕士学位论文第5章网络化制造资源智能检索5.4语义查询前端设计查询前端为终端用户提供与系统交互的接口,它接受用户提交的查询参数,向检索引擎发出查询请求,并将检索结果集返回给用户。在一个检索系统中,提供方便、灵活的交互方式给用户是非常重要和关键的。传统的搜索引擎是基于关键字匹配搜索的,界面上只提供简单的文本输入框;垂直搜索,也是基于关键字匹配搜索的,界面上会有多条件组合搜索;这种基于关键字的搜索界面,不能体现语义关系,并不适合具有语义的智能检索系统。MIRSS提供了界面友好的、具有语义导向的语义查询前端。如图5.4所示,为界面的截图,其中,左边为“制造资源本体树”结构。中间采用Tab的形式,包括“当前概念的属性”Tab,与当前概念相关的“相关概念”Tab,“查询结果”展示的Tab。右边根据中问“当前概念的属性”Tab编辑生成的“查询树”图。用户可通过“制造资源本体树”选择“当前概念”。通过“当前概念的属性”Tab编辑要查询的条件,和查询结果,通过“相关概念”Tab关联到其他概念,然后把所有的查询条件和查询结果添加到“查询树”中,从“查询结果”Tab查看查询结果。文件证)糠氆唾】王●∞收一值)工^q)糟勘∞耖囝一?治蔓麓彩/%,’;l嵌献黪。j·函《t¨,缴臻镕i。固ntP,,12Tool∞∞,_竹/”io转割ic““瓤·,Ttq_f鼍懒曩9V加工设鲁-J1节机席jy“∞岍Ⅸ—■车库●■库豢加工中心■,立斥—●■警吻Ⅱ工机厍●怙床_宅自旺机*●矗障'蠹茸蚀切削札席lRE●斛障●●t床●●E庠●由●&加工札库●移●e机-■幢压硼g'.爵谴机镰●节帆席_k工秘鲁●全业图5.4语义查洵前端49 浙江大学硕士学位论文第5章网络化制造资源智能检索5.5前端交互接口前端交互接口包括向前端提供概念树、属性表、关联概念表的本体封装器;将SPARQL查询结果形式转换成适合用户阅读的语义查询结果形式的结果组装器;将用户提交的查询树转换成SPARQL查询语言的SPARQL转换器。其中本体封装器、结果组装器的实现相对简单,下面我们着重介绍SPARQL转换器。本文采用SPARQL作为语义查询语言,但是要求每个用户都懂SPARQL,并使用SPARQL进行查询是不方便的,也不合实际的。需要提供一种用户易于理解和操作的方式进行查询,并且把这种查询转换成SPARQL语言。本节将设计一种数据结构——查询树,其可方便WEB前端用户查询。用户可以将自己所要查询的概念,属性和属性之间的关系,在查询树上清晰的展现出来。而从查询树到SPARQL的转换成了关键的一步,其转换是是否等价,影响到查询语义是否完成传递给SPARQL,其转换的效率影响到WEB服务的反馈速度。下面我们首先讨论查询树的形式化定义和结构设计;然后讨论查询树到SPARQL的转换;最后讨论换转后SPARQL查询语句的效率优化问题。5.5.1查询树的定义查询树的形式化定义:<查询树>::=<查询子树>f(<查询子树>,<关联>,<查询子树>)<查询子树>::=(<概念I概念>,<属性>{<属性>))<属性>::=(<属性名>,<条件>)<条件>::=(<约束条件>,<约束值>)I<结果><约束条件>::==>I::=”?”<属性名>::=字符串<关联>::=字符串<概念>::=字符串<约束值>::=字符串l整型l浮点型上述<概念>对应OWL语言中的class,<属性>对应OWL语言中的DataProperties,<关联>对应OWL语言中的ObjectProperties。50 浙江人学硕士学位论文第5章网络化制造资源智能检索5.5.2查询树的实现查询树是一棵树,我们的查询树具有三种类型的树节点,一种是概念节点,一种是属性节点,一种是关联节点。每个节点定义一个类,同时它们有一些共性,让它们都继承自共同的基类。其类图如图5.5所示,每个类的类图分别如图5.6,图5.7,图5.8,图5.9所示。图5.5查询树相关节点类类图彩Q∞归蜊掀£nag:孓ljngget|bmeO:量lingseUJa雌(.nname:9nnq):voidsetFathei(infaff,eI:q自yTi℃dbde』:∞dgetFather(J:4eriTIedbdp毒d00:g彰嚣:^#0.咎荸乃靶}七djjj霄■,jm甜}。:#彰圻:hgd.i≥停师孽jbd髟1饵ds酋盘0e蹙ltn:t0垂t二.L·譬《善e}’fz鲁型瓷盘薯:t总,亡;时。:社曲鼍-0b:‘譬掣y-昙j?划j,图5.6QueryTreeNode类图谬_。l_鼬神螂麟翻H摊垮蝴醅:#chilo|rm:Usc卿elYTree|bde>#vari士le:char移set.1iable(inⅧliable:ch却:∞|d象get均daWe0:ch封蟹adldchild(inchild:qe'yTi‘eel每de):∞|d垮geKbildmn0:u吼《QelyTm,ellode>皤lemave01ild(inchild:(扣日’yr,∞『电de):∞IdesetCNkh硼(inchildltn:Li‘t诌『_∞o№曲喊Inchild:qdyTltdb蝎:void0setChildmnOnchildmn:Ustj:∞.d辔is陆s汕F|a90:boolean落s宣ResultRag(.inoesultRacj:boolean):void诤getVlue0:9ling移s宣VJue(invalue:9ling):void图5.7QueryTreeDataPropertiesNode类图◇伽d’1睡西两tpl呷叭i匹Nod2一childmn:listaddG’itdOnchild:qet巾dk,de):v。|dtjetChild,en0:List哎ueryTreelbde>Itm垤西i旧onchild:QJe呻tefl划e):voidset曲ildren(inohildl‘郇:Ust确ueryTrteI、bde>):~o.d图5.8Que叮TreeconceptNode类图图5.9QueryTreeOjectPropeniesNode类图5l 浙江大学硕_L学位论文第5章网络化制造资源智能检索QueryTreeConceptNode为概念节点,只有这种类型的节点能成为查询树的根。其儿子可以为QueryTreeDataPropertiesNode,即属性节点,或QueryTreeObjectPropertiesNode,即关联节点。其父亲节点可能为空,也可能是QueryTreeObjectPropertiesNode。QueryTreeDataPropertiesNode只能是QueryTreeConceptNode的儿子,并且没有儿子节点。QueryTreeObjectPropertiesNode只能是QueryTreeConceptNode的儿子,并且其儿子节点必须是QueryTreeConceptNode。如图5.10所示,是一棵的查询树,图5.10查询树此查询树中,蓝色节点表示概念节点;黄色节点表示属性节点,黄色节点中有“?”符号表示,此属性将作为结果集的,没有“?”符号表示是查询条件;绿色节点表示关联节点。此查询树的语义是,企业拥有机床,且机床型号为“CJ0708”的企业,查询该企业的企业名称和电话是多少。5.5.3查询树到SPARQL的转换算法5.2.2节中,我们已经对SPARQL的语法进行了介绍,SPARQL查询语言中最重要的就是结果集和查询模式,下面结果集用result表示,查询模式用condition表示,下面将介绍从查询树到SPARQL转换的算法流程,如图5.11所示。 图5.11查询树到SPARQL转换算法流程图将图5.10中的查询树用上述算法进行转换,假设variable的初始值为,a,,则转换后result为‘。?b?c”,condition为‘‘?alllr:企业名称?b.?aIIlr:电话?c.?a53 浙江大学硕士学位论文第5章网络化制造资源智能检索mr-拥有机床?d.9dnlr'-型号“CJ0708’'从xsd:string"。同时我们构造常用的前缀声明,如下,PI迮FⅨ1111";PREFIXrdf:PREFIXrdfs:PREFIXxsd:最终构造得到的SPARQL为,PREFIXmr;PREFIXrdf."PREFIXowl:PREFIXrdfs:PREFIXxsd:SELECTDISTINCT?b?cWHERE{?amr"企业名称?b.?amr:电话?c.?anlr:拥有机床?d.?dmr:型号“CJ0708”^Axsd:string}SPARQL查询语义的优化:转换后的SPARQL的运行效率的好坏,严重影响到WEB服务的反馈速度,影响着用户的体验,所以对SPARQL语句的优化是十分重要的。依据HumBoldt.University的RalfHeese和OlafHartig提出的观点f3卯,我们对查询树转换所得的SPARQL语句进行了如下调整,以优化查询效率:·将含有相同查询模式变量的查询模式,放在一起。·将含有确定条件的查询模式,放在最前面查询。◆将SPARQL中OPTION放在最后。5.6本章小结本章分析总结了目前制造资源检索方法的不足,提出了多层次智能检索模型,此模式可以克服目前方法的缺陷。然后,目前流行的语义程序开发环境Jena。使用Jena的API,进行多层次智能检索系统的持久化、检索、推理的设计和实现。提出一种为方便用户查询使用的数据结构查询树,并讨论了查询树转换到SPARQL的算法,并对转换的SPARQL进行优化,提高了查询效率。 浙江大学硕士学位论文第6章运行实例6.1开发平台和工具介绍开发平台1.硬件:CPU:P42.4G,内存:768DDR;2.操作系统:WindowsXP;3.IDE(集成开发环境):Eclipse3.2+JDKl.5:4.W,eb服务器:Tomcat5.5:5.数据库:MySQL5.0;6.开发语言:Java开发工具1.智能Spider:网络爬虫Hefitfix2.本体建模:Protege3.33.语义持久化和智能检索:Jena4.框架:Struts5.语义查询前端:Ext26.2运行实例运行实例一:考察精确查询:查询企业名称、企业电话;企业名称包含“机械"并且企业所属地域是广东佛山。如图6.1所示,在左边“制造资源本体树”中选择“企业”概念,在中间“企业概念属性"Tab中编辑企业名称属性,选择“企业名称"和“电话"作为查询条件,点击“构建查询树’’。如图6.2所示,在中间“企业相关概念属性"Tab找到“地域’’概念,编辑“地域"概念属性,并且“添加到树"。如图6.1所示,此时右边显示当前的查询树,点击“查询”。如图6.3所示,查询结果以列表方式显示,每一列有具体的含义并且具有出处的URL。 浙江大学硕卜学位论文第6章运行实例文件哩)学粤甜凹历史卿书签哆冀9即粤彩-:一一,,’辔~凳j-mP,,⋯otooeo/w⋯≯秘j镞;》,。LjLj-i“竹‘-·di‘。}tt^d一‘o免赍Hot=tilo自觳鼍接蔷谥黼筒蠢鬻㈥筝—笤≯i鞘簖黼鼗麓嘲嘲i戮iF飞^+⋯”6一”⋯’~“⋯4”:●尘蠢■I冀:拳童辫s穗老i■q鼍jy灶曩一l鬟舞2叵》矾葺,R要l蔷到嚣玉鼋尊一共斟蠡●t吐名韩r祝罐-静电话蚌电l舌L凤鼍1k圭止所^地轼糖寓业育隈2—08607s72∞”763嘣!竺!!!兰曼骘旦堕生苎掣壁t!望要圭璺垦旦至!聋氅!12:^j节悬杖镬’些堡墼堡墼墨!塑篓套>”M,m。,铷。遥还婴徽—卿m州Mx脚№∞哪’竺里孽多◆雀巾?$蚌、引螺山帅●蚓匿均邦抚坛青■2一器075722221282j篮衡281j忡仇州22882嘣七岬竹n●、aexa印,由860757搿2B爿22208261’靠山棚■《区阵村锗惦力托糖吐曹■86075723302978懂p加rww22882州枷阿1y^触xa印?d-860757233029781;矗山啊■蚓叵州性璺力茸托碡拴奢苷860757捌97∞怖胂h州忽辞2删七帅州^触x8妒咖8607钉2矧97061.矗山栅■董匹掉什t矗,4椅帆桂拴奢桥∞07钉25洲玎帅$^一tww22赞2rdt呻荆^tdex髂p,bt8∞757255444771.*山删■制基忙蕞并力tK撼厂孵075726151290P衄肿ww搠2netk:ompen’'rt■1曲z8印'd·8印757篇1512991.蠢山市■■叵鼍定帆糖蜜生宥鼹2一嘶075726320728P曲x伪州22882rdt删甲州n々’由xB印7啦B邮757∞3∞r28t.靠山巾一鼍匣幢拉伴怿木I帆蕞广88075727335668怖//v,c^^,,v22882rd幻煎岬n蚰z瞬p,咖8807s727∞s668'.冉山巾■驯E甜聃t★■t司嘶0757:27336865}tttp/,WWW22882rEttcompemfn■性x^妒咖0∞75727336∞s1.tR,山竹■鼍色佗藐置麓托*群虐孵075727727041P却肿,ww五∞2舭0盯娜^^-,cle.xasp,b-a∞7s72丌270411.儡山巾一矧匣佗珏埘曩膏年z帆艟厂∞075/'2772'舶27/'137155234忡,~州22882删ton州nft‘lexasp?ld=86075727726627113715527,-矗山栅■花E怆敖量王木工|阢挂f1巾椰嘶075721883711mp加|ww丑明2暇£帅panyH^’匏x州∞,啦860757278837”’.崔山啊詹鼍匹怆投蠢阿木r帆麓垃考椰86075727883E06mp脚删22882r州cornpenyn桃x5sp?K1=86075727883日061;艟山m■蠢尽粤接重t帆■厂e6075728319433f26163659惭加rww22882呲呷∞ny^flrKkxo砷’啦a∞75728卅943312616355争矗山■詹蚓E軎惟●选帆薯厂衢075728803210忡黼v”Ⅳ22∞2喇七∞p州^枷ex,砷’出髑W57剐2’0t.啦山啊甩蚓!哮承托t害业胄珥2一辨075728805309脚”“"Ⅳ22882嘣t帅刚^■啦ze印,蜘哪572髑05,吲.瞬山啊■鼍巨薷t托挂堙;胄阱公一韩075728∞s%7怖脚ww2埘2删光明刚n^’赴ya印,由鲫7572嘲0536列.鼬L竹席詹斗山艟援广衡07578。御∞26恤脚棚盖∞2腱批哪荆月m出f日印,蝴D,57∞甜。5251.*山啊啊I=J'E早鲥华柏抚桂噎矗挫曹都%075781搠∞9帅IfⅣww丑钓2呲呷删ynk-dex.e々)?d=66075781281拥钔.v曩主{牛下在相七直雠,蠹由‘,珏!苞,,一22382n“,c唧如y,1,lnd“·‘矿ld=∞昕TTl35鹋gTsB92r’二)tt一。bo 浙江人学硕士学位论文第6章运行实例文件屯)臻曩∞t着理)历史∞书簦哩)TA嘿)话助q!)‘0,⋯’◇忿o-tu,,一。”一,I.-,。》’蟊霸·;,·。。j,^“押,h越‘“ti^“-‘。』免费M.tIulo目定义蚺_j刚眦曹啦劐糟铂瞻弓I擎国in謦山带囊艇韵旺瞰溶嘲t。#:I_l,●mrI々¨tmE.7|.-1Lq蕞囊lI牛静一“蕈赢-t^性茁_婀聋蓓孝:琶婀舒警j_-毒蠹蝻■。曩。?蜷。节”T帅魁抑毫毫由#i豫。,j。搋i4,惫婶+J’r韭皿j,制造崔■’。~一’”j““謦盘业名悻#碱_y加z谊毒-蛀寰,!堕t罐量生●电话j丫托庠毗/一般矗拽J‘~企业疥^蛙埴J》盘_切I¨u囊篁_’一一’+j平毫胜d,怠垃_》能轨■用进平五娃簟奢巾’÷扭州::嚣聃息觚*矾。{;絮一。~一、j节f£鬟善·太r作直羟平壹性◆苗度,:,;二。衍一t.)M、◆橙且平蠹度,币直嚏簟$硅’~一一一/7。謦刀且g肆鸯牲●史且●走z棒长度瓷鼍人羞囊叠社×车鼍嚣:::嚆*度:f<矗了~j,*t—O性。~~~一+。[虱[圈寞笺巴宴傩下位撮毫直由,聋矗文件哩)媾辑旺)簪哩)历暑焦’j警电)工|!I_q)帮助世】2~夕;e卜垒l矗e.p1/12'700l㈣舳,,二》滚t●Iind州-hdi·o-I^枷-k●蛆舶慷ul。。l臣定义-晦。眺位椎壹船蕾投引擎国毽嘲溯畔暑婵黜碱三嚣?蕊鲤嘲栅瞰_黼黜穰。~渤。,●■__⋯⋯一~~一~.一一^?q糠岔晨哇4#孵弹¨礓幺蛊●峙,‘‘一。爱l甍是l垂#,;!×眬ꎀ簚顎×蝷紑詟襽詟吐鲁晦谭强度悻┃RL山_一矗笆博B囊挂当业:0757﹢×ꎀ紑簟쬂×踿硛磤蓘×襽葊硛飥纮飥還絸××纮ꆀ觻紑ꆀ××ꆀ××竴ꆀ×鄝×祤ꆀ還簚祤縺諃┃体山市一E巨障H佳辩一867:巧54770005§适卓耳忡肌~22882州址on荆n^'啦。豫呻60757删“丌1.埔P 浙江人学硕上学位论义第6章运行实例运行实例三:考察语义蕴含:查询金属切削机床的型号和名称;条件是金属切削机床的型号包含数字6,查询金属切削机床的下位概念。如图6.6所示,从左边的“制造资源本体树”可知车床、磨床、加工中心等都是金属切削机床的下位概念,界面的右边要选择“支持下位查询”,图中,显示了查询结果的第11页,包括了电加工机床、插床、齿轮加工机床、锯床。文件哩)黼嘿)壹看鬯)历史笆J书薹哩)工曼辽)吊勋∞t0。‘一’群.垒_ht⋯tp/J’1参27I.01.0.j1赢,*一二jt幅i逸隆,|II-≥,己--nd竹’-t越·.jWindows,二免费llot·ul0自定义链麓誓毫誉-毒簟“7毫鞋H目a鲤"詹t置哆盘甚辨}#,姆f蓐t矗●畸摹●毒蠢蠢棒)>j节Ti{{甄ll夏共ll夏,。⋯要示茹:s1幕鲥25}务试录,一筅:6々幕j.r盒R研鲥·_L童j节卅鼍瓷霸型’I噎名摊簟名特晰716^电^《光电窜辞考.研科托瘴f岬16)劓托康哇圻蝴cFl口T出。篁D.们625碍奄量控疆崖{t缱研撇燕●‘廉DH丌6:心髝×蛝纮眬一一﹢襽:,—'≮j鬲蠹舀帆^5┃t用■I托专用抽§Ⅵ专用虹齿帆\斛托庳t2┃逸如直专蛇州齿托﹢!斟式攘戚谴齿W蠹崮,帆⋯姊奄麒斌盘异誊自砖一一’o 浙江大学硕士学位论文第6章运行实例文件哩)售辑嘿)查看凹历史堡)书整哩).TJr∞增助凹穆’。1◇垒_¨.,,t¨吖。。嘲一一,I_-》{溢雕。,,}。ijj’·“¨-h“·0fIn如“u免费Hohul0自定义t接一鼍誊■幸簟“。盘l辛毒募Ⅱ々世摊曾聱嚣誊矗疆鼍●}t毒●辫’hjrltrq。{。蔓I薹舞抖薹,鲫,一j示芽i紊纠2s辛记录,一是s∞象j节圭to,卅造眷■—It垒矗名肄_-加工堙;雌名棒吼j’‘垒谴新鼻毫域_缸r艺萎3膏靠啊翱生王托康青曩2一忖【p=批~州22∞2肛№舯∞州^^性x帖p喇10螂71631778£囊j蔓托蚱~~一●i§-台州巾三轰帆庶附忙青■公司呲口,h1州趋吼m恍删州月td酞&spl扣0086057嗨96857:f●-吉巾.砖#一_)叠竹哪‘蔓.瞩厂啉E,^”Ⅳw趋∞2nd≈舯p州月^-.电x嚣p_扣0昕0576铝,。9011~一一直阳广酏薯厂mF,Mw22882州七呷刚n眦x够妒珏188021134727467;量崎巾巾t髅晰忙厂mF胁”Ⅳw22曰82nd七呷p州n^。deo鲢p忡8∞S1∞23507491电安日开托挂厂Ⅲp,^n州22钓2nd患州肇州n膏'dex∞p制-穹60517639653601站暖膏爱托挂膏■2司http,~州州22昭2neLtom州月■’电x舱p谊I·8∞523289s5鲫.窜m基岫‘船帆制■2司kdtp/f,wcww复882m址D『1州n^恤x鹋删=8∞5705”O,001.旺山啊博聃压撬庳挫奢掉忡,^v、Ⅳw∞∞2n醢tof_肇∞y^t愀特p加-86057∞7816吲.捷州膏¨^龟青曩2一http:/⋯丑∞2nd≈棚帕州n^’电x熊p铷删571228197"Z5’坑州盒#盏经艟庳青■2一htlp:lhvww22862嘣柚呷晰^^恤x螂加=∞0571631们6鲫直睹带疆置键t膏隈2一忡”Ⅳww盈ee2nt≈omp州^触x∞p喇-850S71631532921★日膏蕈坎囊职厂Ntp:/~vww22a82ndRd呷州n拙x豁p≈dt啪0s7'632768671蕞押盒i,L廓膏矗2一http"/fw'w'w22自82嘲船)呷d州n拙xasp'hd=88n571633314061§竞覆飞坟袁脯磕善厂http:/~v.ww22882.nd./compew,f.■,dexscp?td=描05716”349731乜童啊百阳梗且帆麓埘遗广httpHw、^,w2盈82n乩bWp州H胜z特p铷捌s71637邹52s1B壹^破五垒广rdp肿州盈∞2,一船硼蝌wn批x髂p州=860s716弼107911缸童冉叠誊m爵柞厂呲p:mrww22∞2呲。rr忡nynt座×摹sp_,ldIe60s7163辄53601B童芰伦电■岢硪2研慷pmⅣww趋鹋2埘t。m埘州n^'把x皓口啊=860571639814951桐庐一靴利足作r嘲口脚州22盼2nd衄肌F琦唧川h虹啦p,¨=860571642402761建崔m辩力蕞拄帆t宥鼹岂一ⅢF,^v删2"2882net/compenytlt-曲x酵p州-8∞571645㈣11抗州千岛_汇事蕞挖F哼制造青硅2一Pttpmv^w22船2nd血伽∞日“Y^_'岫z酊p,d-86057164毛885781v[3主捧下位量士t肯,叠矗http//12T0I.删,,竹,,no6.3本章小结本章对方便灵活的语义检索引擎的语义查询前端进行了设计,说明了本系统的开发平台和工具,最后展示本系统的运行实例,从系统的运行结果可知,本系统实现了基于语义的网络化制造资源的智能检索系统的目标。60 浙江大学硕士学位论文第7章总结与展望7.1总结网络化制造可以使企业间的合作效率更高、成本更低,资源得到更充分和合理的利用,因此,对于提高企业的新产品开发能力,快速、低成本地制造产品能力等都具有非常重要的意义。然而网络化信息表现形式多样,结构化程度低,不是机器可理解格式,获取困难;而传统搜索引擎,只针对关键字匹配,不具有语义,影响了查全率和查准率。因而网络化制造资源的智能获取和查询,成为制约网络化制造技术发展的一个瓶颈问题。在这样的背景下,本文提出了一个基于语义网技术的、制造资源智能获取、智能智能检索的原型系统MRISS。本文的主要工作和研究成果如下:(1)研究了网络化制造本体的内部组织结构,将它的组成元素抽象为概念实体、概念属性以及概念间关系三种类型,进而结合制造系统特点,又分别对它们进行细化设计,通过结合本体的公理定义,最终形成一个语义关系清晰的网状结构,并有效支持推理。采用了目前流行的建模工具Prot696进行建模,使用了OWL本体描述语言。(2)对当前网络化获取方式的优缺点进行了分析,提出采用定制的Spider的可行性方案。分析目标网站特征,定制和扩展开源爬虫Heritrix,实现了针对典型网络化制造资源门户网站进行抓取的聚焦Spider。(3)对当前语义标注的情况进行介绍,对现有语义标注工具进行分析,借鉴基于Wrapper数据抽取方法的思想,设计了MRISS的半自动语义标注模块,完成了对典型网络化制造资源门户网站的半自动化标注工作;(4)对当前制造资源检索方法存在的问题,提出多层次智能检索模型和智能检索模块的总体结构。运用Jena工具包,设计和实现多层次智能检索。(5)设计界面友好图示化语义查询前端。设计了查询树这一数据结构用来连接用户输入和SPARQL语义查询语言,并研究了查询树和SPARQL的转换算法。6l 浙江大学硕士学位论文第7章总结与展望7.2展望我们借鉴语义网的思想,并结合网络化制造在制造资源表达和检索等现实需求基础上,开发完成一个原型系统,取得了一些成果,但远未达到能成熟应用的地步,不仅在系统上需完善,而且在许多理论问题方面,需要进一步的研究:(1)聚焦Spider,如何降低人工预分析抓取对象的工作量,并把抓取对象的范围扩大到整个Intemet,还有待进一步的研究。(2)在创建和维护大型本体系统中,当概念、属性、关系和公理数量急剧增多,如何维持本体的一致性,从而使基于本体的智能推理保证有效性,需要进一步的深入研究。(3)本文提出的网络化制造资源本体中,包含了大量的语义信息,然而,目前我们只开发和利用了其中的一小部分,如何更全面的使用这些语义信息,实现智能化的应用,有待于进一步研究。(4)本文研究的语义半自动化标注,自动化程度还不够,使用范围也有限,一种具有普适性的自动的标注还需进一步研究。(5)在智能推理中,我们目前主要实现了对传递关系的支持,如何在保证执行效率的前提下,支持更多的公理进行推理,需要我们对人工智能中的推理技术有更深入的研究。62

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭