《本体语义推理在用户检索意图分析中应用的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
摘要㈣㈣㈣㈣Y172穸芝型芗‘摘要随着计算机网络的普及,网络已逐渐成为人们发布信息和获取信息的主要平台。搜索引擎作为该信息平台的一种首选导航系统,由此得到了越来越广泛的应用。搜索引擎从产生至今,历经了多次发展变革,从最初手工目录服务的诞生,到如今关键词全文检索的流行,检索效率和性能得到逐步提高,但是依旧无法满足人们日益苛刻的检索需求。究其原委,很重要的一点原因就在于检索过程缺乏用户意图的分析,简单地认为,语法层面上基于检索式词形匹配的手段能够达到语义层面上面向用户意图的语义匹配。..本文首先从米扎罗提出的用户意图层次模型出发,分析了用户检索意图分析的必要性。然后通过文献调研的方式,分析了当前信息检索领域用户检索意图分析的研究现状,并总结了前人研究的不足和缺陷。在此基础之上,本文进一步提出了基于本体和检索式流的用户意图建模策略,即在用户检索式流构成的检索情境中利用本体所构建的知识模型,推理建模用户检索式背后潜在的用户意图。其后,针对特定用户实例的意图模型,本文提出了基于向量空间的查询优化策略。最后,为了验证本文提出的思想,本人设计并实现了一个检索平台原型,并通过小规模的试验样本证明了论文思想的有效性和可行性。在这一过程中,本文主要解决了如下几个关键问题。(1)本体的自动构建本体知识模型的质量直接决定了后续用户意图建模的准确性。本文从本体的领域覆盖面和构建效率出发,确定了以Wikipedia为知识源的本体自动化构建方案,即通过蜘蛛程序自动采集Wikipedia站点的知识结构,然后利用Jena开发包实现本体的自动化构建。(2)用户意图的捕获和表示本文在前人研究的基础上提出了从静态和动态两种视角建模用户意图的思想,其中静态视角反映意图的问题领域,动态视角反映意图的变化趋势。在此基础上,再就两种视角的用户意图分别提出了相应的捕获方法。(3)面向用户意图的查询优化本文分析了当前使用最为广泛的向量空间信息检索模型,在此基础上,基于特定用户的意图表征,提出了面向向量空间模型的查询优化策略。关键词:本体语义推理,用户意图建模,查询优化 AbstractComputernetworkgraduallyturnsintooneofthemaininformationpublicationandgatheringplatformwithitsprevalenceinourdailylife.Searchengine,asoneofitsprimarynavigationalsystem.therebygainsitswidespreadapplicationaswell.Sinceits锄ergence,searchenginehasundergoneseveraldevelopmentalstages.Fromtheinitialmanualdircctorvservicetotoday’skeywordbasedfulltextretrieval,theretrievaleffectivenessandperfb衄ancehavebeenimprovedstepbystep,however,stillfallshorttouser’sdemandingexpectation.Oneimportantre.onaccountingforthisrealitymaylieintheabsenceofuserintentanalysisinourpresentretrievalprocedure.Wesimplyassumethatkeywordbasedsvntacticmatchingmethodcanreachthegoaloffulfillinguserretrievalintentfromthesemanticperspective.staningf如mtheintroductionofStefanoMizzaro’SUserIntentHierarchicalModel,thispaperanalyzedthenecessityofuserintentanalysis.Thenitintroduced+thestateoftheartofuserintentanalysisinpresentinformationretrievalfieldbyliteraturesurveyandsummeduPthedefectsofpriorresearches.Basedonthosework,itputforwardtheuserintentmodelingstrategybyvirtueofontologyandquerystream,whichmeansthatwetookadvantageofthequery.streambasedretrievalcontextandontologybasedknowledgemodeltoreasonthehiddenuserintentbehindsearchqueries.Afterwards,avectorspacebasedqueryoptimizationstrategywasproposedintermsoftheuserspecificintentmodel·IIlthelastsection,inordertoassesstheidea’Seffectivenessandfeasibility,Idesignedandimplementedasearchengineprototypeanddidsometestonit.Theexperimentalresultwaspositiveandsatisfactory.Tosumup,Imainlysolvedthefollowingkeyproblemsin‘.:thispaper.(1)AutomaticontologyconstructionThequalityofontologymodelcountsalotforitdirectlydeterminestheaccuracyofsubsequentuserintentmodel.ThispaperproposedtheWikipediabasedautomaticontologYconstructionschemaintermsofitsdomaincoverageandeffectiveness,whichusedthespiderprogramtocrawlknowledgefromWikipediawebsiteandexploitedtheJenadevelopmentkittofulfilltheautomaticontologyconstruction·(2)UserintentcaptureandrepresentationBasedontheprecedingresearch,Iproposedtheideaofmodelinguserintentfromstaticanddynamicperspectives,inwhichthestaticperspectivereflectsitsproblemdomainU Abstractandthedynamicperspectivereflectsitsvariationtrend.Then1wentontoputforwardthecorrespondingcapturingmethodsforthosetwokindsofuserintent.(3)UserintentorientedqueryoptimizationThispaperanalyzedthemostwidelyusedinformationretrievalmodel,vectorspacemodelandproposedthecorrespondingqueryoptimizationstrategybasedonthismodelintermsoftheconstructeduserintentmodel.Keywords:Ontologybasedsemanticreasoning,Userintentmodeling,QueryoptimizationIII 第1章绪论1.1研究背景1.1.1传统搜索引擎的发展及其局限性自1967年日本科学技术和经济研究团体首次提出“信息化"的概念以来,当今社会已经逐步由工业生产主导的社会进入了信息主导的时代。特别是自上世纪90年代以来,以美国为首的各国力推“信息高速公路”的强国之道,更是让全球信息产业如虎添翼,出现了近20年迅猛的发展速度。信息化的深入给人们带来了日益丰富的信息资源,然而因其发展的无序性和自组织特性,信息增长的背后却衍生了“知识迷航”和“数字鸿沟”之类的社会现象。搜索引擎作为一种信息导航系统由此产生,并在短短几年的时间内一跃成为这一领域最抢眼的明星。迄今为止,搜索引擎的发展大致经历了三个阶段。第一代搜索引擎以上世纪90年代的AltaVista、Yahoo以及InfoSeek系统为代表。这一时期搜索引擎主要倾向于提供目录式的搜索服务,通常以手工信息处理为主,在准确率上有所保证,但是索引规模并不如人意。第二代搜索引擎则加大了智能化的投入,利用网络超文本的组织特点,各种自动化数据采集、分类和检索技术开始大规模投入应用。这一时期搜索引擎的查全率有所改善,但查准率的问题依旧是影响用户使用满意度的一个显著因素。第三代搜索引擎在此基础上又提出了新的发展方向,如智能化、个性化技术、基于语义的内容分析技术等。中国互联网中心CNNIC的最新调查数据显示,截至2008年12月31日,中国网民规模达到2.98亿人,普及率达到22.6%,超过全球平均水平;网民规模较2007年增长8800万人,年增长率为41.9%;网页总数超过160亿,较2007年增长90%。【1】网页是互联网内容资源的直接载体,网页的规模在一定程度上反映了互联网内容的丰富程度。如此庞大的网络信息资源,给互联网搜索引擎的发展带了机遇,在商业运营上已经极为成功的案例Google、Yahoo、百度便是最好的例证。但随着网页资源和索引数据的剧增,这种机遇背后同样也孕育了新的挑战和瓶颈。总的来看,目前主流搜索引擎还停留在基于关键词匹配的全文检索阶段。在Web发展的初期阶段,基于关键词的全文检索理念极大地提高了搜索引擎的检索性能和效率。然而随着网络资源规模的剧增以及用户检索需求的提高,如今完全基于关键词词形匹配的传统搜索引擎也逐渐开始暴露出其自身的一些问题:1)搜索结果的用户满意度不佳。信息检索的本质乃是从用户检索需求出发,在大量的文档库中匹配相关资源或文档的过程。然而在现实中,基于关键词的全文检索1 第1章绪论技术即缺乏对文档内容的语义理解,也不曾考虑用户检索式背后的用户意图,这在很大程度上影响到搜索结果的用户满意度。2)检索结果对词汇过度敏感。因为语言使用习惯问题以及汉语一词多义现象的广泛存在,对于同一事物,我们通常有多样的表达方式,所以内容语义极度相关的文档因为使用了与检索关键词不一样的描述方式而未能成功检索的现象极为普遍。比如提交“江苏旅游景点”的用户可能因为检索式的构造方式永远失去了检索到仅包含“南京钟山风景区"字眼的文档的机会。同样,一种表达方式也可能具有多样的情境性含义,Fumasl2J等人曾专门研究过此类“词汇问题”,指出对于同一词汇,不同人表达的意义存在着惊人的差异性,这在一定程度上意味着我们在查询中使用的词汇跟基于文档内容索引的词汇并不存在那么可靠的匹配性。’3)过分孤立地看待用户的检索行为,忽略了检索过程的情境性因素。目前的搜索引擎尽管在智能性方面有所提高,但是基本还是以关键词词形匹配技术为核心。这种技术固有的一些缺陷导致用户单次检索的成功率并不很理想,通常而言,面对某种信息需求,用户与检索系统之间存在多次检索交互过程。目前的检索系统通常忽略这一系列检索的情境关联性,孤立的响应每一次检索行为,因此导致某些重要的情境相关信息被忽略,并间接影响了检索结果的准确性。在这些现象的背后,其实可以发现一个根源性的问题。即在未能理解用户检索需求和文档内容的情况下,我们做了几个简化检索复杂性的假设:1)用户检索式能够完全反映用户真实的信息需求;2)语法层面上基于检索式词形匹配的手段能够达到语义层面上面向用户意图的语义匹配;3)用户的每次检索请求具有情境独立性。这些假设在Web发展的初期阶段简化了信息检索的复杂性,提高了检索的效率,但随着索引资源的剧增和用户需求的提高,这些假设开始暴露出其自身的很多弊端,并发展成为制约信息检索性能提高的一个瓶颈。1.1.2几种解决思路从如今普遍运用的向量空间信息检索模型来看,文档检索的过程完全只是基于统计意义上的词频特征做出文档评分的过程。即便是后续提出的诸如PageRank之类的改进算法,也只是引入了网络的一些其它结构特性来弥补关键词匹配的不足,其中不涉及任何用户意图或内容语义分析的成分。为了解决这一问题,以下是几条可以考虑的途径。第一种途径是改变如今以HTML为基础的弱语义描述的Web架构,构建Web资源人机可共同理解的下一代Web规范。这其实就是TimBemers.Lee提出的下一代We卜语义Web的理想蓝图。针对这一架构,相关组织已经提出了众多标准,如知识表示标准(RDF/RDFS、CKML、OL、DAML+OIL、OWL),查询接口标准(RQL、2 第1章绪论NRDQL、SPARQL),但这些标准并非完全兼容,众多标准的完善和统一仍需时日。另外目前完全基于语义Web标准建构的资源还很缺少,对于传统的弱语义Web资源,需要大量的语义标注工作。手工地实现这个标注过程过于繁琐,自动化的标注方法虽受到了众多学者的关注但效果并不理想。综上所述,语义Web蓝图的完全实现仍有很长的路要走。第二种途径是基于NLP(自然语言处理)方法实现文本内容的自动化分析。目前一些语义搜索引擎,如PowerSet、Hakia都是基于NLP和自身的知识库实现智能检索服务。这些系统通常首先从数据源中进行实体抽取,然后依靠大规模的后台知识库进行实体意义消歧,并记录下这些实体之问的复杂关系。但这种方案通常存在因处理过程复杂而导致检索效率低下的问题,所以未能得到大规模应用。第三种途径是面向用户检索意图实现查询优化。这一途径需解决两方面的问题。首先是用户检索意图的建模。这一方面一些学者在搜索同志分析的基础上做了一些初步性的工作,如用户意图分类模型的构建、用户意图分类特征的研究等。用户意图具有隐性的特点,因此在其建模过程中通常涉及逻辑推理问题。如今本体思想被引入信息处理领域,基于本体的领域知识模型建构了我们对领域知识的共同理解,可以为用户意图的推理提供方法保障。同时基于知识库的推理也有了比较成熟的算法,如基于产生式系统的规则推理算法、基于描述逻辑的推理算法。在这些算法的基础上,众多组织开发了基于知识库的推理引擎,如Racer、Jena、FaCT、Jess等,它们都能提供面向知识的推理服务。其次就是基于用户意图的查询优化。目前已有学者提出了众多查询优化思想,如查询扩展优化、相关反馈优化、伪相关反馈优化,并取得了初步研究成果,这些思想可以为面向用户意图的查询优化所借鉴。因此,本文决定从该方向入手,寻求一个切实可行的问题解决方案。1.2国内外研究现状1.2.1用户检索意图研究1)用户检索意图分类经典信息检索理论假设用户的检索行为是信息型的,即信息需求驱动的检索行为,然而在现实中用户检索行为通常表现得更为复杂。基于这一点,IBM研究员Bmder【3J曾在2002年提出了Web搜索分类的思想,根据用户意图的指向性特点,把用户检索行为分为信息型(Informational)、导航型(Navigational)和事务型(Transactional)三种类型。对于信息型检索,驱动用户搜索行为的是某个特定信息需求,而不是一个特定的网页。这些信息通常以静态的形式存在,除了浏览之外,不需用户额外的交互。对于导航型检索,驱动用户搜索行为的是某个特定的站点或页面, 第1章绪论可能是他们以前访问过却记不住网址。对于事务型检索,驱动用户搜索行为的是某一种基于Web的事务,这些事务通常由用户的一系列交互活动组成,如网络购物,音乐下载,交通查询以及其它一系列基于Web的在线服务。在这一思想的基础上,Rose,Levinsonl4】等人又做了进一步的细化,提出了一种层级性的分类框架。原来的信息型检索又被细分为定向型(Directed)、非定向型(Undirected)、建议型(Advice)、定位型(Locate)、列表型(List)等几种。同时原来的导航型被称为资源类型(Resource),其下再细化为下载型(Download)、娱乐型(Entertainment)、交互性(Interact)、获取型(Obtain)等多种子分类。2)用户检索意图识别信息检索的最终目的是根据用户检索意图在文档集合中选择最佳匹配资源的过程。因此,理解用户的潜在意图,特别是实现其自动检测,对于提高搜索引擎的检索性能具有十分重要的意义。然而用户检索意图本质上来说是一个主观的、抽象的概念。除了主体自身之外,外界只能通过检索主体的一些外显化行为或现象,如检索式构造、网页浏览、相关性反馈等去间接地推断。这种鉴别过程的间接性以及用户意图本身的模糊性,成了当前用户检索意图鉴别的最大挑战。在检索意图的识别方面,很多学者从不同的研究角度和研究方法出发,提出了大量的开创性思想和试验性尝试。Broderl3J以及Rose,Levinsonl4J等人分别在其提出的检索意图分类框架基础上,采用基于网络的随机用户调查和基于搜索日志的人工分析方法研究了检索意图的识别和分布状况。虽然这些研究通过人工的方式展开,但却为后续自动化检测的可行性做了论证。因为这些前期研究回答了一个重要的问题——-在缺乏用户反馈的情况下,依据纯粹的检索式能在多大程度上正确推断用户的潜在意图。后续学者在此基础上,提出了大量的自动化识别方法。如Uichinke【5】等人在Broder分类框架的基础上,首先通过一个主体调研证明了自动化用户目标识别的可行性,在此基础上继而提出了基于用户点击行为和锚文本分布的检索意图自动化检测方法。Jansen,Boothl61等人同样基于Broder分类框架,以多个搜索引擎的检索日志为数据源,随机地选取大量检索式样本,人工地进行意图划分,然后基于手工标注的样本进行特征提取,经过反复的“检索式选择一分类—特征提取"过程,归纳出各类用户意图的典型特征,最后基于这些特征,实现了相应的用户意图自动分类算法,取得了比较理性的试验结果。YiqunLiu,MinZhangl7】等人则基于搜索日志中的用户点击行为信息,构造相应的决策树分类模型,最终实现用户检索意图的自动识别。QiGuo,EugeneAgichteint8】同样研究了基于客户端用户点击行为的检索意图推理方案,但是并非采用搜索日志作为信息源,而是通过浏览器插件获得有关鼠标点击、鼠标移动等实时的用户行为。近些年来,一些高新的科技手段也被应用到用户意图的研究领域,如Cutrell,Guan[9J等人就曾尝试利用眼睛视线跟踪技术来发现用户意图。4 第1章绪论3)用户检索意图迁移在信息检索过程中,存在两个不同却密切相关的概念,即Query和Session。Query是指用户向检索系统提交的一次具体的检索任务,Session则是指用户与检索系统建立连接后与之进行的一系列交互操作的总和,其通常由一系列的Query构成。前面提到的用户检索意图识别都是基于某一次单独的用户检索行为,因此可以看作是一种Query层面的检索意图分析,是一种静态的研究视角。用户检索意图迁移考察的则是用户与系统的一些系列检索行为中检索意图的漂移现象,是一种Session层面的检索意图分析,一种动态的研究视角。在Session层面的用户意图研究中,人们最早尝试的是基于用户意图的Session划分或Query流分组。这种划分或分组指的是实现序列化的用户查询在相似检索意图、主题或者情境上的聚类,在此基础上可以捕获用户意图迁移的信息,并为相应的查询优化提供依据。前期的研究方法中,提出较早且依旧被当前一些研究所采用的是“inter-querytimeout”方法,即通过设定一个超时时间阈值来标识同组Query的边界。这个超时时间是指某个检索用户与系统之间两次连续交互活动的时I’日J问隔,如果该时间超出某个指定阈值,则被认为是当前主题、情境或意图的转变。Catledge,Pitkowllol等人曾基于试验提出25.5分钟的时间阈值具有较好的试验效果。为了获得一个统计意义上比较理想的时间阈值,后续研究者又基于各自的试验提出了各种时间阈值方案。还有一些研究基于“inter-querytimeout”的思想提出了类似的“meansessionlength”概念,即针对搜索同志中的检索流进行手动分组,发现统计意义上的平均分组长度,如Silverstein,Henzingerlll】等人发现这个长度大都在2至3之间。还有Lau,Horvitztl5】等人通过查询类型手动标注的方法,研究了检索时间间隔与搜索模式之间的关系,以期找到一个理想的时间阈值来预测查询话题的转换。除了从时间的维度,也有学者从检索式内容的维度来研究用户意图的迁移现象,如JaIlsenll2】等人则提出了利用先后提交的检索式之间的词汇共现特征来分组检索式流的思想,并通过对比试验证实了其相比于时间阈值方法具有更好的性能。还有一些学者同时综合了时问和检索式内容两个维度来进行算法设计,如He,G6kerll3l等人基于证据理论(Dempster-ShaferTheory),融合时间和搜索模式两方面信息在用户意图迁移预测上的可信度概率,提出了一套综合多种因素的判别方法。同样的方法亦被Ozmutlu,Cavdur[14J等人采用。总的来说,这种方法只简单应用了检索式间的词汇共现特征,同样也没有考虑主题转移中所可能存在的交织和嵌套特征。1.2.2基于本体的智能信息检索迄今为止,信息检索理论和模型得到了众多学者广泛的研究,普遍采用的有布尔模型、向量空间模型、概率论模型。其中布尔模型建立在集合论思想之上,向量空间5 第1章绪论模型利用了向量空间的数学理论,概率论模型则建立在概率统计理论的基础之上。总的来说,这些方法都只是从不同数学方法的角度对信息检索过程进行的一种建模,其本质仍然是基于词汇的共现和统计学特征做出一种相关性度量,其中并不涉及主体的认知因素或是文档内容的语义分析。因此,一些学者把它们形象地称之为BOW(BagofWords)模型,即用户查询以及文档都被表示为孤立词汇的集合。这种技术的优点是简单、快捷、便于系统实现。但缺点也显而易见,即忽略了人类语言的语义模糊现象、多义同义问题以及词语之间的语义关联问题等。为了在一定程度上提高BOW检索模型的智能性,有学者则提出了新的智能检索模型——BOC(BagofConcepts)模型。相对于BOW模型而言,BOC模型在更高的基于概念的层次上来标引用户查询和目标文档。检索模型的核心——相关性度量,也不再完全基于关键词匹配及其统计学特征,而是综合考虑了基于逻辑的概念语义和基于词形的语法模式,即当用户输入一个查询词条时,不仅返回与查询表达式匹配的结果,也会返回包含与查询表达式概念意义相同或相近的词语的文档,因此具有了更多的智能特征,可以视为智能信息检索的一种尝试。根据英国情报学家KarenSpankJonesll6J的观点,智能信息检索就是在已有知识的基础上进行推理,从用户的真实需求出发,确立一个相关文档集合。在此基础上,章成志、苏新宁【17】等人则指出信息检索用户真正需要的是信息,而不是相关文档,因此他们认为对智能信息检索更准确的界定应该是模拟人类的认知功能和智能活动,有效地利用一切知识资源,找到满足用户需求的情报知识的过程。且不论哪一种理论界定更为准确,但可以发现两者之间的一些共性,即都强调领域知识的支持。本体,作为客观知识的一种表征模型,具有良好的概念层次结构和对逻辑推理的支持,因此很好地适应了智能信息检索的需求。随着BOC模型的提出,其逐渐被引入信息检索领域,各种建立在本体基础上的智能信息检索系统也应运而生,如李鹏、乔晓东118J等人提出本体与CBR(Case.basedReasoning)集成的Web智能信息检索框架。该框架利用本体对Web页面进行语义标注、设计案例库,并利用CBR的推理能力对Web页面进行基于内容的推理分析。丁晟春、成唰19J等人在汉语智能分词技术、自然语言机器识别技术、本体构建技术和基于本体的知识推理技术的研究基础上,开发了一套基于B/S模式的用户提问知识检索实验系统。陶兰、杨割20】等人则利用信息搜集、存储、推理和查询等四类Agent的协同工作,在模拟的环境下实现了基于本体的Web信息检索服务。6 第1幸绪论1.3本文的研究思路及其创新1.3.1本文的研究思路综合考虑当今搜索引擎的发展现状和问题,本文决定以成熟高效的关键词全文检索技术为技术手段,同时从用户检索式出发,基于本体构建的领域知识模型,在用户检索情境中推理捕获用户的潜在检索意图,进而实行面向意图的查询优化。通过这种方式,以期弥补完全基于语法匹配的传统搜索引擎的在用户意图和内容语义分析方面的不足,实现更加贴近用户需求的检索功能,其带来的直接意义大致归纳为以下几点:1)用户需求的捕获可以辅助并优化后续的检索过程,在一定程度上能够提高搜索引擎的检索性能;2)检索理念从词汇中心到用户需求中心的转变,提高了搜索引擎的用户满意度;3)借鉴了语义Web的语义推理思想,得到了一种在检索效率和检索满意度之间平衡的解决方案。1.3.2本文的创新综合前人的研究成果,本文提出了本体语义推理在用户检索意图分析方面的构想,并加以试验尝试,以期优化当前搜索引擎的检索性能。其创新之处主要体现在以下几个方面:1)提出并实现了以Wikipedia知识结构为基础的自动化本体构建方案;2)提出并实现了基于本体和检索式流的用户意图建模方案;-一3)提出并实现了基于用户意图的查询优化方案。1.4论文组织结构本文总共有五章,具体安排如下:第一章介绍了论文的相关研究背景,指出了当前搜索引擎存在的问题及一些可能的解决方案,然后在此基础上陈述了与论文研究相关的一些研究现状,主要包括用户意图分析和基于本体的智能信息检索,最后提出了本文的研究思路及其创新所在。第二章概述了与论文相关的一些理论和技术,其中主要包括语义Web,本体及其推理应用,同时对目前普遍应用的查询优化思想做了一些综述和总结。第三章为本文的核心,首先从意大利学者米扎罗提出的用户意图模型出发,提出用户检索意图研究的必要性,并分析了当前用户检索意图分析中存在的不足。在此基础上进一步提出基于检索式流和本体知识库的用户意图推理思想和建模方案,最后进一步提出针对特定意图模型的查询优化方案。7 第1章绪论第四章为系统设计和试验部分,介绍了基于论文思想开发的SemSearch检索平台的设计与实现方案,并就相应的试验数据进行了分析。第五章为论文的总结,其中概括了本文的主要工作及其创新点,总结本文研究中存在的不足,并展望了值得后续继续开展的工作。8 第2章相关理论jj技术概述2.1语义Web概述第2章相关理论与技术概述2.1.1语义Web的由来万维网创始人TimBemers.Lee曾将万维网的演化分为两个阶段。第一阶段是面向用户直接阅读的阶段,万维网以HTML页面的形式向人们提供大量的信息,以便相互合作。第二阶段是面向计算机直接阅读和处理的阶段,万维网上的机器能够自动分析和理解万维网上的数据。语义Web(SemanticWeb)是第一代万维网的扩展,由TimBemers.Lee等人于1998年首次提出,其目的是通过结构化、形式化的方法来表示Web上的资源,使得Web上的信息机器可理解,然后在理解的基础上,为用户提供更智能的服务。当然这种“理解”并非指像人类智能一样的理解能力,而只是在信息意义形式化定义基础上实现的一种机械式理解能力。既便如此,语义Web的出现也已经代表了互联网发展的一次飞跃,即从互联网信息的“机器可读"到“机器可理解’’的飞跃。2.1.2语义W曲体系架构要实现Web资源的机器可理解目标,需要一系列统一的规范来保证Web资源表示的规范化。于是,TimBemers.Lee在2000年提出了如图2.1所示的语义Web体系结构。图2.1语义Web体系结构如上图所示,第一层是整个语义Web的基础,Unicode处理资源的编码,保证了跨语言、跨区域字符编码格式的统一和标准化。URI即所谓的统一资源定位器,负责标识语义Web中的资源和属性,保证它们的唯一性。第二层用于表示数据的内容和结9 第2章相关理论‘j技术概述构。使用XML进行文档结构化,XMLSchema用以定义XML文档的结构约束,以便于不同应用之间信息的交换和传输。NS代表命名空间,解决了XML标签的结构化管理和命名冲突问题。这一层只能作为语义Web的语法表示层,因为它只是规定了文档的语法规则,尽管也可以人为地给这些语法规则赋予一定的语义,如对于某XML文档片段
此文档下载收益归作者所有