本体语义推理在用户检索意图分析中应用的研究

本体语义推理在用户检索意图分析中应用的研究

ID:32250732

大小:3.80 MB

页数:54页

时间:2019-02-02

上传者:U-22107
本体语义推理在用户检索意图分析中应用的研究_第1页
本体语义推理在用户检索意图分析中应用的研究_第2页
本体语义推理在用户检索意图分析中应用的研究_第3页
本体语义推理在用户检索意图分析中应用的研究_第4页
本体语义推理在用户检索意图分析中应用的研究_第5页
资源描述:

《本体语义推理在用户检索意图分析中应用的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

摘要㈣㈣㈣㈣Y172穸芝型芗‘摘要随着计算机网络的普及,网络已逐渐成为人们发布信息和获取信息的主要平台。搜索引擎作为该信息平台的一种首选导航系统,由此得到了越来越广泛的应用。搜索引擎从产生至今,历经了多次发展变革,从最初手工目录服务的诞生,到如今关键词全文检索的流行,检索效率和性能得到逐步提高,但是依旧无法满足人们日益苛刻的检索需求。究其原委,很重要的一点原因就在于检索过程缺乏用户意图的分析,简单地认为,语法层面上基于检索式词形匹配的手段能够达到语义层面上面向用户意图的语义匹配。..本文首先从米扎罗提出的用户意图层次模型出发,分析了用户检索意图分析的必要性。然后通过文献调研的方式,分析了当前信息检索领域用户检索意图分析的研究现状,并总结了前人研究的不足和缺陷。在此基础之上,本文进一步提出了基于本体和检索式流的用户意图建模策略,即在用户检索式流构成的检索情境中利用本体所构建的知识模型,推理建模用户检索式背后潜在的用户意图。其后,针对特定用户实例的意图模型,本文提出了基于向量空间的查询优化策略。最后,为了验证本文提出的思想,本人设计并实现了一个检索平台原型,并通过小规模的试验样本证明了论文思想的有效性和可行性。在这一过程中,本文主要解决了如下几个关键问题。(1)本体的自动构建本体知识模型的质量直接决定了后续用户意图建模的准确性。本文从本体的领域覆盖面和构建效率出发,确定了以Wikipedia为知识源的本体自动化构建方案,即通过蜘蛛程序自动采集Wikipedia站点的知识结构,然后利用Jena开发包实现本体的自动化构建。(2)用户意图的捕获和表示本文在前人研究的基础上提出了从静态和动态两种视角建模用户意图的思想,其中静态视角反映意图的问题领域,动态视角反映意图的变化趋势。在此基础上,再就两种视角的用户意图分别提出了相应的捕获方法。(3)面向用户意图的查询优化本文分析了当前使用最为广泛的向量空间信息检索模型,在此基础上,基于特定用户的意图表征,提出了面向向量空间模型的查询优化策略。关键词:本体语义推理,用户意图建模,查询优化 AbstractComputernetworkgraduallyturnsintooneofthemaininformationpublicationandgatheringplatformwithitsprevalenceinourdailylife.Searchengine,asoneofitsprimarynavigationalsystem.therebygainsitswidespreadapplicationaswell.Sinceits锄ergence,searchenginehasundergoneseveraldevelopmentalstages.Fromtheinitialmanualdircctorvservicetotoday’skeywordbasedfulltextretrieval,theretrievaleffectivenessandperfb衄ancehavebeenimprovedstepbystep,however,stillfallshorttouser’sdemandingexpectation.Oneimportantre.onaccountingforthisrealitymaylieintheabsenceofuserintentanalysisinourpresentretrievalprocedure.Wesimplyassumethatkeywordbasedsvntacticmatchingmethodcanreachthegoaloffulfillinguserretrievalintentfromthesemanticperspective.staningf如mtheintroductionofStefanoMizzaro’SUserIntentHierarchicalModel,thispaperanalyzedthenecessityofuserintentanalysis.Thenitintroduced+thestateoftheartofuserintentanalysisinpresentinformationretrievalfieldbyliteraturesurveyandsummeduPthedefectsofpriorresearches.Basedonthosework,itputforwardtheuserintentmodelingstrategybyvirtueofontologyandquerystream,whichmeansthatwetookadvantageofthequery.streambasedretrievalcontextandontologybasedknowledgemodeltoreasonthehiddenuserintentbehindsearchqueries.Afterwards,avectorspacebasedqueryoptimizationstrategywasproposedintermsoftheuserspecificintentmodel·IIlthelastsection,inordertoassesstheidea’Seffectivenessandfeasibility,Idesignedandimplementedasearchengineprototypeanddidsometestonit.Theexperimentalresultwaspositiveandsatisfactory.Tosumup,Imainlysolvedthefollowingkeyproblemsin‘.:thispaper.(1)AutomaticontologyconstructionThequalityofontologymodelcountsalotforitdirectlydeterminestheaccuracyofsubsequentuserintentmodel.ThispaperproposedtheWikipediabasedautomaticontologYconstructionschemaintermsofitsdomaincoverageandeffectiveness,whichusedthespiderprogramtocrawlknowledgefromWikipediawebsiteandexploitedtheJenadevelopmentkittofulfilltheautomaticontologyconstruction·(2)UserintentcaptureandrepresentationBasedontheprecedingresearch,Iproposedtheideaofmodelinguserintentfromstaticanddynamicperspectives,inwhichthestaticperspectivereflectsitsproblemdomainU Abstractandthedynamicperspectivereflectsitsvariationtrend.Then1wentontoputforwardthecorrespondingcapturingmethodsforthosetwokindsofuserintent.(3)UserintentorientedqueryoptimizationThispaperanalyzedthemostwidelyusedinformationretrievalmodel,vectorspacemodelandproposedthecorrespondingqueryoptimizationstrategybasedonthismodelintermsoftheconstructeduserintentmodel.Keywords:Ontologybasedsemanticreasoning,Userintentmodeling,QueryoptimizationIII 第1章绪论1.1研究背景1.1.1传统搜索引擎的发展及其局限性自1967年日本科学技术和经济研究团体首次提出“信息化"的概念以来,当今社会已经逐步由工业生产主导的社会进入了信息主导的时代。特别是自上世纪90年代以来,以美国为首的各国力推“信息高速公路”的强国之道,更是让全球信息产业如虎添翼,出现了近20年迅猛的发展速度。信息化的深入给人们带来了日益丰富的信息资源,然而因其发展的无序性和自组织特性,信息增长的背后却衍生了“知识迷航”和“数字鸿沟”之类的社会现象。搜索引擎作为一种信息导航系统由此产生,并在短短几年的时间内一跃成为这一领域最抢眼的明星。迄今为止,搜索引擎的发展大致经历了三个阶段。第一代搜索引擎以上世纪90年代的AltaVista、Yahoo以及InfoSeek系统为代表。这一时期搜索引擎主要倾向于提供目录式的搜索服务,通常以手工信息处理为主,在准确率上有所保证,但是索引规模并不如人意。第二代搜索引擎则加大了智能化的投入,利用网络超文本的组织特点,各种自动化数据采集、分类和检索技术开始大规模投入应用。这一时期搜索引擎的查全率有所改善,但查准率的问题依旧是影响用户使用满意度的一个显著因素。第三代搜索引擎在此基础上又提出了新的发展方向,如智能化、个性化技术、基于语义的内容分析技术等。中国互联网中心CNNIC的最新调查数据显示,截至2008年12月31日,中国网民规模达到2.98亿人,普及率达到22.6%,超过全球平均水平;网民规模较2007年增长8800万人,年增长率为41.9%;网页总数超过160亿,较2007年增长90%。【1】网页是互联网内容资源的直接载体,网页的规模在一定程度上反映了互联网内容的丰富程度。如此庞大的网络信息资源,给互联网搜索引擎的发展带了机遇,在商业运营上已经极为成功的案例Google、Yahoo、百度便是最好的例证。但随着网页资源和索引数据的剧增,这种机遇背后同样也孕育了新的挑战和瓶颈。总的来看,目前主流搜索引擎还停留在基于关键词匹配的全文检索阶段。在Web发展的初期阶段,基于关键词的全文检索理念极大地提高了搜索引擎的检索性能和效率。然而随着网络资源规模的剧增以及用户检索需求的提高,如今完全基于关键词词形匹配的传统搜索引擎也逐渐开始暴露出其自身的一些问题:1)搜索结果的用户满意度不佳。信息检索的本质乃是从用户检索需求出发,在大量的文档库中匹配相关资源或文档的过程。然而在现实中,基于关键词的全文检索1 第1章绪论技术即缺乏对文档内容的语义理解,也不曾考虑用户检索式背后的用户意图,这在很大程度上影响到搜索结果的用户满意度。2)检索结果对词汇过度敏感。因为语言使用习惯问题以及汉语一词多义现象的广泛存在,对于同一事物,我们通常有多样的表达方式,所以内容语义极度相关的文档因为使用了与检索关键词不一样的描述方式而未能成功检索的现象极为普遍。比如提交“江苏旅游景点”的用户可能因为检索式的构造方式永远失去了检索到仅包含“南京钟山风景区"字眼的文档的机会。同样,一种表达方式也可能具有多样的情境性含义,Fumasl2J等人曾专门研究过此类“词汇问题”,指出对于同一词汇,不同人表达的意义存在着惊人的差异性,这在一定程度上意味着我们在查询中使用的词汇跟基于文档内容索引的词汇并不存在那么可靠的匹配性。’3)过分孤立地看待用户的检索行为,忽略了检索过程的情境性因素。目前的搜索引擎尽管在智能性方面有所提高,但是基本还是以关键词词形匹配技术为核心。这种技术固有的一些缺陷导致用户单次检索的成功率并不很理想,通常而言,面对某种信息需求,用户与检索系统之间存在多次检索交互过程。目前的检索系统通常忽略这一系列检索的情境关联性,孤立的响应每一次检索行为,因此导致某些重要的情境相关信息被忽略,并间接影响了检索结果的准确性。在这些现象的背后,其实可以发现一个根源性的问题。即在未能理解用户检索需求和文档内容的情况下,我们做了几个简化检索复杂性的假设:1)用户检索式能够完全反映用户真实的信息需求;2)语法层面上基于检索式词形匹配的手段能够达到语义层面上面向用户意图的语义匹配;3)用户的每次检索请求具有情境独立性。这些假设在Web发展的初期阶段简化了信息检索的复杂性,提高了检索的效率,但随着索引资源的剧增和用户需求的提高,这些假设开始暴露出其自身的很多弊端,并发展成为制约信息检索性能提高的一个瓶颈。1.1.2几种解决思路从如今普遍运用的向量空间信息检索模型来看,文档检索的过程完全只是基于统计意义上的词频特征做出文档评分的过程。即便是后续提出的诸如PageRank之类的改进算法,也只是引入了网络的一些其它结构特性来弥补关键词匹配的不足,其中不涉及任何用户意图或内容语义分析的成分。为了解决这一问题,以下是几条可以考虑的途径。第一种途径是改变如今以HTML为基础的弱语义描述的Web架构,构建Web资源人机可共同理解的下一代Web规范。这其实就是TimBemers.Lee提出的下一代We卜语义Web的理想蓝图。针对这一架构,相关组织已经提出了众多标准,如知识表示标准(RDF/RDFS、CKML、OL、DAML+OIL、OWL),查询接口标准(RQL、2 第1章绪论NRDQL、SPARQL),但这些标准并非完全兼容,众多标准的完善和统一仍需时日。另外目前完全基于语义Web标准建构的资源还很缺少,对于传统的弱语义Web资源,需要大量的语义标注工作。手工地实现这个标注过程过于繁琐,自动化的标注方法虽受到了众多学者的关注但效果并不理想。综上所述,语义Web蓝图的完全实现仍有很长的路要走。第二种途径是基于NLP(自然语言处理)方法实现文本内容的自动化分析。目前一些语义搜索引擎,如PowerSet、Hakia都是基于NLP和自身的知识库实现智能检索服务。这些系统通常首先从数据源中进行实体抽取,然后依靠大规模的后台知识库进行实体意义消歧,并记录下这些实体之问的复杂关系。但这种方案通常存在因处理过程复杂而导致检索效率低下的问题,所以未能得到大规模应用。第三种途径是面向用户检索意图实现查询优化。这一途径需解决两方面的问题。首先是用户检索意图的建模。这一方面一些学者在搜索同志分析的基础上做了一些初步性的工作,如用户意图分类模型的构建、用户意图分类特征的研究等。用户意图具有隐性的特点,因此在其建模过程中通常涉及逻辑推理问题。如今本体思想被引入信息处理领域,基于本体的领域知识模型建构了我们对领域知识的共同理解,可以为用户意图的推理提供方法保障。同时基于知识库的推理也有了比较成熟的算法,如基于产生式系统的规则推理算法、基于描述逻辑的推理算法。在这些算法的基础上,众多组织开发了基于知识库的推理引擎,如Racer、Jena、FaCT、Jess等,它们都能提供面向知识的推理服务。其次就是基于用户意图的查询优化。目前已有学者提出了众多查询优化思想,如查询扩展优化、相关反馈优化、伪相关反馈优化,并取得了初步研究成果,这些思想可以为面向用户意图的查询优化所借鉴。因此,本文决定从该方向入手,寻求一个切实可行的问题解决方案。1.2国内外研究现状1.2.1用户检索意图研究1)用户检索意图分类经典信息检索理论假设用户的检索行为是信息型的,即信息需求驱动的检索行为,然而在现实中用户检索行为通常表现得更为复杂。基于这一点,IBM研究员Bmder【3J曾在2002年提出了Web搜索分类的思想,根据用户意图的指向性特点,把用户检索行为分为信息型(Informational)、导航型(Navigational)和事务型(Transactional)三种类型。对于信息型检索,驱动用户搜索行为的是某个特定信息需求,而不是一个特定的网页。这些信息通常以静态的形式存在,除了浏览之外,不需用户额外的交互。对于导航型检索,驱动用户搜索行为的是某个特定的站点或页面, 第1章绪论可能是他们以前访问过却记不住网址。对于事务型检索,驱动用户搜索行为的是某一种基于Web的事务,这些事务通常由用户的一系列交互活动组成,如网络购物,音乐下载,交通查询以及其它一系列基于Web的在线服务。在这一思想的基础上,Rose,Levinsonl4】等人又做了进一步的细化,提出了一种层级性的分类框架。原来的信息型检索又被细分为定向型(Directed)、非定向型(Undirected)、建议型(Advice)、定位型(Locate)、列表型(List)等几种。同时原来的导航型被称为资源类型(Resource),其下再细化为下载型(Download)、娱乐型(Entertainment)、交互性(Interact)、获取型(Obtain)等多种子分类。2)用户检索意图识别信息检索的最终目的是根据用户检索意图在文档集合中选择最佳匹配资源的过程。因此,理解用户的潜在意图,特别是实现其自动检测,对于提高搜索引擎的检索性能具有十分重要的意义。然而用户检索意图本质上来说是一个主观的、抽象的概念。除了主体自身之外,外界只能通过检索主体的一些外显化行为或现象,如检索式构造、网页浏览、相关性反馈等去间接地推断。这种鉴别过程的间接性以及用户意图本身的模糊性,成了当前用户检索意图鉴别的最大挑战。在检索意图的识别方面,很多学者从不同的研究角度和研究方法出发,提出了大量的开创性思想和试验性尝试。Broderl3J以及Rose,Levinsonl4J等人分别在其提出的检索意图分类框架基础上,采用基于网络的随机用户调查和基于搜索日志的人工分析方法研究了检索意图的识别和分布状况。虽然这些研究通过人工的方式展开,但却为后续自动化检测的可行性做了论证。因为这些前期研究回答了一个重要的问题——-在缺乏用户反馈的情况下,依据纯粹的检索式能在多大程度上正确推断用户的潜在意图。后续学者在此基础上,提出了大量的自动化识别方法。如Uichinke【5】等人在Broder分类框架的基础上,首先通过一个主体调研证明了自动化用户目标识别的可行性,在此基础上继而提出了基于用户点击行为和锚文本分布的检索意图自动化检测方法。Jansen,Boothl61等人同样基于Broder分类框架,以多个搜索引擎的检索日志为数据源,随机地选取大量检索式样本,人工地进行意图划分,然后基于手工标注的样本进行特征提取,经过反复的“检索式选择一分类—特征提取"过程,归纳出各类用户意图的典型特征,最后基于这些特征,实现了相应的用户意图自动分类算法,取得了比较理性的试验结果。YiqunLiu,MinZhangl7】等人则基于搜索日志中的用户点击行为信息,构造相应的决策树分类模型,最终实现用户检索意图的自动识别。QiGuo,EugeneAgichteint8】同样研究了基于客户端用户点击行为的检索意图推理方案,但是并非采用搜索日志作为信息源,而是通过浏览器插件获得有关鼠标点击、鼠标移动等实时的用户行为。近些年来,一些高新的科技手段也被应用到用户意图的研究领域,如Cutrell,Guan[9J等人就曾尝试利用眼睛视线跟踪技术来发现用户意图。4 第1章绪论3)用户检索意图迁移在信息检索过程中,存在两个不同却密切相关的概念,即Query和Session。Query是指用户向检索系统提交的一次具体的检索任务,Session则是指用户与检索系统建立连接后与之进行的一系列交互操作的总和,其通常由一系列的Query构成。前面提到的用户检索意图识别都是基于某一次单独的用户检索行为,因此可以看作是一种Query层面的检索意图分析,是一种静态的研究视角。用户检索意图迁移考察的则是用户与系统的一些系列检索行为中检索意图的漂移现象,是一种Session层面的检索意图分析,一种动态的研究视角。在Session层面的用户意图研究中,人们最早尝试的是基于用户意图的Session划分或Query流分组。这种划分或分组指的是实现序列化的用户查询在相似检索意图、主题或者情境上的聚类,在此基础上可以捕获用户意图迁移的信息,并为相应的查询优化提供依据。前期的研究方法中,提出较早且依旧被当前一些研究所采用的是“inter-querytimeout”方法,即通过设定一个超时时间阈值来标识同组Query的边界。这个超时时间是指某个检索用户与系统之间两次连续交互活动的时I’日J问隔,如果该时间超出某个指定阈值,则被认为是当前主题、情境或意图的转变。Catledge,Pitkowllol等人曾基于试验提出25.5分钟的时间阈值具有较好的试验效果。为了获得一个统计意义上比较理想的时间阈值,后续研究者又基于各自的试验提出了各种时间阈值方案。还有一些研究基于“inter-querytimeout”的思想提出了类似的“meansessionlength”概念,即针对搜索同志中的检索流进行手动分组,发现统计意义上的平均分组长度,如Silverstein,Henzingerlll】等人发现这个长度大都在2至3之间。还有Lau,Horvitztl5】等人通过查询类型手动标注的方法,研究了检索时间间隔与搜索模式之间的关系,以期找到一个理想的时间阈值来预测查询话题的转换。除了从时间的维度,也有学者从检索式内容的维度来研究用户意图的迁移现象,如JaIlsenll2】等人则提出了利用先后提交的检索式之间的词汇共现特征来分组检索式流的思想,并通过对比试验证实了其相比于时间阈值方法具有更好的性能。还有一些学者同时综合了时问和检索式内容两个维度来进行算法设计,如He,G6kerll3l等人基于证据理论(Dempster-ShaferTheory),融合时间和搜索模式两方面信息在用户意图迁移预测上的可信度概率,提出了一套综合多种因素的判别方法。同样的方法亦被Ozmutlu,Cavdur[14J等人采用。总的来说,这种方法只简单应用了检索式间的词汇共现特征,同样也没有考虑主题转移中所可能存在的交织和嵌套特征。1.2.2基于本体的智能信息检索迄今为止,信息检索理论和模型得到了众多学者广泛的研究,普遍采用的有布尔模型、向量空间模型、概率论模型。其中布尔模型建立在集合论思想之上,向量空间5 第1章绪论模型利用了向量空间的数学理论,概率论模型则建立在概率统计理论的基础之上。总的来说,这些方法都只是从不同数学方法的角度对信息检索过程进行的一种建模,其本质仍然是基于词汇的共现和统计学特征做出一种相关性度量,其中并不涉及主体的认知因素或是文档内容的语义分析。因此,一些学者把它们形象地称之为BOW(BagofWords)模型,即用户查询以及文档都被表示为孤立词汇的集合。这种技术的优点是简单、快捷、便于系统实现。但缺点也显而易见,即忽略了人类语言的语义模糊现象、多义同义问题以及词语之间的语义关联问题等。为了在一定程度上提高BOW检索模型的智能性,有学者则提出了新的智能检索模型——BOC(BagofConcepts)模型。相对于BOW模型而言,BOC模型在更高的基于概念的层次上来标引用户查询和目标文档。检索模型的核心——相关性度量,也不再完全基于关键词匹配及其统计学特征,而是综合考虑了基于逻辑的概念语义和基于词形的语法模式,即当用户输入一个查询词条时,不仅返回与查询表达式匹配的结果,也会返回包含与查询表达式概念意义相同或相近的词语的文档,因此具有了更多的智能特征,可以视为智能信息检索的一种尝试。根据英国情报学家KarenSpankJonesll6J的观点,智能信息检索就是在已有知识的基础上进行推理,从用户的真实需求出发,确立一个相关文档集合。在此基础上,章成志、苏新宁【17】等人则指出信息检索用户真正需要的是信息,而不是相关文档,因此他们认为对智能信息检索更准确的界定应该是模拟人类的认知功能和智能活动,有效地利用一切知识资源,找到满足用户需求的情报知识的过程。且不论哪一种理论界定更为准确,但可以发现两者之间的一些共性,即都强调领域知识的支持。本体,作为客观知识的一种表征模型,具有良好的概念层次结构和对逻辑推理的支持,因此很好地适应了智能信息检索的需求。随着BOC模型的提出,其逐渐被引入信息检索领域,各种建立在本体基础上的智能信息检索系统也应运而生,如李鹏、乔晓东118J等人提出本体与CBR(Case.basedReasoning)集成的Web智能信息检索框架。该框架利用本体对Web页面进行语义标注、设计案例库,并利用CBR的推理能力对Web页面进行基于内容的推理分析。丁晟春、成唰19J等人在汉语智能分词技术、自然语言机器识别技术、本体构建技术和基于本体的知识推理技术的研究基础上,开发了一套基于B/S模式的用户提问知识检索实验系统。陶兰、杨割20】等人则利用信息搜集、存储、推理和查询等四类Agent的协同工作,在模拟的环境下实现了基于本体的Web信息检索服务。6 第1幸绪论1.3本文的研究思路及其创新1.3.1本文的研究思路综合考虑当今搜索引擎的发展现状和问题,本文决定以成熟高效的关键词全文检索技术为技术手段,同时从用户检索式出发,基于本体构建的领域知识模型,在用户检索情境中推理捕获用户的潜在检索意图,进而实行面向意图的查询优化。通过这种方式,以期弥补完全基于语法匹配的传统搜索引擎的在用户意图和内容语义分析方面的不足,实现更加贴近用户需求的检索功能,其带来的直接意义大致归纳为以下几点:1)用户需求的捕获可以辅助并优化后续的检索过程,在一定程度上能够提高搜索引擎的检索性能;2)检索理念从词汇中心到用户需求中心的转变,提高了搜索引擎的用户满意度;3)借鉴了语义Web的语义推理思想,得到了一种在检索效率和检索满意度之间平衡的解决方案。1.3.2本文的创新综合前人的研究成果,本文提出了本体语义推理在用户检索意图分析方面的构想,并加以试验尝试,以期优化当前搜索引擎的检索性能。其创新之处主要体现在以下几个方面:1)提出并实现了以Wikipedia知识结构为基础的自动化本体构建方案;2)提出并实现了基于本体和检索式流的用户意图建模方案;-一3)提出并实现了基于用户意图的查询优化方案。1.4论文组织结构本文总共有五章,具体安排如下:第一章介绍了论文的相关研究背景,指出了当前搜索引擎存在的问题及一些可能的解决方案,然后在此基础上陈述了与论文研究相关的一些研究现状,主要包括用户意图分析和基于本体的智能信息检索,最后提出了本文的研究思路及其创新所在。第二章概述了与论文相关的一些理论和技术,其中主要包括语义Web,本体及其推理应用,同时对目前普遍应用的查询优化思想做了一些综述和总结。第三章为本文的核心,首先从意大利学者米扎罗提出的用户意图模型出发,提出用户检索意图研究的必要性,并分析了当前用户检索意图分析中存在的不足。在此基础上进一步提出基于检索式流和本体知识库的用户意图推理思想和建模方案,最后进一步提出针对特定意图模型的查询优化方案。7 第1章绪论第四章为系统设计和试验部分,介绍了基于论文思想开发的SemSearch检索平台的设计与实现方案,并就相应的试验数据进行了分析。第五章为论文的总结,其中概括了本文的主要工作及其创新点,总结本文研究中存在的不足,并展望了值得后续继续开展的工作。8 第2章相关理论jj技术概述2.1语义Web概述第2章相关理论与技术概述2.1.1语义Web的由来万维网创始人TimBemers.Lee曾将万维网的演化分为两个阶段。第一阶段是面向用户直接阅读的阶段,万维网以HTML页面的形式向人们提供大量的信息,以便相互合作。第二阶段是面向计算机直接阅读和处理的阶段,万维网上的机器能够自动分析和理解万维网上的数据。语义Web(SemanticWeb)是第一代万维网的扩展,由TimBemers.Lee等人于1998年首次提出,其目的是通过结构化、形式化的方法来表示Web上的资源,使得Web上的信息机器可理解,然后在理解的基础上,为用户提供更智能的服务。当然这种“理解”并非指像人类智能一样的理解能力,而只是在信息意义形式化定义基础上实现的一种机械式理解能力。既便如此,语义Web的出现也已经代表了互联网发展的一次飞跃,即从互联网信息的“机器可读"到“机器可理解’’的飞跃。2.1.2语义W曲体系架构要实现Web资源的机器可理解目标,需要一系列统一的规范来保证Web资源表示的规范化。于是,TimBemers.Lee在2000年提出了如图2.1所示的语义Web体系结构。图2.1语义Web体系结构如上图所示,第一层是整个语义Web的基础,Unicode处理资源的编码,保证了跨语言、跨区域字符编码格式的统一和标准化。URI即所谓的统一资源定位器,负责标识语义Web中的资源和属性,保证它们的唯一性。第二层用于表示数据的内容和结9 第2章相关理论‘j技术概述构。使用XML进行文档结构化,XMLSchema用以定义XML文档的结构约束,以便于不同应用之间信息的交换和传输。NS代表命名空间,解决了XML标签的结构化管理和命名冲突问题。这一层只能作为语义Web的语法表示层,因为它只是规定了文档的语法规则,尽管也可以人为地给这些语法规则赋予一定的语义,如对于某XML文档片段OOl可以人为地规定为一个订单号,而不是一个命令。通过这种方法能够实现应用程序之间数据交换的一致性,但是这种语义交换机制是脆弱而难以扩展的,因为要实现这种语义交换,需以硬编码的形式把这种语义关系刻画到程序模块当中。为此在这一层的基础上,构建了第三层一RDF资源描述层,用于描述Web上的资源及其类型。RDF描述了Web资源以及它们之间的关系,它为数据模型提供了简单的语义,这些数据模型能够用XML语法进行表达。RDFSchema用于描述RDF资源的属性和类型的词汇表,提供对这些属性和类型的普遍层次的语义描述。第四层是本体层,其主要目的在于描述各领域的概念并表征领域内资源更为复杂和丰富的语义关系。尽管RDFSchema可以作为编写本体的原始语言,但是我们需要一种超越RDFSchema来表示更为复杂的资源关系的强大本体语言。第五、六、七层是在上述各层基础上进行的逻辑推理操作,面向具体的智能应用。其中Logic层提供了一种方法来描述特定的应用规则,以辅助陈述性知识的推理。Proof层包含实际的推理过程,执行逻辑层的规则实现认证机制。Trust层提供了一系列数据、服务和代理的信任授权方法,通过数字签名和其它信任机制保证了网络的安全性。2.2本体及其推理应用2.2.1本体概述1)本体的由来本体一词源于哲学上的一个概念Ontology,其原本表示客观存在的_个系统解释或说明,关心的是客观现实的抽象本质【21l。如今,随着信息科学的发展,本体被逐渐引入知识工程、人工智能、语义Web等相关领域并得到了广泛关注和深入研究,被用以解决知识表示、信息组织、软件复用以及异构环境互操作和系统工程中知识重用和共享、知识获取和系统集成等各种计算科学相关问题。Neches[22】等人最早把本体的思想引入人工智能领域,他们于1991年提出了关于本体的最早定义,认为本体就是构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则。1993年,Gmber【23】提出了关于本体的一个更为流行的定义——“本体是概念模型的明确的规范说明”。在此基础上,后来的一些学者又有所改进,如Borst[24】提的“本体是共享概念模型的形式化规范说明”,Studerl25】提出的“本体是共享概念模型的明确的形式化规范说明"。10 第2章相关理论‘j技术概述由信息科学中上述关于本体概念的界定,可以抽象出本体的几个典型特征:明确性、形式化、共享性。所谓明确性,是指对本体中的概念和概念之间的约束必须进行明确的定义,不能像自然语言一样在不同的情境下表征不同的含义。形式化指的是本体中概念以及概念之间的关系必须通过形式化的语言进行描述,从而使得本体信息能够被计算机读取和理解。共享性是指本体反应的知识是某个领域内大家所共认的事实,而不是本体构造者自己的一种主观臆断,即需具有领域通用性。2)本体的描述本体描述的概念模型最终需要借助某种人工语言来表达,以使得计算机可理解,这种人工语言就是所谓的本体描述语言。目前本体描述语言种类繁多,大体上可以分为面向人工智能应用的本体描述语言和面向Web应用的本体描述语言。早在20世纪90年代初,人工智能的领域中便有大量的本体描述语言被提出。其中比较著名的如KIF,Ontolingua,Loom,OCML、Flogic等。KIF是斯坦福大学人工智能实验室提出的一种基于一阶谓词逻辑的形式化语言,能够定义对象、函数和关系,还可以表示元知识和非单调推理规则,在当时很好地解决了不同应用之间的知识交换问题。Ontolingua是一种基于KIF的本体描述语言,其以统一的、机器可读的方式实现本体的构造和维护,并可以便捷实现与其它知识表征系统的格式转换。Loom是由南加州大学设计实现的一种高级编程语言,主要用于构建专家系统和其它智能系统。同时它又被作为一种基于描述逻辑的本体描述语言,能够用来描述事实、定义、规则等,并且支持很好的推理机制。OCML是一种基于框架的语言,能够支持关系、函数、规则、类和实例的描述,同时很好地兼容Ontolingua标准。Flogic则综合了描述逻辑和框架语言的特点,支持多种面向对象的特征,如继承、多态、封装等,在推理方面则同时支持谓词演算和结构、行为继承。后来随着计算机网络的发展和普及,特别是语义Web理念的提出,各种面向Web.应用的本体描述语言相继出现,如SHOE、XOL、RDF/RDFS、DAML+OIL、OWL等。SHOE(SimpleHTMLOntologyExtension)是由马里兰大学开发的一种扩展HTML的本体描述语言,其设计目的在于增强HTML文档的自描述能力,从而改善面向Web的信息采集。XOL(XML-BasedOntologyExchangeLanguage)是由美国SRI研究院开发的一种基于XML语法的本体交换语言,其设计目的是为了实现异构软件系统的本体信息交换,特别是面向万维网的信息交换。RDF/RDFS是ResourceDescriptionFramework和RDFSchema的统称。RDF是W3C组织提出的一个面向Web数据交换的标准模型。在该模型中,任何对象都被描述为一种资源(resource),每一个资源分别由主体(subject)、谓词(predicate)以及客体(object)构成。RDFSchema则是一种通用的RDF词汇描述语言,其通过一系列确定语义的建模原语来定义概念层次的含义。DAML、OIL是两个不同组织提出的面向Web的本体描述语言,它们都是对 第2章相关理论‘j技术概述RDF/RDFS的扩展,提供了更为丰富的建模原语来实现更复杂关系的定义。后来这两种标准得以合并,变成了W3C推荐DAML+OIL标准。OWL(WebOntologyLanguage)是W3C组织最新推荐的一种本体描述语言标准,其同样建立在RDFt,RDFS的基础上,并将逐渐取代DAML+OIL,成为语义Web体系架构的一部分。为了适应不同的表达能力需要,OWL细分了三个子语言,即OWLLite、OWLDL、OWLFull,它们在表达能力方面逐渐增强,但是相应的推理复杂性也相应增加【26】。由此可见,在本体构建过程中有多种本体描述语言可供选择,在考虑各自特点的基础上,需要有一些判断的标准来指导我们的具体实践,一般来说会从以下几个方面衡量某个特定的本体描述语言:第一,其是否具有定义良好的语法结构。如同任何编程语言一样,任何本体描述语言都要求有某种规范、严格的语法结构,因为本体应用最终面对的是机器而不是人,而定义良好的语法结构是实现机器自动处理的必要条件。第二,其是否具有良好定义的语义,即我们常说的形式语义。形式语义强调语义的精确性表达,即同样的表达形式对于人和机器而言都具有绝对一致的含义,这彻底克服了自然语言的多义性和歧义性问题。第三,其是否支持有效的推理。有效的推理支持是建立在形式语义的基础之上。通过语义推理可以检测本体的一致性,发现本体知识库中蕴含的隐藏知识。第四,其是否具有充分的表达能力。本体描述语言的表达能力体现了其知识建模能力,通常越强的表达能力意味更为复杂的知识建模能力。但是从另一个方面,也应该认识到表达能力和推理能力是一对相互制衡的因素,越强的表达能力通常意味着更为复杂的推理,甚至导致推理的不可判定性。因此,通常需要在表达能力和推理能力之间寻求一个平衡点。2.2.2本体构建1)本体构建工具本体构建工具,又称本体编辑工具,李景等人从广义和狭义两个方面对其进行了界定,狭义来看,指用于本体构建、编辑、维护与开发的系统软件;广义来看,则指用于本体知识表示工程、本体库开发以及语义网基础构建的软件体系的总和。目前用于本体的构建工具已有数十种之多,功能大致相同但又有不同侧重,如ONIONS主要用于本体的合并,OntoClean主要用于本体评价,OntoAnnotate主要用于本体标引,Chimaera则是本体的合并和集成工具。这其中,比较著名的有斯坦福大学医学情报组开发的Prot696,斯坦福大学知识系统实验室研制的Ontolingua,马德里技术大学开发的WebODE,卡尔斯鲁厄大学开发的OntoEdit,曼彻斯特大学开发的OilEd,南加州大学信息科学研究所开发的Ontosaurus,英国开放大学知识媒体研究所研制的12 第2章相关理论‘j技术概述WebOnto等。根据本体构建工具所支持的本体描述语言的不同,它们大致又可以分为两大类。第一类如Ontolingua,OntoSaurus,WebOnto等都是基于某种特定语言的本体构建工具。另一大类如Prot696、WebODE、OntoEdit、OilEd则支持多种本体描述语言,可以导入、导出多种基于Web的本体描述语言格式,如RDF限DFS、DAML+OIL、OWL刍苣【27l寸o2)本体构建方法不管应用什么的样的本体构建工具,在本体丌发过程中还是有一些值得共同遵循的方法和原则。杜小勇,李曼等人【28】以及杜文华【29】等学者分别就相关方面做了大量研究,下面以表格的形式就本体建构方法做了一个简要汇总。’表2.1本体建构方法汇总构建方法概述步骤IDEF-5方法以结构化分析方法为基1、项目组织和课题范围界定..础,通过图表语言和细化2、收集本体相关原始数据“说明语言来获取某个领域3、分析原始数据的本体4、建立初始本体5、精炼与确认本体.骨架法又称为企业法,专门用于1、领域分析和范围界定企业本体的建模,提供了2、本体分析,确定本体概念及其关系企业本体开发的指导方针3、本体表示和文档化4、本体评价jTovE法该方法源丁多伦多大学企1、创建能够激发本体构建的场景业整合实验室的一个项2、面向本体适应能力的非形式问题设计目,其目的是建立一套为3、本体术语的提炼与规范化商业和公共企业建模的集4、面向本体适应能力的形式问题设计成本体5、本体公理的形式化6、本体完备性定义METHONTOLOGY一种面向化学领域的本体1、系统规划管理:基于任务进展、资源需求、法构建方法,后被马德里大质量保证几个问题学人工智能图书馆采用2、开发阶段:具体分为规范说明、概念化、形式化、执行和维护五个步骤3、维护阶段:包括知识获取、系统集成、评价、文档说明、配置管理等循环获取法一种循环式的本体建构方1、选择数据源,即选择一个通用的核心本体作法为本体构建的起点2、概念习得并进行领域聚焦3、关系学习4、评价并决定下一轮循环KAarUS工程法源于KACTUS项目,其目1、应用环境和相关组件说明13 第2章相关理论+’j技术概述的的是开发出技术系统整2、基于相关本体的初步设计个生命周期的知识重用方3、本体构造法学七步法由斯坦福人学医院所拟1、确定本体的专业领域和范畴定,主要面向领域本体的2、考杏复川现有本体的可能性开发3、列出本体中的重要术语4、定义类和类的等级体系5、定义类的属性6、定义类的分面7、定义类的实例分析上述几种本体建构过程的异同,可以看出本体建构过程通常需要经过这么几个有序的阶段。首先是领域界定问题。大部分的本体应用都是面向L个具体的领域,所以需要首先确定本体的应用领域、应用范围、面向的用户、构建的目的等问题。然后是项目的组织与规划问题,一个大型的本体工程可能涉及大量的人力、物力和财力,是一项长期的工程,宏观层面的项目规划能够使后续工作有章可循。其次便是知识获取过程,即获取规范化的领域术语。这一过程可能通过手工的方式,也可能通过自动或半自动的方式。再其次便是知识的分析和提炼过程,即对采集到的领域术语进行分析、归类,确定类的特性、等级以及类之间的关系。这一过程通常需要领域专家的指导,而且可能借鉴其它相关领域本体和元数据标准。最后便是本体的评价及基于本体的实例构造。评估的过程可能基于需求描述、用户反馈,也可以基于特定的公理逻辑。本体作为一种知识表示系统,具有元数据的特性,最终将指导领域实例的标注工作。2.2.3本体推理1)基于本体的推理方法人类大脑之所以表现出如此强大的智能性,并不是说其本身有无限的知识容量,最主要在于其能够基于现有的知识推理扩展出无限丰富的潜在知识。本体建构的知识框架就如同人类大脑的一个模拟,其最终目的不在于知识的存储,而在于如何利用这些模型化的知识,解决具体的知识应用问题,而这个应用的关键就是知识推理。具体来看,目前基于本体的推理服务主要体现在这么几个方面:本体一致性检查、蕴含关系发现(如包含关系、可满足性)、基于概念或基于实例的查询服务、基于规则的推理等。知识推理一直是人工智能领域研究的一个重点和难点,基于本体的推理原则上属于知识推理领域的一个分支,因此在很大程度上继承了传统人工智能领域的~些思想。就目前的研究来看,基于本体的推理主要分为三大类:基于描述逻辑的推理、基于一阶谓词逻辑的推理、基于规则的推理。如今众多的本体描述语言如Loom、SHIQ、OWL等,都以描述逻辑(Description14 第2帝相关理论’j技术概述Logic)为逻辑基础,因此基于描述逻辑的推理是如今的一种主要本体推理方法。描述逻辑是一族用于某个应用领域建模的知识表征形式系统的统称,它首先定义一些领域相关的概念(又称术语),然后使用这些概念来刻画领域内的个体信息【30】。描述逻辑是以逻辑为基础构建的形式语言,所以其不仅能够详尽地刻画领域知识,也能够从建模的显性知识中推演出隐含的知识。整个描述逻辑的体系架构建立在概念和角色的基础之上。通过定义构造算子和相应的演绎规则可以构造复杂的概念和角色体系,其中的概念相当于一阶谓词逻辑的一元谓词,角色则相当于二元谓词。描述逻辑是一族知识表征语言,不同的描述逻辑系统支持的构造算子不同,因此具有不同的表达能力和推理复杂性。描述逻辑作为一个知识表征系统,其系统架构如下图2.2所示,其中由描述逻辑语言表征的知识库包括两个部分,即TBox和ABox。1100x用来表征概念体系,ABox则包含基于基于概念体系的命名个体实例断言。描述逻辑的推理也相应地建立在TBox和ABox的基础之上。知识库一TB。xk:描述逻辑语言】<>【推理:叫AB。xF图2.2基于描述逻辑的知识表征系统目前基于描述逻辑的推理方法主要有两种,一种是结构化包含算法(Structuralsubsumptionalgorithms),一种是表算法(Tableaualgorithms)。结构化包含算法通过比较概念描述的句法结构实现包含关系的推理。这种方法非常高效,但是仅适用于一些弱表达能力的描述逻辑语言,而不能运用于那些支持“完全否定”和“析取”运算的描述逻辑语言。对于那些强表达能力的描述逻辑语言,则通常使用Tableau算法。Schmidt.SchauB和Smolka[31】等人最早提出了基于ALC语言的Tableau算法思想,后来更多的学者在原始Tableau算法的基础上进行改进,提出了各种改进的Tableau算法以支持更强表达能力的描述逻辑系统。Tableau算法把基于描述逻辑的四个基本推理问题(可满足性、包容性、等价性、不相交性)最终归结为可满足性的证明问题:一个概念是可满足的,当且仅当存在一个解释(或称为模型),使得该概念在该解释下能够映射到论域上一个不为空的集合。该算法用一棵树结构来表征这个的模型,其中树节点代表一个“个体",树边代表个体之间的“关系”。算法过程大致如下:首先把目标概念初始化为一棵单节点的树,然后不断应用预定义的几种扩展规则对这棵树进行扩展,直到无法扩展为止。当最终能够得到~棵不包含冲突的树时,表明存在满 第2章相关理论‘j技术概述足目标概念的一个模型,即目标概念可满足。在人工智能领域,一阶谓词逻辑推理是自动定理证明的一个重点研究方向。描述逻辑是一阶谓词逻辑的可判定子集,因此,基于描述逻辑的推理理论上可以转化为一阶谓词逻辑的证明。部分本体推理应用直接把OWL形式的本体描述转换成一阶逻辑陈述,然后使用人工智能领域的一阶逻辑定理证明器实现本体推理,如著名的本体推理应用Hoolet使用了Vampire定理证明器,Sumia使用了Otter定理证明器。除此之外,基于规则的推理也在本体推理中得到广泛的应用,比较典型的应用范例有Jess和Jena。通常规则被表示为ifAthenB的形式,其中A称为规则的前件,B称为规则的后件。基于规则的推理可以分为前向推理和逆向推理,前向推理就是把规则的前件与事实库进行匹配,选择可触发的规则,再用触发规则的后件更新事实库,直到问题求解或没有可用规则为止。逆向推理与上述过程类似,只不过其匹配的是规则后件,然后用规则前件更新事实库。推理的效率很大程度上依赖于匹配算法的效率,其中比较有名的规则匹配算法是RETE。RETE算法利用了专家系统的时间冗余性和结构相似性等特点,通过静态判别网络和中间结果缓存有效地减少了匹配操作次数,提供了高效的前向和逆向推理,但这也不可避免地引入了空间换取时间的弊端。2)本体推理引擎本体推理引擎是实现智能系统的一个基础性构建,如本体构建工具、基于本体的应用系统,都必须直接或间接的利用本体推理引擎的推理服务。因此国内外许多研究机构研发了大量本体推理引擎,其中比较典型的有W3C用来对本体进行测试的本体推理机,DIG推荐的基于描述逻辑实现的本体推理机、一些集成在语义网开发平台和本体管理系统中的推理引擎,如如惠普实验室的Jena2、德国Karlsruhe大学的KAON2、IBM的SNOBASE系统。其系统结构如图2.3所剥32J:检索用户开发用户II...⋯.⋯▲●◆上{本体解析器查询解析器结果输出模块JLAPl+推理查询模块图2.3本体推理引擎系统结构本体解析器负责读取和解析本体文件,它决定了推理机系统能够支持的本体文件格式和后续性能。查询解析器负责解析用户的查询命令,虽然SPARQL已经成为了16 第2章相关理论‘j技术概述RDF的候选标准查询语言,但还没有一种针对OWL的标准查询语言,目前使用较多的有RDQL、nRQL、OWL广QL等。推理查询模块负责接受解析后的本体文件和查询命令,并执行推理流程。它是本体推理机的核心部件,因为它直接决定本体推理系统的推理能力。结果输出模块负责包装推理引擎的导出结果,以满足用户的不同需求。API模块面向开发用户,一般包含三大部分,OWL-API、DIG接口以及编程语言丌发接口。OWL-API为用户操作OWL本体文件提供了一种标准接口。DIG接口为描述逻辑推理机系统提供了一组标准的服务接口,它允许前端,如本体编辑器,挂接到后台不同的推理引擎上。国外在推理引擎方面研究较早,很多机构都推出了自己的推理引擎产品。如表2.2所示为一些典型的产品【321:表2.2国外推理引擎典型产品说明名称开发组织URL类别PelletMINDS、M气Phttp://www.mindswap.org/2003/pellet/OWL-DL推理机嚏:GroupJenaHp实验室http://jena.sourceforge.net/index.html语义Web基础开发框架RacerGmbH&Co.KGhttp://www.racer-systems.com/products/OWL推理机,download/index.htmlKAON2AlFBhttp://kaon2.semanticweb.ore,/支持安全规则的本体推理机Fa(玎Horrocks等http://owl.man.ac.uk/fact/DL分类器HooletHorrocks等http://owl.man.ac.uk/hoolet/基于一阶逻辑证明器实现的OWL推理机F-OWLUMBChttp://fowl.sourceforge.net/基于XSB的OWL本体推理机MetalogW3Chttp://www.w3.org/RDF/Metalog/语义Web推理系统CwmW3Chttp://www.w3.org/2000/10/swap/doe/语义Web通用数据处理器cwm.htrnlJessErnesthttp://www.jessrules.tom/规则引擎系统蹦edmanHill在国内,相关研究起步相对较晚,截至目前为止,国内虽然出现了一些集成本体推理机的应用系统平台,但尚未出现自主开发的具有相当影响力的本体推理引擎,如由清华大学开发的WODOS应用平台,浙江大学开发的OKMF,上海交通大学开发的SWAP系统以及东南大学开发的Falcons系统等。17 第2章相关理论‘j技术概述2.3查询优化2.3.1查询优化及其必要性搜索引擎的任务在于根据用户提交的检索式遴选最佳的文档集合提交给用户,然而如何才能保证检索结果对用户来说达到最佳却一直是学者不断探讨的一个问题。Spink和Jansen[33】等学者曾在研究中指出用户信息需求的满足通常需要用户与搜索引擎引擎之间的一系列交互过程,即Web搜索过程通常表现为“查询一学习一优化查询"这样一个反复的过程。这里查询优化是指为了提高搜索引擎的检索性能,针对当前查询所做的一系列查询扩展或改进措施的总和。随着网络的进一步普及,人们对搜索引擎的依赖程度在不断增加,相应地对其检索性能的要求也在不断提高。但总的来看,目前依旧存在着很多制约其检索性提高的因素。归纳起来,主要包括搜索引擎所处的外部环境和其内部所使用的检索模型两个方面。从其所处的外部环境来看,首先是自然语言的复杂性问题。对于当前主流的信息检索系统而言,信息都是以字词的形式来描述。但是自然语言罩同一个概念可能会有不同的表达方式,同一种表达方式在不同的情境中也可能表征不同的意义。所有这些不确定性和模糊性对于缺乏思维判断能力的搜索引擎来说,都将成为检索性能提高的一大障碍。另外,用户的使用习惯比如说检索式构造习惯、浏览习惯也在一定程度上也影响到检索性能的提高。通常用户倾向于构造极其简短的检索式,这就不可避免地引入了检索语义的模糊性,因此从单个检索式出发得出的检索结果也很难保证其准确性。一些针对用户浏览习惯的行为研究表明用户通常只会关注那些排序靠前的少数几个检索结果,这就给搜索引擎的检索性能提出了更高的要求。最后,Web海量资源的无限度增长也是一个重要因素,这些资源种类多样,格式各异,而且缺乏特定的审核机制,所有这些都将影响到检索性能的提高。·从检索模型的角度来看,一个值得关注的问题就是查询空间和文档空间存在的不匹配性。Fumas【2】等人曾专门研究过查询空间和文档空间之间存在的“词汇不匹配问题",发现对于同一词汇,不同的人所表达的意义存在着惊人的差异性。Bollmann.Sdorra,Raghavant34J同样指出查询空间和文档空间之间结构的不一致性问题,认为把查询和文档视为不同的术语源具有一定的指导意义。Cui[”】等人则进一步尝试了用量化的方法验证文档空间和查询空间这种差异性,以微软的Encarta搜索引擎日志为研究对象,通过测量文档失量和查询矢量的相似度,发现两者之间平均余弦相似度仅有0.28。综观上述两方面的因素,我们可以看到完全基于检索本身构造的查询难以保证检索的查全率和查准率。为进一步提高检索性能,需要通过有效措施对检索式进行查询18 第2章相关理论’j技术概述扩展、重构、优化,以便更好地适应复杂的检索环境并克服内在检索模型的弊端。2.3.2查询优化方法1)基于历史查询的查询优化Raghavan,Severl36J等人在研究中提出了重用历史最优查询的思想,即把用户提交的新查询与持久化在查询库中的历史查询进行匹配,将那些高匹配的查询所对应的满意结果集推荐给当前查询用户。这种尝试突破了以前“查询.文档”匹配的度量范式。相关的还有Fitzpatrick,Dentl37l等人基于历史查询的自动化查询扩展研究,即以历史相似查询所返回的前几个结果集作为数据源来扩展当fj{『查询。2)基于情境的查询优化.:基于情境的查询优化思想试图通过用户所处的情境信息辅助后续的查询优化过程。这些情境信息可由用户或者搜索引擎显式地提供,也可从当前搜索环境隐式地推理得到。通过直接询问的方式获取用户相关的情境信息是最简单的一种方法,如Gloverl38J等人开发的Inquirus2系统。Inquirus2是一个元搜索引擎,它要求用户提交检索式时选择相应的搜索类别,然后系统把不同类别的查询提交到不同的目标搜索引擎进行搜索,这些类别信息也可能辅助查询修改。GooSe也启动了相关的个性化搜索服务,其通过显式地搜集用户的个性化偏好信息来优化查询结果的选择和排序。另一种便于利用显式情境信息的场合是主题搜索引擎,这种搜索引擎在搜索之前就已经固定在了一个特定的搜索领域之中,通过这些领域情境信息可以进行一些相关的查询优化。但很多时候我们无法显示地获取这些情境信息,此时自动化地推理用户情境是一种非常有用的方式。根据情境信息信息源的不同,可以大致分为外部情境源和本地情境源两种推理模式。用户很少孤立地执行某项搜索行为,通常当前的搜索行为会与目前正在进行的其它活动具有或多或少的关联,因此基于用户搜索行为之外的用户活动(即所谓的外部情境源)来推理潜在的搜索情境具有一定的现实性。Budzik,Mammondl39J开发的Watson系统,Finkelstein[40I等人开发的IntelliZap系统以及“ebe咖an【41】开发的Letizia都是基于这样一种思想。其中Watson基于用户在其它应用软件中留下的使用痕迹获取一些用户相关信息,然后基于这些信息扩展用户的查询。IntelliZap系统的检索式由用户从正在浏览的文档中标识出,被标识检索式周围的文本将构成当前检索的情境,被后续检索所利用。Letizia则会自动分析用户当前J下在浏览的网页内容,使用术语加权的启发式算法抽取信息型关键词,然后主动地搜索与当前页面相关的页面,从而提供浏览助理的功能。基于本地情境源的情境信息获取通常针对当前搜索结果,如排名靠前的结果集,抽取情境相关的术语,然后扩展初始查询。19 第2章相关理论‘j技术概述3)基于用户相关反馈的查询优化基于用户相关反馈的检索过程是一个“检索一反馈—优化”的循环过程,用户提交查询后,系统向用户返回一组文档。用户在检查完这些文档后,标出那些相关的文档。然后反馈分析系统从这些用户认为相关的文档中提取重要的特征词汇,在新的查询表达式中不断提高这些词汇的重要性。这种优化方式的优点在于把整个搜索过程分成几个小的步骤,每一个步骤都容易把握,提供了一个受控过程来强调或者弱化某些词汇。缺点也很明显,就是需要人工的参与,加重了用户的负担【4引。20 第3章皋于奉体的用户意图推理及其查询优化第3章基于本体的用户意图推理及其查询优化3.1用户检索意图3.1.1用户检索意图及其研究意义用户检索意图可以理解为驱动用户检索行为的一种隐性信息需求,常被量化为用户希望得到的检索结果集。检索式作为用户与检索系统之间的沟通语言,通常被认为是用户检索意图的最直接载体。然而根据意大利学者米扎罗(StefanoMizzaro)的理论,用户在实际检索中提交的检索关键词,只是用户真实信息需求的“冰山一角’’。米扎岁43】在信息检索相关性理论的研究中曾指出,用户的信息需求可以为分四个层次,分别为用户潜在的真实信息需求(RIN)、用户感知或意识到的信息需求(PIN)、用户表达出的信息需求(Request)、检索时的检索式(Query),如图3.1所示。感知表达鹦检索一请求。R(eQquueer。y。),感知的信息需求(PIN)真实的信息需求(RIN)图3.1用户信息需求层次模型米扎罗把用户抽象为一个具有信息需求的问题情境,因为解决问题的需要,用户产生了最初的信息需求,他将这种需求被称之为“真实的信息需求”(RealInformationalNeed)。用户感知到这种信息需求,并在头脑中形成其所谓的“感知的信息需求"(PerceivedInformationalNeed),即用户所处的问题情境在大脑中的一种隐式表征。然后用户再基于头脑中表征的问题情境,把PIN表达成一种“信息检索请求”(Request),即以人类自然语言形式表示的一种检索请求。最后根据信息检索系统的接口规范,检索请求被形式化为规范的以系统语言表示的查询检索式。该模型形象地表达了用户检索过程背后的内在心理过程。由此可见,信息检索系统真正获得的只是用户需求经过感知、表达、形式化系列操作之后形成的规范检索式。不考虑整个过程信息的歪曲或者丢失,可以简化地认为最终的检索式便是用户真实信息需求的完全表征,这正是传统信息检索系统的一种理想假设。然而事实情况却并非如此,很多学者的研究表明这里描述的“感知、表达、形式化”过程其实存在着大量信息的失真或不平衡性。Belkin[删等人曾在早期的用户认知状态建模研究中提出了知识的非常态状态(AnomalousStateofKnowledge)概念,强调了人们在感知内心21 第3章基于奉体的用户意图推理及其查询优化需求的过程中所存在的那种不确定性。Ingwersenl45】也在用户认知因素方面的研究中提出了检索用户存在的知识不完整性状态、知识不确定性状态等现象,这表明从RIN到PIN之间的“感知”操作存在着忠实表达的问题。另外Furnas[2l等人提出的“词汇问题”,则强调了文档词汇空间和查询词汇空间的不匹配问题,即我们在查询中使用的词汇跟基于文档内容索引的词汇可能并不存在那么可靠的匹配性。Ingwersenl45J通过用户行为研究发现,检索行为中存在普遍的“标签效应”(LabelEffect),即人们倾向于用标签或者关键词的形式来表达自己的需求,而不是一个完整的需求陈述。而且通常这些标签都尽量地趋向于精简。清华大学智能技术与系统国家重点实验室的余慧佳、刘奕群№J等人基于大规模日志信息的统计发现,中文用户提交的查询平均长度为1.85个词,与CraigSilverstein[47】等人研究的英文用户有大致相同的结果(2.35个词)。由此可见“忠实表达"的问题也可能出现在由PIN到Request之间的“表达”过程。最后一步由Request到Query的“形式化"过程也因为自然语言与系统语言之间表达能力的差异性,存在语义丢失或歪曲的现象。总之,最初的真实信息需求经过多级非完整性传译过程,进入最后的检索式阶段时,可能只剩下了原始需求的少许片段,因此从用户提交的检索式出发,推理用户潜在的检索意图具有非常现实的意义。对于检索用户而言,由于用户意图分析引入了更多的智能性和个性化,必然在很大程度上提高用户的信息检索效率和使用满意度。就搜索引擎本身来言,用户检索意图的自动化检测能够改进页面评分机制、优化结果显示等,由此可能带来更广的用户源和市场占有份额。从商业的角度考虑,用户检索意图分析也有巨大的应用价值,如在电子商务网站中,可以分析目标用户潜在的商品需求,进而实现个性化的商品推荐,从而达到网络营销的目的。就整个信息检索领域而言,从早期的人工分类与检索,到后来基于关键词匹配的自动化检索,再到基于用户潜在意图的智能化检索和个性化信息推送,则标志着信息检索领域内一个里程碑意义的进步。.3.1.2当前研究中存在的问题及改进方案首先,目前关于用户检索意图的分类基本上仍沿用Broder提出的那一套分类体系,这些年来几乎没有什么变动。这个分类体系的划分粒度相对较大,没有体现很好的领域性和层次性,可以说是一种基于宏观层次的用户意图分类,所以对于实际搜索性能的改进或者优化来说,指导意义十分有限。其次,先期的研究通常基于搜索日志,通过人工的方法,来判断用户的检索意图。后续研究中,又有部分研究者开始考虑基于用户点击流、用户反馈等检索背景信息来辅助检索意图的判断。所有这些方法都是基于历史检索的用户意图判断,然而很多时候,用户意图的推断需要发生在具体的检索行为之前,即搜索引擎获取检索意图的目 第3章綦十奉体的用户意图推理及j£查洵优化的是为了实现当前检索的过程优化,而不是在当前检索行为之后来推断用户的意图。最后,当前研究关注的大都是一个统计意义上的用户检索意图,或者说是一种普遍意义上的泛化意图。这种做法有其不合理之处,因为个性化搜索的最终目标是针对不同用户提出不同的信息推送方案,或者能够感知用户所处的不同情境,并做出相应的检索策略调整。因此针对普遍意思的用户检索意图进行推断,似乎仍与我们期待的个性化搜索相去甚远。QiGuo,EugeneAgichteinl8】在其研究中曾指出大众化意图与个性化意图之间的不匹配性问题,并认为基于特定用户实例的检索意图推理比泛化意义的用户意图推理更具有现实的意义。在这一思想指导下,他们提出了基于客户端用户点击行为,面向特定用户实例的个性化检索意图推理方案,同时丌发了名为CSIP的浏览器插件来捕获鼠标点击、移动、页面打印等多种客户端用户行为。这些信息被实时传递到远端服务器,用于辅助当前用户意图的推理。这种思想在实验研究的背景下有其进步意义,但仍不便于在大范围的Web环境下进行应用。针对这几个问题,本文打算在这几个方面有所改进。第一,细化用户检索意图的表示模型,使其较好地反映问题领域性和层次性。第二,在检索实施之前,从历史检.索流所构成的检索情境中捕获当前用户意图,从而为当前检索实现优化。第三,引入用户个体识别机制,实现针对单个个体实例的用户意图捕获和查询优化。3.2面向用户意图的信息检索流程3.2.1基于检索式流的用户意图推理思想目前大部分搜索引擎的检索过程都只针对检索式本身,而非检索用户,在用户个性化方面表现尤为不足。但通常情况下,对于不同用户,或者不同检索情景之下的同一用户,相同的检索式往往潜藏着不同的检索意图。如考虑以下情景,用户甲、乙分别连续向搜索引擎提交如下检索式。用户甲:全国高校排名_南京大学排名_南京师范大学用户乙:全国研究生院介绍一南京大学研究生院一南京师范大学这两个情景均包含一个检索式序列,在第三次查询时,虽然都提交了相同的检索式“南京师范大学”,如果不考虑检索式流所构成的检索情景,我们很难判断这两个人的检索需求有何不同,按照传统搜索引擎的做法,对这两个检索情景只能做同一性的对待,搜索网页中含有“南京师范大学"字眼的高得分文档,这种“去个性化"的搜索方式不能区分这两个检索有任何的区别。然而通过人工地分析两组检索式序列构成的情境,可以容易地发现两个相同检索式背后其实隐藏着比较明显的用户需求差异。对用户甲来说,其可能更关注“南京师范大学排名”的相关信息,而对于用户乙来说,其应该更关注“南京师范大学研究生院”的信息。由此可见基于用户检索式流 第3章基于本体的用户意图推理及j£盘询优化构成的检索情境进行用户意图的挖掘,应该是一种比较行之有效的方法。通常当用户有了某种信息检索需求之后,其会凭借自身的经验构造一个初始检索式,然后提交给系统。系统依据某种相关性度量提取满足要求的文档返回给用户,经过了系统的第一级筛选之后,用户开始根据自己实际的信息需求进行第二级信息筛选。其结果可能是用户得到了满足需求的文档,然后终止当前信息检索过程,或者重新开始一个新的检索过程(即提交新的检索式)。当用户继续提交检索式时,可能有两种情况,其一是用户还有其它的信息检索需求,其二是第一次查询返回的结果不足以满足用户的需求。这两种情况都将在一个Session中形成一个用户检索式流。通过检索式流分析可以挖掘一些潜在的用户信息,如用于判断用户是否还在进行同一个话题的检索;或者因第一次检索需求已经得到满足而进入了一个全新的检索话题。整个过程如图3.2所示。结果不满足需求.图3.2用户信息检索流程这些信息可以很好地辅助后续的查询优化过程,从而使系统检索更贴近用户的意图。考虑如下检索情景,用户连续提交检索式:CPU配置_显卡配置呻主板配置。从这一串检索式流所构成的检索情境出发,基于我们现有的知识体系,应该可以做出如下合理的猜测,用户在关注“计算机主机配置”的信息。捕获这一隐性信息,并实施相应的查询优化,应该能够在一定程度上弥补传统检索的不足,如图3.3所示。 第3章基于奉体的用户意图推理及)e查询优化知识库i、、.检索式流.,.,●、、,·,一—八巴㈦、)计算机主|、、ll,—,!歹昱“....7置il扁雨舟酮罟L7⋯⋯⋯J1杏询优化图3.3从用户检索式流中挖掘检索意图的示例图3.2.2基于检索式流的信息检索流程传统信息检索流程几乎完全建立在用户检索式的基础之上,用户在一定的信息需求指导下,按照检索系统提供的检索接口构造一个规范的查询请求,查询被提交给系统。在一定的匹配规则指导下,该检索请求将与系统中的文档集合进行匹配操作,高匹配的文档被返回给用户。考虑这一过程中人机交互、认知等因素,这个流程可以简单地用图3.4表示:图3.4传统信息检索流程从上图可见,当前检索式是整个检索过程的核心,它完全决定了搜索引擎的最终结果。整个检索系统类似于自动化流水线上的一台加工设备,它唯一的任务就是来料加工,然后输出相应的产品。它不会关注是谁送来了这~批加工材料,也不会思考当前加工材料跟前一个材料有何关系,更不会考虑从当前客户所思所想出发做出一些优化的处理。它完全采用一套固化的处理逻辑自动化地完成整个处理流程,所以针对同 第3章基十本体的用户意图推理及其金询优化样的处理材料,必然意味着一致的处理结果。然而J下如本文曾多次提到问题,在Web搜索环境下,用户的需求是一个复杂而多变的问题,针对同样的需求可能有不同需求表达;同样的表达,也可能代表不同的用户需求。这种复杂多变性不仅因人而异,对于同一个人也可能因时因地而异,这给用户检索意图的建模带来了挑战。完全而准确地建模这些隐性需求,从技术和认知的角度来说都不现实,但是走另一个极端,如传统意义上完全泛化意义的搜索,也势必限制了搜索性能的额外提升空间。因此本文采取了一条折衷路线,即在用户个体识别的基础上,基于当前用户的检索历史和相应的知识库,进行有限的用户意图推理,然后在此基础上进行相应的查询优化,最后再提交给检索引擎进行检索处理。其大致过程如图3.5所示。图3.5基于检索式流的信息检索流程基于上述检索流程,本文后续章节将分别解决以下几个问题:1)用户意图的哪些因素应该被捕获以及如何捕获?2)如何利用捕获的这些信息来改进检索性能和用户满意度?3)如何评价该模型的准确性和有效性?3.3基于本体的用户检索意图建模3.3.1用户意图建模概述实现基于用户意图的查询优化,意图的建模是第一步工作。如何针对用户意图在语义层面寻找到一种恰当而准确的表示模型,一直以来都是众多学者关注的一个问题。这主要基于这么几点原因:用户知识的不可观察性、用户交互的不确定性、用户信息需求的模糊性以及用户知识的动态性。传统方法通常使用一系列孤立的词汇序列来表征意图。在垂直搜索领域,一些学篇 第3章基十奉体的用户意图推理及j0金询优化者采用种子查询来表征检索意图的主题特征,即某一主题的用户意图被描述成一系列查询的集合。这种方式需要大量的手工实例标注工作,后续的一些研究则在查询标注方面进行了一些自动化探索,如Li,Wang[48】等人采用的基于用户点击图模型的方法。也有一些学者通过构造某种用户认知模型来表征用户意图,如HienNguyen[49】把用户意图分解为兴趣(Interest)、偏好(Preference)、情境(Context)三个层面,即所谓的IPC用户认知模型,并通过用户相关性文档所反映的用户行为信息来动态、增量式地捕获并更新该认知模型。用户意图建模的另一个关注点是领域定位问题。人类知识体系不是一个简单的水平分类,而是一个多领域、多层次的复杂体系,建立在该体系基础上的用户意图也必然体现这一特点。Broder提出的三维分类体系对于用户意图的分析有其指导意义,但是显得过于粗泛和平面化,因此对于查询优化指导意义并不明显。另外用户意图是一个随任务变化而变化的用户心理状态,这种变化不仅表现为问题领域的变化,即使是在同一问题领域,也可能存在抽象层次的变化。如何准确地捕获用户意图的这种变化趋势也应该成为用户意图建模的一个关键。综合考虑上述因素,下文拟从静态和动态两个角度柬建模用户的检索意图。其中静态视角由用户当前所处的问题领域描述,动态视角由用户意图的变化趋势表征。利用知识库表征的知识模型,在当前检索式及其近期检索历史构成的检索情境中推断检索式背后隐藏的用户意图,并最终完成静态和动态两个角度的用户意图建模,如图3.6所示。℃富j‘,。箍<刊茬鑫∥‘..”"。图3.6用户检索意图建模方案检索式流-。-‘’‘’,-●~、.历史检索式、、●当前检索式,·7,’‘.,‘-.●‘-,一。,3.3.2本体知识库构建1)Wikipedia简介Wikipedia(维基百科)是一个基于Wiki技术的全球性多语言百科全书协作计划,同时也是一部用不同语言写成的网络百科全书,其目标及宗旨是为全人类提供自由的百科全书。维基百科全书自2001年1月15同正式成立,截至2009年11月,英文维基百科已有300万条条目,全球所有271种语言的独立运作版本共突破1400万2『7 第3章基于本体的用户意图推理及je盘询优化条条目。中文维基百科于2002年10月24同正式成立,截至2009年11月,中文维基百科已拥有282,000条条目。而且,随着新生事物和重大事件的发生,这一人类所共创的知识工程每天都在得到补充和完善。Wikipedia知识库由概念节点、类别节点以及相互之间的联系组成,并被组织成一个层级的有向非循环图结构。每个Wikipedia概念都至少隶属于一个Wikipedia类别,当然由于领域的交叉性,也可能隶属于多个类别。同时每一个概念链接一个描述页面,其中包括概念的解释,与概念相关的描述信息等,在概念描述页面中可以接链接到其它任何相关的概念或类别。Wikipedia类别也可能同时隶属于一个或多个类别,其下又通常包含多个子类别(即亚类)和多个概念。这样,在Wikipedia概念节点和类别节点之间便产生了各种语义联系,如等价关系、层级关系、关联关系。Wikipedia知识库的一个片段如图3.7所示。大扫除福字压岁钱红包开年饭全盒七菜做牙春酒春贴⋯派财神类别[]概念0概念之间的关联关系●⋯◆节点之间的层级关系———◆图3.7Wikipedia知识库结构片段图2)基于Wikipedia的本体知识库构建通常本体构建过程的第一步是确定本体的领域和范围。一方面,人类知识体系如此庞大,很难构建一个真正完整的全领域型本体;另一方面,现实中本体的应用也通常是面向某个具体的领域。然而在通用搜索引擎领域,情况却有所不同,因为通用搜索引擎面对的是各领域的用户和千变万化的需求,某个单领域的本体不可能覆盖所有的用户检索情境。就目前的现状来看,构建一个广而详尽的全领域本体还是一项挑战而耗时的工作,因为本体的自动化构建技术尚不成熟,手工的构建则需要太多的领域专家体力劳2R 第3章基十奉体的用户意图推理及j£查询优化动的投入。综合考虑这几方面的因素以及本研究实施的可行性,本人把本体构建的目光转移到了Wikipedia知识库中。Wikipedia本身是一个以网络为媒介,以庞大的网络用户群为支撑,综合各领域知识所构造的一个全领域知识库。该知识库中的Wikipedia概念、类别以及相互之间的联系在一定程度上描述的正是一个全领域本体。因此,本文决定以Wikipedia为数据源,通过定向数据采集和自动化数据提取技术,抽取其中知识结构,自动化地构造一个全领域的本体库。其大致过程如图3.8所示。本体构建本体概念_-斗构建‘斗上关系构建本体索引构建概念描述文档上索引文档图3.8基于Wikipedia的本体知识库构建过程上述流程的第一步实现数据源获取,由专门的蜘蛛程序从Wikipedia顶层类别页面(http://zh.wikipedia.org/zh·cn/Category:%E9%A0%81%E9%9D%A2%E5%88%86%E9%A1%9E)为入口,顺着Wikipedia类别、概念层次结构,由上至下顺序地完成页面下载。知识提取模块按照预先设计的提取模式,从半结构化的HTML文档中提取出Wikipedia类别名、概念名、概念描述以及由网页超链接所体现的各种节点关系,如图3.9所示。本体构建模块将前一过程提取出来的Wikipedia概念、类别映射为本体中的概念实体,Wikipedia概念与类之间的层级关系映射为本体概念实体之间的关系。通常本体中每个概念都由多个属性进行描述,但本文为了简便起见,仅对每个本体概念进行最简单的属性描述,比如对于Wikipedia类别所映射得到的本体概念实体仅描述其概念名称和上位概念,对于Wikipedia概念所映射得到的概念实体则描述其概念名称、上位概念及概念定义。本体概念之间的关系可以有多种,如subclass.of关系、part.of关系、same.as关系以及其它一些语义关系。但本文仅考虑最普遍的由Wikipedia类层次结构所反应的subclass.of关系。最后一步是本体索引,其目的是为了便于后续用户意图建模过程中检索式到本体概念的映射操作。 第3章基于奉体的用户意图推理及其金询优化舅墨j{)岳雌鞠哪嗨曼、%I磷:●々的耘奠’备薯聋证'_蟹!盘'中●觉憋☆蠹=■f阜h^≈卓惴{÷张幡嚏佑烹化奄中华文化的一}t髓成玮分.韭类≤参⋯呻囊篇鼎/小,《曼童多厂)图3.9基于Wikipedia页面的数据提取示意图3.3.3基于本体的用户意图捕获与表征1)用户个体身份识别对搜索引擎而言,用户环境千变万化,要准确地判断一个用户的身份,最准确而行之有效的方法就是通过登陆验证机制,如Google为用户提供的个性化信息推送服务就利用了登陆验证的方式。其带来的另一项好处就是便于用户搜索痕迹的持久化和基于历史数据的用户兴趣和使用习惯挖掘,这些数据可以用于支持后续搜索引擎的查询优化过程。本文并未采取这种方式,主要基于这么几点原因:首先,从最省力原则的角度考虑,目前大多数搜索引擎用户并不习惯于先登录后搜索的使用模式;其次,用户所面对的问题情境通常千变万化,很长时间跨度内挖掘的一些规律不一定具有很好的通用性,相反,短时间跨度内的历史检索通常对当前检索意图推断具有更大的信息价值,所以耗费大量资源去实现用户检索历史的持久化也许并不是最好的方法。除了用户登陆验证的形式之外,标识客户端机器的口或MAC地址也是一种用户识别机制,但是在公共网络环境下,这种机制的准确性也难以保证。因此从简单性考虑,本文拟采用Session机制实现用户身份标识。根据Web服务器的工作原理,当用户启动客户端浏览器,并第一次连接到Web服务器后,会在浏览器和服务器之间建立一个Session,并产生一个惟一标识的SessionID,后续浏览器和服务器的通信通过该标识进行识别。当然我们也不能保证同一个SessionID标识的必定是同一个客户,因为偶尔可能出现不同用户使用同台机器的同一个浏览器窗口进行检索的情形,但相比于机器级别的口或MAC地址来说,会话级别的Session机制应该具有更准确的用户识别性能。2)基于本体的用户意图表征模型 第3章皋十奉体的用户意图推理及je盘洵优化在用户身份识别的基础上,本小节完成针对特定用户实例的用户意图建模。根据前文提出的思想,这里从静态和动态两个方面来刻画当前用户意图,分别用Domain和Direction表示,即用户意图被描述为二元组的形式(Domain,Direction)。其中Domain用以刻画检索情境所处的领域,Direction用于描述检索情境中用户意图的变化方向。设基于Wikipedia知识库构建的本体为Owik/:(y,彳),其中c={cf11sfsm),代表本体知识库的概念集合,,4--{(Cicf)IcfEC,cfEC,且cj为cf的父类),代表本体知识库中概念之间的关系集合。则Domain在这旱被定义为由检索式映射到本体知识库。删所得到的一个图模型G=(n目,其中VcC,ECA。在一系列检索过程中,用户意图会出现渐进式迁移或突变转折的情况。前者通常表现为用户所做的修正式检索,如检索结果不满意时所做的泛化式修正或特化式修正;后者则表明用户进入了一个新的检索情境。因此用户意图中的Direction分量被用来描述这种变化状态。设妒表示四种检索状态的集合,即妒={Ⅸ,佑,/S,Ic},其中IK表示用户意图的保持状态,,G表示表示用户意图的泛化改变,IS表示用户意图的特化改变,庀表示用户意图的非延续性突变,即进入一个新的检索情境。则Direction∈QS。这四种检索状态可被进一步归为两类,即用户意图的延续(IK,IG,俗)和突变(庀)。3)Domain图模型构建首先对检索式进行分词,词性标注,然后取出其中的名词性关键词构成查询向量。同样的方法,基于本体知识库的索引文档,构造相应文档向量模型。通过相似度比较,得到与查询向量相似度超过指定阈值的一个本体概念集合。这一步得到一个初始Domain图模型,该模型仅反映了检索式的字面词形特征,没有考虑其中的语义结构。接下来在初始Domain图模型的基础上,利用本体知识库的概念结构进行语义扩展,主要包括直接父类和直接子类扩展,从而形成一个更丰满的Domain语义图模型,如图3.10所示。由于Wikipedia涵盖的领域非常之广,几乎涉及到人类知识的各个领域,随着时间的推移,这个知识库还将被不断地完善和丰富,所以基本上都能使得用户提交的检索式准确地映射到一个或多个恰当的知识领域。在图模型构造的第一阶段,进行了词性过滤处理,仅保留了检索式中的名词性成分,主要基于两点因素。首先基于Wikipedia构造的本体知识库主要是由名词性的概念和类组成,所以这种处理能够相应地增加词形映射过程的准确度。另外很多检索式通常使用比较随意的自然语言进行描述,根据自然语言的习惯,一般只有名词具有最好的领域标识作用,其它诸如形容词、副词之类的修饰词通常只是修饰作用。在图模型构造的第二阶段,只进行直接父类和直接子类的语义扩展,而没有进行更泛化或具体的扩展,则是更多考虑到了后续的查询优化过程,因为本人认为过于宽泛的领域定31 第3章摹十奉体的用户意图推理及其查询优化位不利于后续基于用户意图的查询优化实施。词形映射\:/图3.10Domain语义图模型的构造过程Domain图模型由图3.10可见,Domain图模型在关键词匹配的基础上,有了更进一部的发展,把当前检索式的部分语义特征建模到了用户意图描述中。但是由于检索式含义的多义性和模糊性,同一检索式可能被映射到多个不同的领域,此时就需要进行领域消歧。本文基于这么一种假设,在临近时间内用户面对的检索情境具有相似性或渐变性,所以可以根据前后检索式所映射的领域情境的重合状况实现领域消歧。如图3.11所示,对于检索式q2,可以映射到B、C两个不同的领域,但只有B与q1所处的领域A有所交叉重合,所以检索式q2所对应的领域被缩小至B。—————————————————_检索式流图3.11检索式映射过程中的领域消歧过程4)Direction状态判定一些研究通过比较前后检索行为之间的时间间隔或者前后检索式之间的词汇重 第3章堆于奉体的用户意图推理及je金询优化叠情况来判断意图迁移的方法有不妥之处,因为意图迁移本身是一个语义上的概念,所以本文试图通过本体知识库所表征的语义模型来判断意图的迁移。该算法建立在Domain图模型的基础之上,通过当前Domain图模型和历史Domain图模型的对比,判断意图的迁移。因为本小节提出的Domain图模型表征了当fj{『检索情境所处的领域,所以这里简单地认为:如果两次连续的检索没有发生非延续性的用户意图突变,则存在检索领域交叉现象,即它们对应的Domain图模型会发生或多或少的重叠。这里把两个图模型的重叠度定义为两个Domain图相同概念数占两者总概念数的比率。设有GJ,G2两个图模型,Gu表示G』,G2合并各自节点构成的新图,G表示Gj,G2相交节点构成的新图,则GJ,G2图模型的重叠度6被定义为:6=筹㈦1,其算法过程描述如下。菊久吼,留2:同一用户连续提交的两个检索式;min:重叠度阂值。变量61:表示吼映射得到的图模型;c1:表示G1所包含的概念集合;G2:表示92映射得剑的图模型;C2:表示G2所包含的概念集合;6:G1,G2的重叠度。输出shiftflag:用户意图迁移标识。true表示用户意图发生突变转折,false表示渐进式迁移。过程描述BeginG1=map(q1)//map函数把日1映射为Domain图G2=map(q2)//map函数把q2映射为Domain图c1=collect(G1)//collect函数收集G1中的所有概念,构建概念集合c2=collect(G2)//collect函数收集G2中的所有概念,构建概念集合6=Ic1nc2l/lclUGIif(6ik)dir—ISNtO为正且超过阈值,被视为用户意图特化elsedir—IGNto为负且超过阈值,被视为用户意图泛化’End 第3章基于本体的用户意图推理及j£金询优化3.4基于用户意图的查询优化前期的所有工作,如基于Wikipedia知识库的本体构建,基于检索情境的用户意图建模等,最终都是为了辅助后续的查询优化。按照前文提出的思想,当用户提交检索请求,经过用户身份识别、意图建模之后,当前检索式被映射到一个反映当自i『检索情境的Domain图模型和一个标识用户意图迁移方向的Direction状态。本小节基于用户意图的这两个视角,提出相应的查询优化策略,以期实现更好的检索性能。3.4.1向量空间检索模型信息检索模型定义了文档、查询的表示方式以及基于查询的文档相关性度量。.目前众多学者提出了多种信息检索模型,如布尔模型、向量空间模型、概率论模型、神经网络模型、聚类模型、基于规则的模型、语义模型等,其中使用最为普遍的仍为向量空间模型。在向量空间模型下,信息检索系统首先基于系统对象的n个特征建立一个,l维向量空间,每一维都代表不同的特征。信息系统中的文档以及用户查询均被表示为该空间中的某个特征向量,查询与文档的匹配过程则最终归结为查询向量和文档向量相似度的比较问题。对于目前的搜索引擎而言,文档和查询通常被序列化为一系列关键词集合,因此各维特征分别用一个特定的关键词来描述。文档向量是一个万元组,其各分量分别表示对应关键词的权重。权重越大,则该关键词对于该文档越重要。查询向量也基于同一向量空间被表示为一个n维特征向量,只不过查询向量的特征权重表示该特征对于用户的重要程度。关键词权重的计算有多种方法,如布尔函数、频度函数、开根号函数、对数函数、熵函数以及TF.IDF函数等。但综合性能和简单性而言,TF.IDF函数为目前使用最为普遍的一种,Saltonl50】等人运用TF.IDF的思想,把特征t在文档d中的权重定义为weight(t,d)=厶lg(N/n,)(3.3)其中亿为特征t在文档d中的词频,Ⅳ为信息检索系统的总文档数,嘞为包含特征t的文档数,乃为文档d的特征数。由该公式可见,TF.IDF权重函数体现的思想是若某特征在文档中出现频次越高,则权重越大;如果包含该特征的文档越多,该特征对文档的标识能力则降低,从而导致其权重减小。得到查询和文档的向量表示形式后,两者之间的相似度计算问题则被归结为查询向量和文档向量之间的相似度计算问题。有多种计算向量之间相似度的方法,较多使用的是两个向量的标准化点积。设有包含咒个特征的查询向量牙=(ql,q2,...,玑)和文档 第3章基于本体的用户意图推理及je查询优化向量孑=@。,d:,...,d。),则它们的相似度被定义为:Sim(q,d)=∑qi吃ltl(3.4)该相似度度量反映的是t/维向量空间中查询向量牙和文档向量孑之间的央角大小,该夹角越小,则两者的相似度越高。因此基于查询式的文档检索过程,被形象地描述为在该咒维向量空间中寻找与目标查询向量夹角满足一定阈值的文档向量集合的过程,如图3.12所示。特征2。;找夹角在指闽值内的文集合图3.12基于向量空间模型的文档检索过程示意图3.4.2基于向量空间模型的查询优化在向量空间检索模型中,文档和查询均被表示为某n维特征向量,TF-IDF函数权衡了文档内和文档间的特征分布,比较理想地量化了文档特征权重,但是对于查询向量,TF.IDF权重度量函数可能并不理想。这主要基于以下几个方面的考虑:首先,查询向量中的特征权重应该反映的是该特征对于用户的重要程度,而不仅仅是其对于查询字符串的重要程度;其次,检索式通常只有极少量的文本,通过极少量的文本特征反映意图特征,其准确度难以保证。已有的研究实践表明,查询向量特征权重通常基于频度函数来度量,即查询式中频度越高的特征具有越高的权重。这种思想没有很好地解决用户意图的忠实表达问题,因此本文试图在用户意图建模的基础上,实现用户查询向量的特征优化,以期实现更高的检索性能。下文将以Domain图模型为基础,依据不同的用户意图变化方向,确定具体的查询优化策略。在进行具体的查询优化之前,首先对Domain图模型做进一步的细化分解。由Domain图模型的构建过程可知,Domain图模型中的概念实际上由三部分组 第3章暴于本体的用户意图推理及je查询优化成,即第一阶段通过词形映射得到的初始概念集合BS,以及第二阶段在初始概念集合的基础上,通过直接上位概念扩展和直接下位概念扩展得到的上位概念集合US和下位概念集合LS,如图3.13所示。因此Domain图模型可以表示为G=(儿D,其中V=BSUUSULS,E"-{(ci,c川q∈矿,c』∈矿,gci为c,的直接上位概念)。图3.13Domain图模型的概念构成当Direction=IC时,表示用户意图的非延续性突变状态,即进入一个新的检索情境。因为无法判断用户意图的迁移方向,这时盲目的优化查询,可能效果适得其反。所以此种状态下的查询被视为用户的第一次检索,不进行任何查询优化。当Direction--//(时,表示用户意图的保持状态。这种检索状态下,用户检索情境所在的领域没有改变,但是仍无法区分其在抽象层次上的细微变化趋势。此时将仅对查询向量做初始概念集特征扩展,即利用Domain图模型初始概念集BS中的概念作为新的特征,赋予特定的权重,然后更新原始查询向量。当Direction=IG时,表示用户意图的泛化迁移状态。这种检索状态下,用户检索情境所在的领域没有改变,但在抽象层次上向着更高更抽象的方向迁移。此时将对查询向量做上位概念集特征扩展,即利用Domain图模型上位概念集US中的概念作为新的特征,赋予特定的权重,然后更新原始查询向量。当Direction=IS时,表示用户意图的特化迁移状态。这种检索状态下,用户检索情境所在的领域没有改变,但在抽象层次上向着更低更具体的方向迁移。此时将对查询向量做下位概念集特征扩展,即利用Domain图模型下位概念集£S中的概念作为新的特征,赋予特定的权重,然后更新原始查询向量。其算法过程可描述如下:耢久G:Domain图模型;q:查询向量;折:意图迁移方向;M,%,%:分别代表初始概念集、上位概念集、下位概念集扩展的特征权重。变量BS:初始概念集合:US:上位概念集合;LS:初始概念集合;t:单个查询向量特征;c:单个概念。输出口:特征扩展后的查询向量。 第3章基于本体的用户意图推理及j£查询优化过程描述Beginif(dir==/63//Direction=/C时不进行特征扩展break;elseif(dir==XK)//Direction=IK时进行初始概念集特征扩展{BS=getInitialConceptset(G)∥从Domain图中获取初始概念集合foreachconceptcinBSt=makeFeature(c,嵋)//通过概念和权重构造一个查询向量特征update(q,O∥用新的特征更新原始查询向量endloop;).elseif(dir==x6)//Direction=1(7时进行上位概念集特征扩展{US=getUpperConceptSet(G)//从Domain图中获取上位概念集合foreachconceptcinUSt=makeFeature(c,%)//通过概念和权重构造一个查询向量特征update(q,O//用新的特征更新原始查询向量endloop】.elseif(dir==ts)//Direction=IS时进行下位概念集特征扩展{LS=getLowerConceptSet(G)//从Domain图中获取下位概念集合foreachconceptCinLSt=makeFeature(c,w3)//通过概念和权重构造一个查询向量特征update(q,D//用新的特征更新原始查询向量endloopEnd 第4章Semsearch检索甲台的设计0实现第4章SemSearch检索平台的设计与实现为了验证和应用本文提出的检索思想,本人设计并实现了一个名为SemSearch的检索平台原型。该检索平台的设计目的在于改进完全基于关键词字符匹配的全文搜索引擎的不足,通过引入基于本体的知识推理机制,基于用户提交的检索式流构成的检索情境,发现并建模用户的检索意图,然后以该检索意图为基础,优化扩展用户原始检索,以实现更为准确的、贴近用户需求的检索性能。4.1SemSearch系统概述该系统需求可用用例图4.1描述,其中包括系统配置管理、系统状态监控、下载管理、数据提取管理、数据索引管理以及用户检索服务等六大部分。其中前五项面向系统管理员,后一项面向信息检索用户。系统配置管理提供有关系统运行参数的参看与配置功能;系统状态监控则为管理员显示一些实时的系统运行状态信息;下载管理、数据提取管理、数据索引管理为管理员提供下载模块、数据提取模块、数据索引模块的控制功能,如启动、暂停、停止等,并且显示与模块相关的一些统计信息。用户检索服务是本系统的核心,相对于传统的全文检索引擎而言,本系统增加了用户意图推理建模的功能,并针对当前用户意图进行查询优化。当然,所有优化处理逻辑对用户而言都是透明的,用户与系统的交互依旧是检索提交和结果获取这么两个过程。7‘d■●■b,‘d■d咖’-__S-自_●H¨__-岬“哪m7“·‰’,‘‘_b“№“蛐_-‘Mh_●__№‘d■■●’’_■■■●q_c_岫‘d_¨,’●一Jv■■●‘‘■d岫p’■■■■■■■●h—h‘“_-哺ch-‘d■●●b’/’/’’’‘岬一呐一—州‘~’。~。帅。¨一_h■■-_.‘‰一。籼⋯酬㈨’/,,一“m’Ⅲ__/’。’_-●__-__■●“__q■_●●■●■m■■■■—I■●m-mm—lma‘●■■●”·由●■■”‘‘d_-●p’,’,,‘d■■■'’-I¨___mm_图4.1SemSearch系统需求用例图本系统以Java作为开发语言,Eclipse作为集成开发环境,数据库采用SQLServer 第4章Semsearch榆索、I,仃的殴汁’j实现2005,同时为了提高数据的访问效率,采用数据库连接池Proxool管理底层数据库连接。本体的构建采用了惠普实验室的丌源丌发包Jena,由蜘蛛程序采集维基百科站点知识库,然后自动化地生成最终的Wikipedia本体库。目前版本的Jena丌发包支持基于内存、文件和数据库的本体存储方案,由于实际构建的Wikipedia本体数据量过于庞大,最终采取基于数据库的存储方案。下图所示为系统后台管理界而的一个截图。l蠹fSemSearchProtoType一8VR3ndv.口g翱lstemStartsAt【T}砌Sep2414:59:44CST20091图4.2SemSearch系统J亓台管理界面4.2SemSearch系统设计本系统能够管理Web资源下载、提取、索引和检索等一系列过程,其中重点在于检索逻辑的优化改进,即增加基于本体的语义推理功能,实现用户潜在检索意图的表征与建模,并在此基础上提供优化的检索服务。系统总的来说分为如下几个模块:下载模块、数据提取模块、数据索引模块、本体构键模块、检索模块,系统配置和状态监控模块。它们之间的关系如下图所示。 第4章Semsearch榆索iF台的设计‘j实现图4.3SemSearch系统构成下载模块:可以在漫游和定向两种模式下工作,分别实现无边界和有边界的下载策略。另外为了提高下载效率,该模块实现了多线程、基于资源类型的自适应下载、大文件断点续传等功能。数据提取模块:完成新资源发现、页面文本提取、文档自动摘要等任务。其中主要解决了文本提取过程中的核心内容发现和自动摘要问题,特别是二进制资源自动摘要策略的实现。索引模块:在信息提取模块输出的结构化数据基础上,进行中文分词,文档特征选择,最后对文档特征项信息进行索引。本体构建模块:利用蜘蛛程序采集维基百科站点页面,进行知识提取,然后利用Jena开发包,构建Wikipedia本体知识库,具体处理逻辑见3-3.2小节。检索模块:在用户个体识别的基础上,引入本体知识推理机制,基于用户提交的系列检索式流构成的检索情境,推理建模用户检索意图,然后以该检索意图为基础,优化扩展用户原始查询。系统配置和状态监控模块:为系统管理员提供系统监控与运行参数配置等功能。总体来说上述各模块均以低耦合方式独立运行,并支持分布式的解决方案。各模块通过可配置的缓存管理器与数据库进行数据交互,以提高系统整体数据吞吐率。4.3检索模块的设计与实现该实验平台由多个模块构成,但检索模块是整个平台的核心和论文创新思想的体41 第4章Semsearch检索平台的设计’j实现现,所以下面以该核心模块为重点,介绍其设计和实现的细节。本模块采用Jsp+Servlet的开发模式,Tomcat作为Web服务器,表示层采用Jsp动态页面技术。Servlet作为前端控制层,负责接受用户的查询请求,然后调度相应的业务逻辑层模块完成用户意图的建模、查询优化、基于向量空间模型的检索等过程。最后,Servlet对底层业务逻模块的检索结果进行编码,并输出到客户端。按照MVC的架构思想,检索模块结构如图4.4所示。图4.4SemSearch系统检索模块结构图视图层控制层业务层数据层从动态的角度来看,本模块的活动流程见图4.5。整个流程中,用户意图的推理与建模、检索意图的迁移判断、当前检索优化三个过程是模块功能的核心,具体算法描述参见3.3.3小节。这几个过程的展开需要利用到本体建模的知识库,因此在提供检索服务之前需要事先完成本体的构建过程,基于本体的推理则借助于Jena开发包提供的API来完成。图4.5SemSearch系统检索模块活动流程图42 第4章Semsearch检索平台的设计与实现前面在较宏观的层次上,从模块的静态视角和动态视角两个方面,对其架构和处理流程做了一个描述。在设计层面,模块还有待进一步细化和具体化。从面向对象程序设计的角度来看,就是要分析出系统内部的行为主体——类,确定其主要属性、行为以及类与类之间的相互关系。就本模块而言,得到如图4.6所示的类视图。醚sinstattlateo‘IeryProc∞B口processor——————~———1——◆oueryProce驺or0’gelqu()IJeryReult0QueryResult.Setmmmodell蹙n5uItcounI:int目阳m:L觚《O∞吖R的ub’Q罔vR∞诚s—O.a删㈣瞻l_tO.to.轴ILFormat0OⅢft∞■t彩埘:Stdng岛lme:String§gdigesl:Stdngd抽co∞:inl.t幽札F∞_O.s酬洲0◆3arnt培0q'setDigest0●setScomO口胤yconIexIfbmmoa’”岛带c睇h∞4p鲥ly:晌岛翠cache:Queue’蚪Pm、iousQumy0*g岫rQso’}砌ueryOQua/Optimizer-qo⋯’oL.9ryOpljITI晓erO-斟。一im垃戢帕慵ry0Own画州蜀锄n●∞mmodell诧州蝌№d∞:S矾鼋u弭_Node|:Set鼋山州en岫蛔:Set’【hn■nG神0'l‘addNodeO.cdl■囊N■抽N翻T鼬0’口瞳^、捌即№de洲0、I一艄i诚;∞cepIsmO’geIUI,呻rc挑e—Sm0、一Lo啪rc;o∞鄂Is讲0图4.6SemSearch系统检索模块类视图其中Gate类实现了javax.servlet.http.HttpServlet接口,代表整个模块的控制类,负责调度各个业务逻辑子模块以完成对用户检索请求的响应。QueryContext类代表某个用户的检索情境,其中存储了当前用户的当前检索式和历史检索式。在用户与系统的首次会话中,Gate类通过SessionID识别用户,并实例化与之对应的OueryCe-ntext实例。后续的用户访问中,其对应的QueryContext得到不断更新。QueryProcessor类代表查询处理器,其由Gate类维护,其中封装了从当前检索情境得到最终检索结果集OueryResultSet的所有逻辑,这里检索结果集由众多的OueryResult对象所构成,QueryResult代表~个被检索到的文档描述,其封装了结果文档的URL、标题、内容摘要以及得分等信息。QueryOptimizer类代表查询优化器,其封装了基于向量空间的查询优化策略,最终为QueryProcessor类提供查询优化服务。UserIntentReasoner类为用户意图推理器,其利用OueryContext表征的检索情境构建最终的用户意图模型一一~~一一一谶掣瓣一~一~~一~一~~一~~ 第4章Semsearch榆索甲台的设计‘j实现UserIntent,其中包含两个部分,领域图模型(DomainGraph)和检索状态(QueryStatus)。DomainGraph由众多的本体节点(OntoNode)及其之间的联系来描述。QueryStatus是一种枚举类型,由3.3.3小节所定义的四种检索状态所构成。考虑到检索结果的多样化应用需求,模块没有以HTML的形式对检索结果并进行编码,而是输出为XML格式的结构化数据,以便于与其它模块或系统进行数据交换。4.4实验及其结果分析为了验证论文思想的有效性,本文以小规模语料为试验样本,对该试验系统的检索性能做了初步测试。通常一个信息检索系统的检索性可以通过两个方面来反映,分别为查准率和查全率。查准率(PrecisionRatio)是指检出的相关文献数占检出文献总数的百分比,其反映了检索的准确性。查全率(RecallRatio)是指检出的相关文献数占系统相关文献总数的百分比,其反映了检索的全面性。通常来说查准率比较方便统计得到,因为对于每一次检索,检出文献集合只是总文献集合的一个很小子集,可以通过人工遍历检出文献集合的方式来统计其中相关文献数量,进而计算其查准率。但查全率的统计却是一项费事的工作,因为查全率的计算需要在整个文献集合内统计漏检文献的数量。对于小型的试验系统,只要把系统中所有的文献都浏览一遍,就能准确地获得漏检文献的数量。然而,在实际运行的检索系统中,由于系统文献总量通常数以百万计,在评价检索性能时,根本不可能浏览到系统中所有的文献,因此也就无法实现漏检文献的统计。综合考虑上述因素,本文决定选取一个小规模的语料库作为试验样本,以期近似反映系统的检索性能。目前网络上可以获得的中文语料库较多,本文选择了搜狗实验室提供的文本分类语料库作为试验样本。该语料库来源于搜狐新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息,其中包括汽车、财经、n’、健康、体育、旅游、教育、招聘、文化和军事10个大类,近十万篇网页文档。为了保证试验样本的领域覆盖面,同时又控制试验样本的规模,本文从这个10个大类中分别随机抽取100篇文档,构成1000篇文档的试验样本进行试验。本文对使用和不使用用户意图推理两种情况的检索性能做了对比研究,因为本文采用的是基于检索式流的用户意图建模策略,所以测试中采用了基于检索式序列的检索性能评价方法,即每个测试对象包含一对检索式序列,如“舞龙_中国新春习俗’’,其分别代表两次检索行为。因为系统从第二次检索开始,相对于前一次检索进行查询优化,所以对于每个待测试对象,仅计算第二次检索的检索性能。为了保证领域覆盖面,本人在上述10个大类中分别构造1组测试对象,然后对每组测试的检索性能(查准率、查全率)进行平均,得到如图4.1所示结果。 第4章Semsearch榆索、I‘台的设计‘j实现表4.1试验结果统计表检出文献总检出相关文相关文献查准率查全率数(个)献数(个)总数(个)传统本文传统本文传统本文传统令)乙n方法法汽车81056962.5%60.0%55.6%66.7%财经1012791170.0%75.0%63.6%81.8%IT182112142066.7%60.0%70.0%健康12148101366.7%71.4%61.5%76.9%体育10137913.70.0%69.2%53.8%69.2%旅游7856771.4%75.0%83.3%85.7%教育151612131680.0%81.3%75.0%81.3%招聘81067875.0%70.O%75.O%87.5%文化795671.4%66.7%100.0%军事7856771.4%75.0%71.4%85.7%平均性能指标70.5%71.0%66.6%80.5%由试验结果可知,运用本文提出的思想,系统查全率相对于传统检索方法有了很大的提高,从66.6%的平均查全率提升到80.5%的水平,而且这种提升现象在所测试的10个分类中都得以出现,表现出一定的普遍性。但在平均查准率方面,提升效果并不明显,仅从70.5%的平均水平提升到71.0%,而且在某几个测试类别中出现了查准率降低的现象。这种现象的产生应该主要源于本文采用的优化策略,因为无论是对于泛化查询还是特化查询,本文提出的查询特征更新策略都只涉及特征添加和权重更新问题,而没有考虑特征剪枝的可能性。另外测试样本偏小的问题,也可能在一定程度上影响到测试结果的准确性。45 第5章总结’j展望第5章总结与展望如今的Web已成为一个全球化的信息资源库,其中资源内容繁杂,组织形式各异。为提高Web资源的检索效率和准确性,各种搜索引擎产品应运而生,同时也取得了极大的商业成功。在Web发展的初期阶段,基于关键词的全文检索理念极大地提高了搜索引擎的检索性能和效率,这在一定程度上促成了其一时的成功。但是随着网络资源的日益丰富和检索需求的提高,传统的完全基于关键词匹配的检索思想逐渐暴露出了自身的一些不足,于是各种新的优化的检索方法和理念逐渐被提出并相继得到应用,如查询优化、个性化信息推送、语义Web等。本文借鉴了语义Web的知识推理思想,提出了基于本体语义推理和检索式流的用户意图建模思想以及面向用户意图的查询优化方案,同时在研究过程中构想并实现了基于Wikipedia知识库的本体自动化构建方案。所有这些工作,相对于前人的研究而言,表现出一定的创新之处。论文的最后,为了验证和应用本文提出的检索思想,本人设计并实现了一个检索平台原型,并通过小规模的试验样本证明了论文思想的有效性和可行性。当然,限于自身能力和时间有限等因素,本文的研究还存在很多的不足,需要自己在后续的研究中不断改进和完善。首先是通用本体的质量问题。本文为了构建一个全领域的通用本体,利用了中文维基百科的知识结构,省去了大量的手工工作,但是中文维基百科的知识结构也存在着术语概念命名不太统一、概念关系随意而缺乏规范等问题。其次是检索的时滞性问题。因为用户检索意图建模需要借助于本体知识库的推理,而本体知识库过于庞大,无法一次性载入内存,所以本文采用了基于数据库的存储方案,由此导致基于本体知识库的推理速度并不理想。再次本文提出的用户意图建模思想难以适应自然语言提问式的检索,因为本文的用户意图建模思想只是简单考虑了名词性关键词在领域标识中的作用。最后查询优化策略还不慎完善,其中可能引入新的问题,如可能导致查全率增加而查准率下降的现象,因为无论是对于泛化查询还是特化查询,本文提出的查询特征更新策略都只涉及特征添加和权重更新问题,而没有考虑特征剪枝的可能性。综上所述,本文虽然提出了一些有创新性的研究思想及其实现方案,但是依旧存在众多不可忽视的缺点和不足,希望自己在后续的研究实践中不断丰富和完善本文所提出的这些思想。 参考文献⋯1第23次中国互联网络发展状况统计报告.中国互联网信息中心.2009【2】Furnas,Gw.,LandaueqT.K.,Gomez,LM,,eta1.TheVocabularyProbleminHuman-systemCommunication.CommunicationsoftheACM,1987,30(11):96年-971【3】AndreiBroder:Ataxonomyofwebsearch.SIGIRForum,2002,36(2):3-10【4】4Rose,D.E.,&Levinson,D..Understandingusergoalsinwebsearch,ProceedingsoftheThirteenthAnnualWbrldWideWebConference.NewYork:ACM,2004:13—19【5】UichinLee,ZhenyuLiuandJunghooCho,AutomaticIdentificationofUserGoalsinWebSearch,inproceedingsofthe14thWorld-WideWebConference,2005f6】6BernardJ.Jansen,DanielleLBooth,AmandaSpink.DeterminingtheUserIntentofWebSearchEngineQueries,2007【7】7YiqunLiu,MinZhang,LiyunRu,Shaoping.MaAutomaticQueryTypeIdentificationBasedonClickThroughInformation【8】8QiGuo,EugeneAgichtein.ExploringClient—SideInstrumentationforPersonalizedSearchIntentInference:PreliminaryExperiments【9】Cutrell,E.,andGuan,Z.Whatareyoulookingfor?:alleye—trackingstudyofinformationusageinwebsearch.InProc.ofCHI,2007:407--416.【10】LCatledgeandJ.Pitkow.Characterizingbrowsingstrategiesintheworld—wideweb.InProceedingsoftheThirdInternationalWorld-WideWebConferenceonTechnol095toolsandapplications,1995,27【11】C.Silverstein,M.R.Henzinger,H.Marais,andM.Moricz.Analysisofaverylargewebsearchenginequerylog.ACMSIGIRForum,1999,33(1):6-12【12】B.J.Jansen,A.Spink,C.Blakel5andS.Koshman.Definingasessiononwebsearchengines.ProceedingsofInternationalJointConferenceonArtificialIntelligence(ucho,2007【13】D.He,A.G6ker,andD.J.Harper.Combiningevidenceforautomaticwebsessionidentification.InformationProcessingandManagement,2002,38:727-742【14】H.C.OzmutluandECavdur.Applicationofautomatictopicidentificationonexcitewebsearchenginedatalogs.InformationProcessingandManagement,2005,41(5):1243-1262【15】T.LauandE.Horvitz.Patternsofsearch:Analyzingandmodelingwebquery47 参考文献refinement.InA.Press,editor,ProceedingsoftheSeventhInternationalConferenceonUserModeling,1999【16】SparckJones,K.Jones,K.P.,ed.IntelligentInformationRetrieval:Proceedingsofinformatics7,London:Aslib,1983:136—142【17】章成志,苏新宁.基于知识空间的智能信息检索模型研究.现代图书情报技术,2006,12:29—33【18】李鹏,乔晓东,张用军等.Ontology与CBR集成的Web智能信息检索研究.现代图书情报技术,2006,12:34.36【19】丁晟春,成晓.基于用户提问的领域本体知识库的知识检索.现代图书情报技术,2007,1:62-64【20】陶兰,杨睿,陈冲.基于Ontology的智能检索系统框架研究与实现.计算机工程,2006,21(32):203-205【21】邓志鸿,唐世渭,张铭.Ontology研究综述.北京大学学报(自然科学版),2002,38(5):730—738【22】NechesR,FikesRE,GruberTR,eta1.EnablingTechnologyforKnowledgeSharing.AIMagazine,1991,12(3):36-56【23】GruberTR.ATranslationApproachtoPortableOntologySpecifications.KnowledgeAcquisition,1993,5:199-220【24】BorstWN.ConstructionofEngineeringOntologiesforKnowledgeSharingandReuse.PhDthesis,UniversityofTwente,Enschede,1997【25】StuderR,BenjaminsVR,FenselD.KnowledgeEngineering,PrinciplesandMethods.DataandKnowledgeEngineering,1998,25(1—2):161-197【26】岳静,张自力.本体表示语言研究综述.计算机科学,2006,30(2):158.162【27】李景.主要本体构建工具比较研究(上).情报理论与实践,2006,29(1):109.111[281杜小勇,李曼,王大治.语义Wreb与本体研究综述.计算机应用,2004,24(10):14.16【29】杜文华.本体构建方法比较研究.情报方法.2005,10:24.25【30】EBaader,W.Nutt.HandbookofDescriptionLogic.PrincetonPress.2003,47.100【31】M.Schmidt—Schaul3andG.Smolka.Attributiveconceptdescriptionswithcomplements.ArtificialIntelligence,1991,48:1-26【32】汪智勇.本体查询与推理研究及其实现:【硕士学位论文】.长沙:中南大学,2007【33】A.Spink,B.J.Jansen,andH.C.Ozmultu.UseofqueryreformulationandrelevancefeedbackbyExciteusers.InternetResearch:ElectronicNetworkingApplicationsandPolicy,2000,10(4):317-3284R 参考义献【34】Bollmann-Sdorra,P.andRaghavan,VVOntheElusivenessofAdoptingaCommonSpaceforModelingIRObjects:AreQueriesDocuments?JournalofAmericalSocietyforInformationScience,1993,44(10),579—587.【35】Cui,H.,Wen,Ji-R.,Nie,J.一Yeta1.ProbabilisticQueryExpansionUsingQuerylogs.In:ProceedingsofthelthInternationalWorldWideWebConference,2002:325-332【36】Raghavan,VVandSever,H.OntheReuseofPastOptimalQueries.In:Proceedingsofthe18thAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval,1995:344—350【37】Fitzpatrick,LandDent,M.AutomaticFeedbackusingPastQueries:SocialSearching?In:Proceedingsofthe20thAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval.Philadelphia,1997【38】Glover'E.,Lawrence,S.,Gordon,M.D.,eta1.WebSearch—YourWay.CommunicationsoftheACM,2000,44(12),97-102.【39】Budzik,J.andHammond,kUserInteractionswithEverydayApplicationsasContextforJust—in—timeInformationAccess.In:Proceedingsofthe5thIntemationalConferenceonIntelligentUserInterfaces,2000,44一-51.【40】Finkelstein,L,Gabrilovich,E.,Matias,Y,ela1.Placingsearchincontext:Theconceptrevisited.In:Proceedingsofthe10thInternationalWorldWideWebConference,2001,116-131【41】Lieberman,H.Letizia.AnAgentthatAssistsWebBrowsing.InProceedingsoftheInternationalJointConferenceonArtificialIntelligence,IJCAI’95,1995,924-929f42】瞿国忠.查询扩展技术研究:【硕士论文】.武汉:华中师范大学,2007【43】Mizzaro,S.Howmanyrelevancesininformationretrieval?InteractingwithComputers,1998,10:303—320【44】Belkin,N.J.,Oddy,R.N.,andBrooks,H.M.ASKforInformationRetrieval:PartII.ResultsofaDesignStudy.JournalofDocumentation,1982,38(3):145—164【45】Ingwersen,P.InformationRetrievalInteraction,TaylorGraham,London,1992【46】余慧佳,刘奕群,张敏等.基于大规模日志分析的网络搜索引擎用户行为研究.中文信息学报,2007,21(1):109.114【47】CraigSilverstein,MonikaHenzinger,HannesMarais,eta1.AnalysisofaverylargeWebsearchenginequerylog.InSIGIRForum,1998,33(1):6-12【48】XiaoLi,Ye—YiWang,AlexAcero.Learningqueryintentfromregularizedclickgraphs.InProc.ofthe31thAnnualInternationalACMSIGIRConferenceonResearchand49 参考文献DevelopmentinInformationRetrieval(SIGIR-08),2008【49】HienNguyen.CapturingUserIntentforInformationRetrieval【50】SaltomGSaltonC.Buckley,Term-weightingapproachesinautomatictextretrieval,inf.Process.Manage,1988,24(5):513-52350 4;读期问发表的学术论义及研究成果在读期间发表的学术论文及研究成果曾发表的论文:【1】张小飞,蔡亚萍,刘威.社会网络关系数据智能采集系统的设计与实现——基于Web数据挖掘原理.现代图书情报,2009,10参与编写的著作:【1】田俊华.现代教育技术实践教程,科学出版社,200951

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭