基于xml的组件搜索引擎技术

基于xml的组件搜索引擎技术

ID:33548935

大小:145.41 KB

页数:3页

时间:2019-02-27

基于xml的组件搜索引擎技术_第1页
基于xml的组件搜索引擎技术_第2页
基于xml的组件搜索引擎技术_第3页
资源描述:

《基于xml的组件搜索引擎技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第51卷第S2期武汉大学学报(理学版)Vol.51No.S22005年12月J.WuhanUniv.(Nat.Sci.Ed.)Dec.2005,144~146文章编号:167128836(2005)S220144203基于XML的组件搜索引擎技术吕炜(武汉大学软件工程工程国家重点实验室,湖北武汉430072)摘要:分析了目前通用搜索引擎用于组件搜索的局限性,提出一种专用于组件的搜索引擎技术.该技术通过组件分类方法对组件资源进行统一描述,并利用组件库技术能有效的针对组件进行搜索.关键词:组件;组件库;组件搜索引擎中图分类号:TP311文献标识码:A0引言1通用Web搜索引擎基于

2、组件的软件重用技术强调尽可能重用已有自从第1个搜索引擎WWWW(WorldWide的组件资源,通过组合满足当前开发要求的组件,快WebWorm)在ColoradoUniversity成功开发以来,速地完成软件开发任务.然而该技术仍面临着一些web上的搜索引擎已经发展到数百个.虽然各个搜重要问题,其中关键性的两个问题是如何对已经开索引擎的具体实现不尽相同,但一般仍由七个部分发的组件进行分类以及如何方便组件重用者发现、组成:爬虫(Robot)、爬虫控制器、索引器、采集分析获取组件.较好地解决这两个问题是基于组件的软[2]器、页面资源库、索引库、查询模块,如图1所示.[1]件工程取

3、得成功的基本条件.现有通用Web搜索引擎基于以上的体系结构,一种可行的方法就是把这些组件存入组件库中,例如Google、AltaVista、InfoSeek、WebCrawler、然后将组件库放在Internet网上.然而,这项工作并Nutch等,已经能较好地帮助用户搜索因特网中的非想象的那样简单.首先目前存在多种组件规范模文档资源,包括HTML网页、Word文档、PDF文型,其次组件应用的领域范围广泛,再者针对组件搜档、PS文档等.但是采用它们来搜索因特网中的组索的技术还不成熟.面临这么多问题,本文提出一种件资源,则遇到很多困难.因为通用Web搜索引擎统一的组件描述体,并将

4、其作为发布模型发布于组件一般只是用来搜索具有特定后缀名的网页和文档资库和网络,利用爬虫技术收集和分析组件描述体来建源,通过分析这些网页和文档资源的内容来建立索立索引,最终达到提供针对组件的搜索技术.引.而软件组件不同于的网页和文档资源,它通常是图1通用Web搜索引擎基本结构收稿日期:2005210211作者简介:吕炜(19802),男,硕士生,现从事组件库的管理及组件检索研究.E2mail:Javvzz@163.com©1995-2007TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved.第S2期吕炜:基于XML的组件搜索

5、引擎技术145二进制代码或字节码,没有特定的标识,并且是符合系分类的描述体片断:某种标准的组件模型规范,例如,JavaBean,EJB,〈SoftwareComponent〉COM,ActiveX,CCM等.如果要从组件实体中提〈MainSchedule〉取组件接口信息,则必须依据组件实体所遵循的组〈ApplicationSoftware〉件模型.因此,Web搜索引擎很难根据特定的后缀〈finance/〉名标识来定位组件资源,也不可能按照分析网页或〈/ApplicationSoftware〉文档资源那样,从组件实体中提取接口信息.〈/MainSchedule〉〈SubDivi

6、sionalTables〉2专用软件组件搜索引擎(SE4SC)〈ComponentSpec〉EJB〈/ComponentSpec〉〈DevelopmentPlatform〉WebLogic〈/Develop22.1组件分类mentPlatform〉搜索引擎能否快速高效的搜索的基础是是否合〈RuntimePlatform〉Windows〈/RuntimePlat2理的对组件进行分类.现有的分类方法主要采用信form〉息科学方法,有两种形式:枚举分类法和刻面分类〈/SubDivisionalTables〉法.枚举分类法又称体系分类法,将一个被关注的领〈/SoftwareCompo

7、nent〉域严格划分为不相交的子领域,依次构成层次结构,2.3软件组件搜索引擎技术即要求把知识分解成越来越细的子集,把所有可能前有多种针对组件的搜索引擎技术,例如卡耐的合成类包括在内.刻面分类方法将关键词(术语)基梅隆大学软件工程研究所开发的Agora,IBM开置于一定的语境中,并从反映组件本质特性的不同发的alphaBeans,此处则基于SE4SC体系结构的搜[6]视角(刻面)将组件分类.每个刻面中有一组术语,索技术,提出一种具体方案.术语间由一般特殊关系和同义词关系形成结构化的2.3.1采集[3,4

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。