基于web的地图搜索引擎设计与实现.ppt

基于web的地图搜索引擎设计与实现.ppt

ID:48038843

大小:1.51 MB

页数:23页

时间:2020-01-14

基于web的地图搜索引擎设计与实现.ppt_第1页
基于web的地图搜索引擎设计与实现.ppt_第2页
基于web的地图搜索引擎设计与实现.ppt_第3页
基于web的地图搜索引擎设计与实现.ppt_第4页
基于web的地图搜索引擎设计与实现.ppt_第5页
资源描述:

《基于web的地图搜索引擎设计与实现.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于web的地图搜索引擎设计与实现乐小虬中国科学院遥感应用研究所网络部2004-01-13提纲文本搜索技术图像搜索技术系统性能评价指标地图搜索原理系统实现与测试结果问题与展望1.文本搜索技术1.1概念搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。1.2分类三类:目录式搜索引擎、机器人搜索引擎、元搜索引擎1.2.1目录式搜索引擎以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务

2、和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:Yahoo、LookSmart、OpenDirectory、GoGuide等。1.2.2机器人搜索引擎由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无

3、关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、NorthernLight、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:"天网"、悠游、OpenFind等。1.2.3元搜索引擎这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索

4、引擎的代表是WebCrawler、InfoMarket等。1.3主要技术一个搜索引擎由搜索器、索引器、检索器和用户接口等部分组成。流程Web空间划分起始URL集合用户接口循环搜索检索器广度优先、深度优先索引库索引器分析器网页库2.图像搜索技术2.1工作原理为在web上浏览过的图像建立索引信息,能够进行图像分析和判别,为图像加注释,存储抽取出的索引信息建立索引库。图像的获取:(1)自动查找图像文件可以通过两个HTML标签,即IMGSRC和HREF来检测是否存在可显示的图像文件。搜索引擎通过检查文件扩展名来判断其导向的是否是图像文件。如果文件扩展

5、名是.GIF或.JPG,即是一个可显示的图像。(2)人工干预找出图像并进行分类由人工对网上的图像及站点进行选择。这种方法可以产生准确的查询体系,但劳动强度太大,限制处理图像的数量。2.2检索方法2.2.1关键词检索基于图像外部信息或人工赋予的关键词进行自由词检索。图像的外部信息包括图像的文件名或目录名、路径名、链路、ALT标签以及图像周围的文本信息。基于这部分信息的检索是目前图像搜索引擎采用最多的方法。2.2.2分类目录浏览方式将采集到的图像或通过某种自动机制或采用人工进行分类标引,为用户提供按主题浏览的检索方式。适用于检索目标不明确或以一般

6、浏览为目的的用户(1.2.1相似)。2.2.3基于图像内容的检索由图像分析软件自动抽取图像的颜色、形状、纹理等特征,建立特征索引库,用户只需将要查找的图像的大致特征描述出来,就可以找出与之具有相近特征的图像。这是一种基于图像固有属性的机械匹配,特别适用于检索目标明确的查询要求(例如对商标的检索),产生的结果也比较准确。目前这种较成熟的检索技术主要应用于图像数据库的检索,在基于web的图像搜索引擎中应用这种检索技术虽还具有一定的困难.3.系统性能评价指标性能参数:召回率(Recall)、精度(Pricision)。召回率是检索出的相关文档数和文

7、档库中所有的相关文档数的比率,衡量的是搜索引擎的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是搜索引擎的查准率。难两全其美,常求精度。4.地图搜索原理采用文本搜索和图像搜索相结合的方法。主要通过分析网页中与地图相关的文本信息、视图信息来搜索和判别地图网页。基本流程:网页搜索分析中间结果索引库重组查找用户接口网页搜索采用元搜索引擎的基本原理。搜索所有与地图相关的网页,并超链保存至本地库中。同时搜索目录式搜索引擎的分类结果。超链分析分析超链中是否含有与地图有关的文本串(如地名,单词,后缀等)来确定权重。视图分析通过统计分析确定

8、视图参数。索引生成重组结果,剔除重复超链,生成地名索引库。地图检索通过地名检索所有相关地图网页。5.系统实现与测试结果平台PC:cpu2.4G,RAM528MOS:

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。