搜索引擎的智能化研究

搜索引擎的智能化研究

ID:33581711

大小:203.51 KB

页数:3页

时间:2019-02-27

搜索引擎的智能化研究_第1页
搜索引擎的智能化研究_第2页
搜索引擎的智能化研究_第3页
资源描述:

《搜索引擎的智能化研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、ITA!信息系统#●吴 丹(华中师范大学信息管理系 湖北 430079)搜索引擎的智能化研究Abstract:Thepapersummarizesthemainprinciplesandlimitationsofsearchengines1Itpointsouttheintelligenttrendofsearchenginesandgivesadetailedexpositionofsmarthunters1Keywords:searchengine;informationretrieval/smarthunter  搜索引擎

2、是使用某些软件程序(如Robots、Spiders等)引数据库中,并给索引数据库加上查询接口,向网上用户发以一定的策略把因特网上的信息归类或者人为地把某些数布,建立索引、HTML文件的验证、URL链接验证、获取更新据归入某类别,形成一个可供查询的大型数据库。使用搜信息、站点镜像等。至于返回给用户的搜索结果,搜索引擎索引擎能够帮助人们从不同形式的数字化信息中进行搜通常还要按照分解的关键词计算Web文档跟用户请求的集,并对发现的信息进行理解、提取、组织和处理,快速找到匹配程度,衡量其关键词出现的频次、位置甚至格式等信人们所需的信息,

3、从而起到信息导航的目的。息,或是按页面被访问度进一步排定次序,对结果进行净化。1 搜索引擎现状分析112 传统搜索技术的局限性111 搜索引擎的搜索原理传统的搜索技术有较大的局限性,因为这类搜索引擎传统搜索引擎是一种仅局限于企业数据库、增值网络还不能很好地理解人的查询请求,不能区分关键词的同形服务、桌面文件浏览和检索数据集的工具。而因特网的出异义,也不能联想到相关同义词,更不可能考虑到关键词所现则使其一跃成为各种Web、FTP文档、新闻组、Gopher、E2处的特殊语言环境。此外它还有着诸多的缺陷。mail以及多媒体信息等网络资

4、源的浏览和检索工具。目前1)信息分类缺乏有效性。要有效地对信息建立索引,搜索引擎按照功能和使用的技术大致可以分成以下几种模需要对信息进行分类处理,传统的处理方式无法在词条的式:综合门户搜索引擎模式(如Yahoo)、纯净搜索引擎模式出现概率与文档的类别及长度间进行权衡,无法对导入资(如RagingSearch)、链接评价搜索引擎模式(如Google)、访料库的返回信息进行合理的整理、分类。问大众性搜索引擎模式(如DirectHit)、自然语言智能答询2)信息组织缺乏有序性。在众多随机、无序的信息中搜索引擎模式(如AskJeeves

5、)、垂直主题搜索引擎模式(如取出用户最有用的信息,现在的简单排序还无法达到要求。About)、元搜索引擎模式(如Metacrawler)、隐性Web搜索引3)信息更新缺乏实时性。现在的搜索引擎还无法实时擎模式(如Invisibleweb)、专家咨询搜索引擎模式(如Expert2搜索最新的网络信息。Central)等。4)信息评价缺乏有用性。关键词的数量并不能等同于搜索引擎尽管种类很多,但其原理都是通过某种界面信息的价值含量,单纯依靠关键词出现的频次与被检中次与用户交互,接受用户查询请求,然后将用户查询的特定信数并不能评价信息的有

6、用性。息分解成若干关键词进行分析,再在索引数据库中进行匹搜索引擎的关键问题是如何收集与整理网络信息,如配,挑出符合条件的信息,按照匹配程度的高低进行排序,何将网络信息有序化,目前这种将用户的请求简单地理解最后将结果返回给用户。索引数据库的建立有的是依靠专成字形而非内容的搜索方式其本身就存在着不足,人们需职编辑或志愿人员,但更多的要用到搜索器。搜索器一般要一种更为高效的搜索引擎技术。从一个起始URL列表中按照深度优先(先进后出)或广度2 搜索引擎的智能化分析优先(先进先出)或其他启发式算法取出若干URL,利用超文本链接遍历因特网进

7、行处理,读取其内容的同时将其中智能搜索引擎是结合了人工智能技术的新一代搜索引指向其他内容的URL放入列表中,这样处理直至URL列表擎。第三代搜索引擎,它除了能提供传统的快速检索、相关为空或是超出了时间和磁盘空间限制为止。搜索器在漫游度排序等功能,还能提供用户角色登记、用户兴趣自动识过程中,将依据搜索服务的数据收集策略,将页面的标题、别、内容的语义理解、智能化信息过滤和推送等功能;将信首段落、链接等生成摘要或者是将整个页面的内容放在索息检索从目前基于关键词层面提高到基于知识(或概念)层·情报理论与实践·—293—!信息系统#ITA

8、面;对知识有一定的理解与处理能力,能够实现分词技术、键词与它们之间的关系,从而合理地分词,更加准确地表述同义词技术、概念搜索、短语识别以及机器翻译技术等;具查询请求和文档信息。有信息服务的智能化、人性化特征;允许采用自然语言进行3)同义词处理技术。利用人工构造同

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。