基于web的智能搜索应用技术探讨

基于web的智能搜索应用技术探讨

ID:9707688

大小:56.50 KB

页数:7页

时间:2018-05-05

基于web的智能搜索应用技术探讨 _第1页
基于web的智能搜索应用技术探讨 _第2页
基于web的智能搜索应用技术探讨 _第3页
基于web的智能搜索应用技术探讨 _第4页
基于web的智能搜索应用技术探讨 _第5页
资源描述:

《基于web的智能搜索应用技术探讨 》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、基于WEB的智能搜索应用技术探讨摘要:伴随着Inter的日益发展和壮大,如何在浩瀚的网络信息海洋中快速、高效地寻找特定的主题内容,成为困扰信息服务提供者的主要问题。针对该问题,基于yYahoo”、InfoSeek的“personalizedstartpage”等,它们允许用户为自己定制起始页面,并选择感兴趣的内容和经常使用的服务放在该页面上。除了简单的AND、OR和NOT逻辑外,不少搜索引擎还支持相似查询,例如AltaVista、Northernlight、Lycos等支持短语查询,AltaVista的高级搜索功能支持NEAR逻辑等;在消除

2、内容重复的网页方面,一个比较成熟的方法就是对重复信息的链接进行合并,即将页面信息重复的链接不一一呈现在结果页面中,用一外部链接来单独显示这些重复的链接地址。在google推出的学术搜索引擎(http://scholar.google./)中已经有这样的优化实现了,它会将同一文献的不同链接地址放在一条结果信息中,这样用户就可以在前三页中看到更多的页面链接,从而提高了工作效率。再者,在搜索引擎的智能化研究方面,通过前端抓取网页时采用多个CRAamma以及国内的万纬搜索等,而离线式桌面搜索引擎Webseeker、Echosearch、飓风搜索等也

3、属于元搜索引擎,与上述不同的是,这些搜索引擎需在本机安装客户端方可使用,其中功能最完善的当属Webseeker,安装后你可以任意添加删除其中的搜索引擎。元搜索引擎技术是一种基于多引擎协同搜索的搜索引擎技术。因而,它的研究侧重点应主要在于解决好以下三个问题:用户查询需求的分解、查询的派发和返回结果的过滤(消重)、综合(相关度排序)其总的发展趋势是达成搜索操作的个性化。再者,还有能支持多信息类型的搜索引擎和基于对等模式的检索思想的出现,前者着眼于网络上不仅有文本类型的信息,而且还有音频文件、视频文件、图像文件等信息类型。将来,实用的搜索引擎必将

4、具备对多种信息类型文件的检索功能;后者是基于P2P(PeetoPeer)J技术发展起来的,因为相距万里的用户可以通过P2P共享硬盘上的文件、目录甚至整个硬盘。如果把这一理念具体运用到搜索引擎技术上来:P2P将使户能够深度搜索文档,而且这种搜索无须通过Web服务器,可以不受信息文档格式和宿主设备的限制,因此可达到传统目录式搜索引擎无可比拟的深度[1]。二、智能搜索引擎的系统结构组成和工作流程2.1智能搜索引擎系统的系统结构组成智能搜索引擎系统主要由6部分组成:网页内容搜索器CRWALER、初始页面内容存储器REPOSITORY、主索引器IND

5、EXER、有序内容存储桶BARREL、检索器SERACHER以及人机交互界面UI(UserInterface)[2]。(智能搜索引擎系统的主要系统结构图)(1)网页内容搜索器CRWALER:实际是一组分布式自动运行的网络爬虫程序,负责从浩瀚的INTER网页中抓取遍历到的网页信息。并将内容压缩(实际为把网页文件分解,抽取文本、图象、多媒体实际内容,去除控制标签)后存入初始页面存储器。(2)初始页面内容存储器REPOSITORY:存储内容搜索器抓取到的网页内容。(3)主索引器INDEXER:是整个系统的核心部分,它将页面存储器中的网页内容分解,

6、按照特定的用户词典把网页进行归类、主关键词语索引甚至是全文索引,排序后然后存入存储桶中。(4)存储桶BARREL:存储经过索引器索引、排序的网页内容信息。供检索器调用。(5)检索器SEARCHER:根据UI输入的查询语句和关键词语以及它们间的逻辑关系在存储桶中查找相关内容,并按照特定的网页相关度计算已查得各网页的信息内容相关度,以此排序后向UI输出。(6)人机交互界面UI:提供用户输入查询词语的界面,并提供词语间逻辑关系(.and..or.not.)或关键词语限制条件(如时间、大小、类型等信息文件属性)的选项。三、智能搜索技术的相关重要思想

7、与应用算法介绍3.1内容相关度的向量空间模型算法多数系统都是采用向量空间模型算法,把查询关键词的个数N作为向量空间的维数,衡量每一维的权值Wi(i=1,2,3.....n),设α=(α1,α2,….αn),αi=wi然后统计关键词在页面内出现的频率,并求出频率比,以出现频率最高的关键词作为基准,设X=1表示,通过频率比,依次求出其他关键词频率Xi,则该页面对应向量的每一维分量为XiWi。则总的页面主题相关度为β=(x1w1,x2w2,…..xnwn)i=1,2,…..,n取页面主题相关度用两个向量夹角的余弦表示[3]:cos(α,β)==3

8、.2基于知识陈述句的内容相关度的计算模型由于网页信息大都是说明或介绍性的文档,因此可以运用基于陈述句的语法分解来建立相关度权重系数的配比模型。陈述句由Subject主语、Verb

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。