欢迎来到天天文库
浏览记录
ID:9160375
大小:95.00 KB
页数:5页
时间:2018-04-19
《中文农业搜索网站的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中文农业搜索网站的设计与实现周国民,樊景超,周义桃(中国农业科学院农业信息研究所,北京100081)0.引言搜索引擎作为解决用户要在信息海洋里查找信息难这个问题而出现的技术,己成为互联网上非常重要的网络导航服务。目前,web网上拥有超100亿的静态网页。而当前的通用搜索引擎所能检索的网页一般不超过web网的30-40%,即使是用户最多的Google,其检索的网页也只在30亿左右。另一方面,web技术的发展使更多的网页以动态形式存在,形成所谓的隐藏web网,据估计这部分的信息是整个静态Web空间的500倍以上,而且有递增的趋势。由于搜索引擎在Intem
2、et中所具有的重要地位,它一直就是用户关心的热点之一,也是各家相关公司全力开发的技术焦点。我国各类网站发展非常迅速,而农业网站仅占这些网站的很小一部分,因此通过综合的搜索引擎网站,如google、百度等,会搜索到很多无关的信息。据不完全统计,在农业领域现有各种网站1万多个,涉及农、林、牧、渔、水利、气象、农垦、乡镇企业、及其它农业部门,网页数200多万个,如何仅仅针对这些农业网站中的信息,开发一个专业化的搜索引擎,实现农业信息的精确搜索是本文研究的出发点。1.系统结构与功能中文农业网页搜索网站(简称“农搜”)由网页抓取模块、全文分析与索引模块、全文与
3、语义检索引擎、全文和语义索引库、以及交互接口模块构成。如图1所示。网页抓取模块是根据中文农业网站地址,按照特定的抓取算法,从网络上实时采集中文农业网页。全文分析与索引模块包括全文分析与索引、语义分析与索引两个部分,它把采集回来的中文网页进行逐个处理,分别构建全文索引和语义索引,并保存到全文和语义索引库中。全文与语义检索引擎则根据用户的查询请求生成检索结果集。交互接口模块完成对查询语句的分析和检索结果的高亮显示以及网站直达功能。“农搜”的主要功能包括如下五个方面:①网页全文检索功能,用户查询时,提供与关键字匹配的结果列表。②网站直达功能,用户点击检索结
4、果的标题超链接,即可跳转到网页的互联网地址。③网页评分功能,全文引擎和语义引擎根据各自的评分算法,对网页进行平分和排名。④内容提示功能,全文检索把输出的内容含有检索词的部分高亮显示,提示用户。⑤语义相似网页检索功能,根据用户的选择文档,进行二次检索并输出相关网页。“农搜”的主页面如图2。它特点包括两个方面。一是,采用了独特的智能页面分析技术,实现了中文农业网页信息的结构化索引,用户输入关键词后,返回的结果集中不再是没有关联和分类的网页集,而是分成了农业科研单位、农业专家人才、农业实用技术等分门别类的相关网页信息集,在专业化、大众化信息服务的基础上,实
5、现了精准、个性化的信息服务。二是,实现了“全文检索+语义检索”的智能检索引擎,通过使用“全文检索+语义检索”的智能检索引擎技术,不但实现了信息的查全率,这点和主流的检索引擎是一样,同时比较好的实现了信息的查准率。用户通过关键词后利用“全文检索引擎”查到一系列网页后,“农搜”可以根据用户指定的任何一个网页,利用“语义检索引擎”查到这个页面的最相似页面。后台处理交互接口用户1.........用户n全文索引库用 户 查 询/返回全文检索器语义检索器全文分析、索引器网页抓取器WEB浏览器农搜网站语义索引库语义检索器语义分析、索引器图1“农搜”系统结构图2“
6、农搜”网站首页0.关键技术“农搜”实现了“全文检索+语义检索”的智能检索引擎,由于基于字的或者基于词的全文检索引擎已经有很多这方面的研究,本文不再叙述,下面重点介绍我们设计的语义检索引擎所采用的技术和实现原理。1988年S.T.Dumais等人提出了隐含语义索引(LatentSemanticIndexing)方法,该方法是向量空间模型的一个延伸分支,它是通过统计方法分析大量的文本集,自动生成关键字——概念(语义)之间映射规则,提取并量化这些潜在的语义结构,消除同义词、多义词的影响,提高文档表示的准确性。隐含语义索引方法的提出,使得基于向量空间模型的检
7、索研究获得新生,在信息过滤、信息分类、信息聚类、交叉语言检索、信息理解等众多领域中得到了广泛的应用。使用隐含语义索引方法,需要构建隐含语义索引空间,SVD是最早提出使用,也是目前普遍使用的典型隐含语义索引空间的构造方法。但基于SVD的隐含语义索引方法不太合适于大规模动态变化的数据集,而互联网上信息的一个显著特点是数据量大和数据变化快,因此,使用这种技术路线来索引和检索互联网上的海量信息并不很成功。1996年T.G.Kolda和D.P.O’Leary提出了一种改进算法来构建隐含语义索引空间,即SDD算法(SemidiscreteDecompositio
8、n)。日本国家农业研究中心(NARC)农业综合研究所农业情报研究部的研究人员将SDD算法用于日文网页和中文网
此文档下载收益归作者所有