web搜索引擎检索技术的分析与展望

web搜索引擎检索技术的分析与展望

ID:33930175

大小:131.63 KB

页数:4页

时间:2019-02-28

web搜索引擎检索技术的分析与展望_第1页
web搜索引擎检索技术的分析与展望_第2页
web搜索引擎检索技术的分析与展望_第3页
web搜索引擎检索技术的分析与展望_第4页
资源描述:

《web搜索引擎检索技术的分析与展望》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Web搜索引擎检索技术的分析与展望吴楠(3)分面组配分类法:这类搜索引擎一般设计两个分面,查询时两个分面的类目以及子一、搜索引擎的原理与技术类目可相互组配,从而提高专指度,查准率较搜索引擎的主要功能是信息组织和信息检高。索。基于层次检索的分类目录检索和基于词语(4)图书分类法:图书分类法以科学体系检索的关键词检索是Web搜索引擎的两种基为基础,容量大,版本更新及时,可直接使用图本类型。书分类法机读版本。1、分类目录检索。网络分类目录提供按类2、关键词检索。大多数搜索引擎一般在首浏览查询方式。页中都有检索对话框,允许用户输入欲查询的分类搜索引擎

2、工作原理:由人工发现、抓关键词,搜索结果由搜索引擎的检索软件进行取、辨别网上信息、依靠编目、标引人员的知识处理。按照图书分类、学科分类或其他分类依据,建立搜索引擎由5部分构成:搜索器、搜索引擎主题树分层目录,将采集、筛选后的信息分门别数据库、索引器、检索引擎和用户接口。搜索器类。用户在使用分类目录时,通过搜索引擎的对应抓取过程,索引器完成文档分析和建立索分类目录,从顶层逐步向下查询子目录,网络资引的工作,文档表示的结果组织为索引数据库,源目录所采用的分类法有主题分类法、学科分检索引擎对应检索式的分析处理和匹配运算,类法、图书分类法和分面组配分类法。用

3、户接口负责用户检索表达式的输入,检索结(1)主题分类法:主题分类法把事物纳入果的显示和相关反馈的实现。相关的主题目录,与此事物相关的内容全部集基于关键词的检索工具的工作原理和检索中在主题目录下,便于用户的特性检索。主题技术如下:法一般设置多个一级主题类目,再下设次级目(1)网页抓取。网页抓取的工作依靠搜索录,其层次多为4级,在最后一级列出超文本的器来完成,日夜搜集Web上的信息,信息送给链接点,多数链接点伴有相应网页内容介绍。搜索引擎的数据库,搜索器的实现常用分布式、这种分类法以事物为线,适应交叉主题的主题并行计算技术,一个商业搜索引擎的信息发现查找

4、,但对网络资源的覆盖率有限。可以达到每天几百万网页。搜索器首先访问起(2)学科分类法:学科分类法以学科作为始集合中的单个网页,提取网页上有价值的文分类的标准,在一级类目下设立二级、三级类本信息送回搜索引擎本地的数据库,它从该网目。这种分类法容量大,便于用户的族性检索。页的某个连接跳转到另一个网页重复工作,由[3]文菊,邓宏霞,优化毕业论文(设计)管理模式的研参考文献:究[J].零陵学院学报:教育科学,2004(10):147~[1]刘定帮,张国斌,等.坚持应用型人才培养目标,改149.进和加强毕业论文指导[J].中国远程教育,2005,[4]李

5、俊龙,胡锋,等.提高本科毕业论文(设计)质量(5)上:20~31的探索与实践[J].中国大学教学,2006(8):41~[2]朱梅.关于完善我国本科毕业论文教学环节的理42.性思考[J].教书育人,2006(4):13~15.(作者单位:徐州师范大学管理学院221009)5220072淮阴师范学院教育科学论坛于网页数目庞大,只能选择性地摘抄放弃部分实际上是预先整理好的网页索引数据库,利用网页。用户新创建的网页想被搜索引擎收录或基于搜索引擎的检索模式在网上进行信息搜不希望被搜索引擎收录可以主动向搜索引擎提索,它只包含部分网页信息,许多网络信息使

6、用交请求或拒绝访问。搜索引擎是找不到的,但即使这样搜索引擎中(2)文档分析。原始文档被搜索器自动抓索引的网页已多达几十亿、几百亿,建立良好的取回来之后进行分析,主要功能是过滤文件系索引是提高搜索效率和效果的关键。统信息,为文件系统的表达提供一种满意的索二、搜索引擎的比较分析引输出。首先要经历信息过滤的步骤,即将关键词搜索引擎采用基于关键词匹配的全HTML文档中的词从大量用于描述文档格式的文检索技术,对文章中的每个词进行搜索,当搜标签中分离出来,常用的语词切分方法有按词索引擎遇到一个网站时将该网站上网页获取下典进行最大词组匹配、逆向最大词组匹配、最佳来

7、,收入到引擎的数据库中,如果用户输入查询匹配法、联想回溯法、全自动词典切词法以及的关键词在引擎库中出现过,则这篇文章就会基于神经元网络、专家系统的分词方法和基于作为匹配结果返回给用户,查询全面、快捷。统计和频度分析的分词方法,接着进行词法和但是,关键词式搜索引擎由于信息采集、组句法分析,识别出各个语词的词干,根据词干建织标引、匹配检索等过程缺乏控制,所以,缺乏立信息索引。概念语义控制导致的虚假匹配较多,信息关联(3)建立索引。索引是搜索引擎检索成败难以控制导致的重复链接信息较多,搜索引擎的核心,为了快速相应检索,在组织信息时必须索引库中下载的网页中

8、有许多无用或暂时信建立索引。索引是一种将关键词词目映射到相息,用户要在大量的结果中挑选有用信息,降低应文档的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。