垂直搜索引擎的构建与应用

垂直搜索引擎的构建与应用

ID:22905685

大小:53.00 KB

页数:6页

时间:2018-11-01

垂直搜索引擎的构建与应用_第1页
垂直搜索引擎的构建与应用_第2页
垂直搜索引擎的构建与应用_第3页
垂直搜索引擎的构建与应用_第4页
垂直搜索引擎的构建与应用_第5页
资源描述:

《垂直搜索引擎的构建与应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、垂直搜索引擎的构建与应用本文首先分析了互联X搜索引擎的现状,而后对垂直搜索引擎进行了系统设计,并阐述了系统实现的要点,最后对垂直搜索引擎的应用和特点做了总结,对读者了解垂直搜索引擎的概念和实现原理有一定现实意义。关键词:垂直搜索引擎;构建  1互联X搜索引擎现状  随着信息技术的迅猛发展,互联X信息呈爆炸式增长,随着这种增长,各种互联X搜索引擎横空出世,这些搜索引擎在一定程度上满足了人们对于海量信息的检索需求,然而其检索结果满足用户真正的检索需求并非易事。在这种情况下,各种搜索引擎通过不断改进检索技术来提高返回结果的精度,但由于搜索引擎自身的问题,其检索

2、结果仍然令用户无法满意。主要表现为搜索结果数量大,结果不精确,大多有用的结果淹没在无用的结果中,为了解决这一问题,一些学者和技术人员提出了垂直搜索引擎的概念。  笔者认为,垂直搜索引擎就是将互联X上海量的非结构化的X页进行主题抓取,而后将X页的主要元素抽取进入数据库,使其成为结构化、专门化的数据以便于用户检索的一种搜索引擎,垂直搜索引擎相比传统的互联X搜索引擎,具有检索对象专一,检索结果准确深入等特点,本文将从简要介绍如何构建一个垂直搜索引擎。  2系统设计  针对以上提到的传统搜索引擎的弊端和垂直搜索引擎的概念,笔者根据自身所理解的垂直搜索引擎的概念,

3、设计了一个垂直搜索引擎系统的流程图,如下:   从图1可以看到,首先我们利用X络爬虫对互联X上的X页进行主题抓取,X络爬虫可以通过正则表达式对抓取目标进行主题限制,例如我们希望抽取医学相关的X页,那么我们则通过设置相关的医学主题词和相关的医学主题X站对抽取目标进行限制,,将所有含有医学主题的X页抓取到本地。  第二步我们通过对本地X页进行X页元素抽取将X页中的各个元素抽取到数据库中,抽取元素一般为X页标题、发布时间、发布者、X页正文等内容。通过以上两步操作我们即完成垂直搜索引擎基本数据的准备,之后所需要做的仅仅是对该数据库开发一个用户检索接口即可。  3

4、系统实现要点  3.1X页主题抓取  X页主题抓取是本系统实现最重要的一环,基础数据质量好坏直接决定了整个搜索引擎检索结果的效果。本系统在比较分析了几款X络爬虫的基础上,利用C#语言实现了一个可以设置抓取站点并限制主题词进行抓取的X络爬虫,其实现关键点在于实现多线程对X页的循环抓取,如下图:  图2X络爬虫工作流程图  首先设置目标X站(即爬虫抓取开始位置)和X页内包含的主题词(利用正则表达式实现,而后检查该X页是否有更新,若有更新则下载X页,没有更新则结束抓取重新设置目标X站进行抓取。该爬虫程序不同于传统搜索引擎的关键点主要在于进行主题抓取,主题词设置

5、利用正则表达式实现。  3.2X页元素抽取  抓取完目标X站的主题X页后,需要将这些X页的元素进行抽取,本系统采用的XML模板的方式进行精确抽取,抽取元素分为标题、发布者、发布时间和正文等四个元素,XML模版文件中主要存储X页元素的开始和结束标识,例如标题元素的开始和结束标识为:  <标题><start><![cdata[<title>]]></start><end><![cdata[</title>]]></end>  代码1XML模板文件标示例

6、  从代码1可以看到,XML中标题元素中,start元素的值为,程序首先读取XML模板文件,将<标题>元素中的start和end元素中的值读出,其中start元素的值为X页标题抽取开始标识,end元素的值为X页标题抽取结束标识,也就是说,程序会对X页中之间的字符串进行抽取,并将其存储在数据库的标题字段中,这样就完成了对X页标题元素的抽取,其他元素的抽取原理相同。  4垂直搜索引擎的特点  上文阐述了垂直搜索引擎的设计理念和实现要点,下面笔者将对其特点和应用做一简要介绍。垂直搜索引擎与传统搜索引擎相比,主要有以下特点:  搜索结果更加专业。由于

7、垂直搜索引擎仅仅针对某个专门领域或者行业,所以其搜索结果比传统搜索引擎更加专业,尤其是在一些容易产生歧义的词语搜索方面效果更加明显。  搜索结果更加精确。传统搜索引擎的搜索结果往往无用信息大于有用信息,用户很难获取其真正需要的信息,而垂直搜索引擎本来就是在用户所需要的领域进行搜索,所以搜索出来的结果必定是有用信息,只是其程度不同。  搜索结果更加深入。传统搜索引擎对于专业信息的检索往往停留在概念、定义等浅层信息,而垂直搜索引擎的检索结果更加深入,涉及用户需求的方方面面,为用户获取全面、专业的知识提供了平台。  5垂直搜索引擎的应用  随着互联X的发展,X

8、民对于检索的需求也越来越细化,目前在各个行业和领域都可以看到垂直搜索引擎的身影。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。