欢迎来到天天文库
浏览记录
ID:22905685
大小:53.00 KB
页数:6页
时间:2018-11-01
《垂直搜索引擎的构建与应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、垂直搜索引擎的构建与应用本文首先分析了互联X搜索引擎的现状,而后对垂直搜索引擎进行了系统设计,并阐述了系统实现的要点,最后对垂直搜索引擎的应用和特点做了总结,对读者了解垂直搜索引擎的概念和实现原理有一定现实意义。关键词:垂直搜索引擎;构建 1互联X搜索引擎现状 随着信息技术的迅猛发展,互联X信息呈爆炸式增长,随着这种增长,各种互联X搜索引擎横空出世,这些搜索引擎在一定程度上满足了人们对于海量信息的检索需求,然而其检索结果满足用户真正的检索需求并非易事。在这种情况下,各种搜索引擎通过不断改进检索技术来提高返回结果的精度,但由于搜索引擎自身的问题,其检索
2、结果仍然令用户无法满意。主要表现为搜索结果数量大,结果不精确,大多有用的结果淹没在无用的结果中,为了解决这一问题,一些学者和技术人员提出了垂直搜索引擎的概念。 笔者认为,垂直搜索引擎就是将互联X上海量的非结构化的X页进行主题抓取,而后将X页的主要元素抽取进入数据库,使其成为结构化、专门化的数据以便于用户检索的一种搜索引擎,垂直搜索引擎相比传统的互联X搜索引擎,具有检索对象专一,检索结果准确深入等特点,本文将从简要介绍如何构建一个垂直搜索引擎。 2系统设计 针对以上提到的传统搜索引擎的弊端和垂直搜索引擎的概念,笔者根据自身所理解的垂直搜索引擎的概念,
3、设计了一个垂直搜索引擎系统的流程图,如下: 从图1可以看到,首先我们利用X络爬虫对互联X上的X页进行主题抓取,X络爬虫可以通过正则表达式对抓取目标进行主题限制,例如我们希望抽取医学相关的X页,那么我们则通过设置相关的医学主题词和相关的医学主题X站对抽取目标进行限制,,将所有含有医学主题的X页抓取到本地。 第二步我们通过对本地X页进行X页元素抽取将X页中的各个元素抽取到数据库中,抽取元素一般为X页标题、发布时间、发布者、X页正文等内容。通过以上两步操作我们即完成垂直搜索引擎基本数据的准备,之后所需要做的仅仅是对该数据库开发一个用户检索接口即可。 3
4、系统实现要点 3.1X页主题抓取 X页主题抓取是本系统实现最重要的一环,基础数据质量好坏直接决定了整个搜索引擎检索结果的效果。本系统在比较分析了几款X络爬虫的基础上,利用C#语言实现了一个可以设置抓取站点并限制主题词进行抓取的X络爬虫,其实现关键点在于实现多线程对X页的循环抓取,如下图: 图2X络爬虫工作流程图 首先设置目标X站(即爬虫抓取开始位置)和X页内包含的主题词(利用正则表达式实现,而后检查该X页是否有更新,若有更新则下载X页,没有更新则结束抓取重新设置目标X站进行抓取。该爬虫程序不同于传统搜索引擎的关键点主要在于进行主题抓取,主题词设置
5、利用正则表达式实现。 3.2X页元素抽取 抓取完目标X站的主题X页后,需要将这些X页的元素进行抽取,本系统采用的XML模板的方式进行精确抽取,抽取元素分为标题、发布者、发布时间和正文等四个元素,XML模版文件中主要存储X页元素的开始和结束标识,例如标题元素的开始和结束标识为: <标题><start><![cdata[<title>]]></start><end><![cdata[</title>]]></end> 代码1XML模板文件标示例
6、 从代码1可以看到,XML中标题元素中,start元素的值为,程序首先读取XML模板文件,将<标题>元素中的start和end元素中的值读出,其中start元素的值为X页标题抽取开始标识,end元素的值为X页标题抽取结束标识,也就是说,程序会对X页中之间的字符串进行抽取,并将其存储在数据库的标题字段中,这样就完成了对X页标题元素的抽取,其他元素的抽取原理相同。 4垂直搜索引擎的特点 上文阐述了垂直搜索引擎的设计理念和实现要点,下面笔者将对其特点和应用做一简要介绍。垂直搜索引擎与传统搜索引擎相比,主要有以下特点: 搜索结果更加专业。由于
7、垂直搜索引擎仅仅针对某个专门领域或者行业,所以其搜索结果比传统搜索引擎更加专业,尤其是在一些容易产生歧义的词语搜索方面效果更加明显。 搜索结果更加精确。传统搜索引擎的搜索结果往往无用信息大于有用信息,用户很难获取其真正需要的信息,而垂直搜索引擎本来就是在用户所需要的领域进行搜索,所以搜索出来的结果必定是有用信息,只是其程度不同。 搜索结果更加深入。传统搜索引擎对于专业信息的检索往往停留在概念、定义等浅层信息,而垂直搜索引擎的检索结果更加深入,涉及用户需求的方方面面,为用户获取全面、专业的知识提供了平台。 5垂直搜索引擎的应用 随着互联X的发展,X
8、民对于检索的需求也越来越细化,目前在各个行业和领域都可以看到垂直搜索引擎的身影。
此文档下载收益归作者所有