基于垂直搜索技术的搜索引擎解决方案

基于垂直搜索技术的搜索引擎解决方案

ID:5390573

大小:417.49 KB

页数:5页

时间:2017-12-08

基于垂直搜索技术的搜索引擎解决方案_第1页
基于垂直搜索技术的搜索引擎解决方案_第2页
基于垂直搜索技术的搜索引擎解决方案_第3页
基于垂直搜索技术的搜索引擎解决方案_第4页
基于垂直搜索技术的搜索引擎解决方案_第5页
资源描述:

《基于垂直搜索技术的搜索引擎解决方案》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、电脑应用技术二零零八总第七十二期∗基于垂直搜索技术的搜索引擎解决方案陈洪猛北京工业大学,北京市100022摘要:搜索引擎是互联网检索技术的核心,随着互联网的迅速发展,目前的综合搜索引擎已无法满足用户的需求,这就成就了垂直搜索引擎的蓬勃发展.但处于发展初期的垂直搜索引擎还有很多不足,本文提出了一种基于垂直搜索技术的搜索引擎解决方案,以提高搜索引擎的工作效率。关键词:搜索引擎垂直搜索引擎解决方案网络搜索技术ASearchEngineSolutionBasedonVerticalSearchTechnolo

2、gyCHENHongmengBeijingUniversityofTechnology,Beijing100022Abstract:Searchengineisthecoreofinternetsearchtechnology,withthedevelopmentofinternetrapidly,nowmetasearchenginecannotmeettherequirementofuser,sothismakeverticalsearchenginedevelopsrapidly.Butvert

3、icalsearchengineofearlystagehasalotofshortages,thisarticledesignsasearchenginesolutionbasedonverticalsearchtechnologytoincreaseworkingefficiencyofsearchengine.Keywords:searchengine;verticalsearchtechnology;solution,websearchtechnology1引言随着Internet技术的不断发

4、展,人类社会的信息化进程不断加快,越来越多的信息资源选择网络作为传播的载体。为了在浩瀚的Internet世界中获取需要的信息,网络搜索引擎应运而生。早期的搜索引擎都是综合搜索引擎,随着因特网的迅猛发展,网络信息资源成几何级数增长,综合搜索引擎对网络信息的覆盖率整体上呈下降趋势,而且由于信息资作者简介:陈洪猛(1979-),男,福建南安人,汉,硕士,研究方向为智能信息系统。14电脑应用技术二零零八总第七十二期源的“爆炸”式增长,想要快速、准确的查找所需的信息越来越难,因此催生了垂直搜索引擎的出现。2技术

5、概述垂直搜索引擎,即专业或专用搜索引擎,是针对某一个行业或某一主题的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。传统的综合搜索引擎一次搜索的结果有成千上万条,而在这些庞大的信息中,有用的信息只是其中的一小部分,这就使用户需求和市场服务间产生巨大反差,形成所谓的“搜索噪音”。而垂直搜索引擎则不同,它是更有针对性的搜索引擎,它只搜索特定主题的信息。由于覆盖的学科领域少,信息量相对较少,这就大大降低了收集信息的难

6、度,提高了信息的质量。垂直搜索引擎的应用领域很多,比如购物搜索、房产搜索、人才搜索等,几乎所有行业都可以细化为各类的垂直搜索引擎。垂直搜索引擎主要是由主题爬虫模块、索引模块、检索模块、用户接口等四个部分组[1]成,如图1所示。HTML爬虫模块文本分析模块用户索引模块接检口索模索引库块图1垂直搜索引擎结构2.1信息采集技术在信息采集上,垂直搜索引擎的spider在爬行网页时,根据系统对网页和主题相关度的计算,采取一定策略调整爬行方向,使系统尽可能的在与主题相关的网页集中的地方爬行,对网页进行分析。2.2

7、网页信息抽取技术15电脑应用技术二零零八总第七十二期垂直搜索引擎和综合搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,综合搜索是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位,先将非结构化数据抽取成结构化数据,然后[2]将这些数据存储到数据库。2.3索引技术垂直搜索引擎将从网页抽取的结构化数据按照各行业的专业知识进行加工处理,如:去重、分类等,最后分词,建立索引后存储到索引数据库。2.4分词技术目前常用的中文分词方法有:单汉字分词,双汉

8、字分词(统计分词)和词典分词。由于中文语法的复杂性,通常综合搜索引擎都是把几种分词方法混合起来使用,增加分词的准确度。垂直搜索引擎同样如此,但在使用词典分词时,垂直搜索引擎使用的是各行业的[3]专业词库,这样不但减少了运行时间,而且最大限度的减少了分词所产生的歧义。2.5搜索技术垂直搜索引擎在搜索时使用的是关键词的精确匹配,这样用户只需一次输入关键字,就可以准确的找到所需要的信息。如果这种信息没有查找到,用户就没有办法来解决,因为没有其他的关键词替换,只

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。