资源描述:
《基于企业深度挖掘型的新型垂直搜索引擎设计》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、精选公文范文管理资料基于企业深度挖掘型的新型垂直搜索引擎设计 1传统搜索引擎存在问题 (1)目录式搜索的缺陷是速度慢 目录式搜索的用户界面基本上都是分级结构,提供几个大类入口,用户一级一级地向下查询,经过若干人工搜索后找到需要查询的结果.它虽然可以找到需要的信息,但是其死链接较多,要依赖手工操作,按照分类逐层的搜索才能找到,检索速度非常慢,有失搜索的功能.搜索引擎是一种信息检索工具,要极大缩短人们查找信息的时间,来最大化地提升了人们的工作效率. (2)全文搜索引擎的缺陷是检索功能有限 全文搜索引擎它拥有词
2、命中率不高,范畴检索功能有限,没有截词检索功能.它的效率好不好得根据各站的技术判定. (3)关键词搜索的缺陷是信息量大,[键入文字][键入文字][键入文字]精选公文范文管理资料良莠不齐 关键词搜索返回的信息过多,需要用户明确知道自己要找什么,然后理出一个清晰的关键词进行搜索,否则会搜索出很多无关信息,这些信息良莠不齐,鱼龙混杂,需要用户必须从结果中逐一进行筛选辨别后才能使用.如果输入多个关键词进行查找,那么搜出的信息才可能相对减少,这样就使得人们感到浪费时间很是不方便.同时关键词搜索不能把多方面的内容融为一体自
3、动过滤提取最有价值的内容. (4)模糊搜索的缺陷是准确率低 模糊搜索是建立在关键词搜索理论基础上的同义词搜索,只要输入关键词,该关键词的所有同义词信息都被搜索出来,留给用户的就是成千上万的信息.因为输入的搜索请求是模糊的,所以也无法在最短的时间内,帮助用户最快地找到所需要的准确信息.用户如果要找到准确的信息就得一次次地输入多个关键词才可能找到,这样就显得比较麻烦了. 2[键入文字][键入文字][键入文字]精选公文范文管理资料基于企业深度挖掘型的新型垂直搜索引擎 2.1深度挖掘型搜索的优点 通过对元数据信息
4、进入深度加工,提供用户专业性、功能性、关联性、用户信息管理以及信息发布互动等功能的网页搜索,能很好地满足用户高要求的搜索信息的需求.专业的元数据属性构造背后需要一个强大专业人士组成的团队. 这些专业人士对该领域的元数据模型进行专业的分析、关联整合,再通过搜索技术按这些元数据模型把这些信息组织呈现给用户. 2.2垂直搜索引擎的体系结构 搜索引擎[1]系统一般由网页抓取模块、信息抽取和索引模块、界面及检索模块3大模块组成,其中网页抓取模块包括网页信息采集和网页预处理;信息抽取和索引模块包括Web信息抽取和建立倒排
5、索引;界面及检索模块包括查询界面.搜索引擎的体系结构如图1所示. 网络信息采集:主要是指通过Web页面之间的链接关系,从Web[键入文字][键入文字][键入文字]精选公文范文管理资料上自动地获取页面信息,并且随着链接不断向所需要的Web页面扩展的过程.实现这一过程主要是由Web信息采集器(WebCrawler)来完成的. 网页预处理:在数据进入数据仓库之前,对数据进行抽取、转化和清理.从外围系统或源系统中把数据导入,转化一般指对数据的进行统一(包括数据格式和数据编码的统一),然后把一些垃圾数据清理掉,保留有
6、用数据.Web信息抽取:是设计Wrapper包装器和抽取规则抽取主题相关信息.建立倒排索引:利用垂直搜索的相关技术如中文分词技术、索引排序技术等技术建立索引规则. 界面及检索模块:界面提供用户接口接收用户查询请求、反馈查询结果.搜索引擎为用户提供通过输入关键词来得到结果的输入输出的可视化界面.用户在关键词输入界面中,输入检索关键语句、关键词以及各种检索的关键条件;在查询结果输出界面,[键入文字][键入文字][键入文字]精选公文范文管理资料搜索引擎将检索到的结果按一定规则输出显示. 2.3构建良好深度挖掘型垂直搜
7、索引擎的要求 (1)高效的可扩展的信息检索器作为垂直搜索引擎的最基本环节,信息检索器(Crawler)为了满足垂直搜索的后续要求,信息检索器必须能够智能地获取制定网络数据,并且返回详细报告,作为后续分析提供参数,另外检索器必须实现良好的扩展性,提供各种规则过滤接口,以便于满足垂直搜索针对特定域的检索要求. (2)模板智能生成匹配,元数据抽取做为垂直搜索引擎的一个重要环节,利用现有的智能学习方法和算法,进行改进,研究智能模板生成,以及人工训练方法,研究网页元数据抽取,实现分散的元数据还原、聚集. (3)基于语义
8、网,超链接的文本分类,定向采集对于巨大信息量的网页库,即便是指定域的网页,仍然存在大量的不关联和极少关联的网页,利用现有的超链接识别,信息提取判断,结合对网页文本特征提取,[键入文字][键入文字][键入文字]精选公文范文管理资料获取文本的权重,主体相关性,实现快速定向采集,过滤掉不相关的超链和文档,为检索器实现快速定向采集提供支持. (4)数据的后期分析提