欢迎来到天天文库
浏览记录
ID:9585668
大小:307.50 KB
页数:18页
时间:2018-05-03
《全文检索系统技术方案》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、全文检索系统技术方案北京中威佰特科技有限公司2009-7文检索系统技术方案目录 第1章背景1第2章系统设计22.1技术架构图22.2系统架构图3第3章系统功能43.1信息采集43.2中文自然语言处理43.3全文检索功能43.4格式文件检索53.5性能指标5第4章搭建全文检索平台74.1信息查询74.1.1查询方式74.1.2查询结果94.1.3简单查询94.1.4业务查询104.1.5组合查询104.1.6批量查询124.2信息检索134.2.1关键词检索134.2.2递进检索134.2.3网文检索144.2.4检索技术15第16页文检索系统技术方案第1章背景据统计
2、,内部网上的信息每年以200%的速度增长,其中发布到互联网上的信息只占到信息量的1%-2%,而98%以上的信息是发布在内部网上的。内部网上的信息既有网页形式的,也包含其他Word、PDF、XML等多种格式的数据。因此,面对内部网中海量异构的信息资源,如何帮助用户快速找到他们所需要的信息是一个主要的技术挑战。搜索引擎能帮助用户方便、快捷、安全地获取内部网上的信息,在满足高效的同时,更重要的是保证了较高的查全率和查准率,能提供智能化的概念扩展搜索,极大的提高工作效率。内部网搜索引擎将组织中分散管理的信息整合在一起,在组织层面上实现新的增值与共享,从而有效实现组织内容利用
3、的最优目标。搜索引擎的目标是实现内部网全文检索。系统可对实施了内部网站资源进行爬行,无论内部网上的数据源在何地、以何种形式存在,都能够对其快速地访问,通过准确的分词建立索引,从而实现高质量的搜索查询。搜索引擎的主要目标包括:(1)较高的查准率。搜索系统支持按词索引、按字索引,同时实现中文自动分词。(2)较高的查全率。搜索系统可搜索各类异构的信息资源,包括传统的网页信息、Word、PDF、XML等不同格式的文档以及各类主流数据库的表中记录。(3)智能化的检索结果排序。安全搜索系统应采用相关度分析技术,将用户需要的信息排在结果列表的前面,屏蔽无用和错误的信息。第16页文
4、检索系统技术方案第1章系统设计1.1技术架构图搜索引擎的系统体系架构如图所示:图系统体系结构图索引模块索引库···爬行器搜索结果排序数据源注册、资源描述、策略描述用户提交搜索、安全过滤数据库爬行控制内部数据库Web页面数据库表数据库数据源2电子文档文件系统数据源3电子邮件邮件系统数据源n。。。搜索请求返回结果内部网用户内部网站数据源1引擎实现了下列主要功能:(1)爬行器:爬行器根据资源描述信息对内部网中各种异构的资源信息进行爬行,获取所有能够获得的资源信息,资源信息的格式应包括:Web网页、Word、PDF、Excel、PPT等格式的办公文档、各类主流数据库的表中记
5、录。(2)索引器:通过中文分词技术,对爬行到的资源信息进行解析,建立索引文件。(3)搜索:用户提交其搜索条件,搜索条件经过特定处理后,在索引文件中检索出所有满足搜索条件的资源。第16页文检索系统技术方案1.1系统架构图全文检索系统统一搜索平台的总体架构采用三层(数据层、应用层和表现层)可扩展的设计,使整个系统不受硬件平台的限制,具有良好的扩展性和可管理性。第16页文检索系统技术方案第1章系统功能1.1信息采集1、采用多线程并发搜索技术。2、提供多种采集范围控制方式,包括在指定网站内,在指定域内,以及在指定IP地址范围等方式。3、可以设置多种网站采集控制方式,包括采集
6、的网页大小、超时限制等。4、提供高效更新功能,对于已经采集过的网站,更新时只采集发生变化和新加入的资源。5、可以灵活设定采集结果的存储方式,具有开放性。1.2中文自然语言处理1、内嵌自动分词系统,有效提高了分词准确性。2、在应用层上,提供自动分类和摘要功能;3、支持按词索引、按字索引、按关键词索引,适应不同应用环境的需求;4、内嵌相似性检索技术,提供文章的相似性检索和聚类功能。1.3全文检索功能1.支持WebBrowser/WebServer检索方式;2.智能中文分词:采用先进的自动分词系统,根据大量的语料统计和分析,建立了上万条的歧义排除规则,因此检索“华人”不会
7、把仅仅包含“中华人民共和国”的文章检索出来。3.支持结构化数据和非结构化数据的混合检索;4.允许使用文中的任意字、词、句和片段进行检索;5.全方位检索手段:与、或、非、异或;6.对数值、日期等特征字段可以进行比较和范围检索;7.支持任意一致的通配符检索(模糊检索);第16页文检索系统技术方案1.支持多网站的全文检索2.具备中文自动分词系统,能有效提高分词准确性3.采用智能中文分词技术,建立高效索引库4.支持实时索引(1分钟内)5.支持增量式实时索引6.多线程设计,支持大量并发用户访问,每秒并发达到50个以上7.支持在结果中查询8.支持GBK、BIG5、UTF8、
此文档下载收益归作者所有