α文搜索技术白皮书

α文搜索技术白皮书

ID:35515828

大小:923.22 KB

页数:18页

时间:2019-03-25

α文搜索技术白皮书_第1页
α文搜索技术白皮书_第2页
α文搜索技术白皮书_第3页
α文搜索技术白皮书_第4页
α文搜索技术白皮书_第5页
资源描述:

《α文搜索技术白皮书》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、α文搜索技术白皮书α文搜索技术白皮书1.引言α文搜索基于语义树,不依赖于分词,致力于提供所有文字的全文检索服务。α文搜索由上海泥娃通信科技有限公司提供。2.研发背景搜索引擎是信息时代的基础服务之一,搜索引擎服务的核心为全文检索。常用的全文检索提供基于关键词的查找。研究一种基于句子的查找是研发的动机之一。全文检索主要分为两个部分:文章索引和查找。文章的索引主要指的是关键词的索引。简单来说就是,索引程序通过扫描文章,为每一个词建立一个索引,记录该词在文章中出现的次数和位置,查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。全文检索系统是按照

2、全文检索理论建立起来的,用于提供全文检索服务的软件系统。一般来说,全文检索需要具备建立索引和提供查询的基本功能。功能上,全文检索系统核心具有建立索引、处理查询返回结果集、增加索引、优化索引结构等等功能,外围则由各种不同应用具有的功能组成。结构上,全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等等,加上各种外围应用系统等等共同构成了全文检索系统。全文信息搜索是信息时代的基本服务,文本信息检索是发展较快也较成熟的,其他的信息检索技术,往往也需要文本信息检索的支持。虽然搜索引擎已不仅仅局限于对文本进行检索,文本信息检索仍然是大部分搜索引擎的基础。常用的全文索

3、引引擎有Lucence等,其主要是通过分词技术,结合文档关键词倒排序表实现全文信息的索引。在信息检索系统的具体实现中,往往需要快速地找到文档中所包含的关键词。相比文档来说,关键词的个数是较少的,因此,以关键词为核心对文档进行索引是更加可行的方法。这就是信息检索领域常用的“倒排文档索引”技术。倒排文档索引可以被看成一个链表数组,每个链表的表头包含关键词,其后续单元则包括所有包括这个关键词的文档标号,以及一些其他信息。这些信息可以是文档中该词的频率,也可以是文档中该词的位置等信息。上海泥娃通信科技有限公司http://www.01wa.netα文搜索技术白皮书倒排文档索引

4、的优势不仅在于关键词个数少带来的检索效率提高,还在于其特别易于同信息检索技术结合。在实际应用中,查询中所包含的关键词往往是很少的,完全不包含查询中的所有关键词的文档,一般来说是不会被列入结果集的。因此,以关键词为主键进行索引,只需要用查询中包括的关键词,进行几次简单的查询就能够找出所有可能的文档。全文索引主要技术是倒排文档索引技术,实质是词或者字的索引,结合特定的词典形成特定的关键词索引。分词也是全文索引的关键技术之一。分词就是将连续的字序列,按照一定的规范重新组合成词序列的过程。中文分词(ChineseWordSegmentation)指的是将一个汉字序列切分成一个

5、一个单独的词。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。分词技术的主要目的是减小倒排序表的存储,提高索引的效率。缺点是需要针对性的给出不同字典和分词的方法,缺乏统一的尺度。对于常用的全文搜索来说,基本的功能就是分词加上倒排序文档。搜索引擎的服务随着信息量的增大,检索和存储量大,存在索引时间长,搜索速度慢等问题。常规的全文检索对于分词技术和字典的依赖,使得全文搜索实施的难度加大。对于不同语

6、种需要不同的字典和分词技术,对于同一语种不同专业的文档也需要不同的分词技术和字典,不同字典和分词技术也影响了系统的通用性。采用对文本信息进行特征序列的编码,形成相关的语义树,实质上提供了一种基于语句的全文搜索服务,搜索不再基于关键词的搜索,提供一种基于语义树的索引方法和系统,提供了一种不再依赖于分词的全文索引引擎,提供了一种适合不同语种的全文搜索引擎,具有存储空间小,索引速度和查询速度快等特点。1.概述α文搜索主要是构建语义树,通过语义树的构建提供一种快速匹配语义的方法,根据语义和文档的关系,查找到相关的文档信息。语义树的基本存储单元包括:最小语义单元,该单元的特征编

7、码,前置单元的特征编码。α文搜索提供windows和linux下的64位版本,系统c++编制,前端结合jquery、d3.js实现web页面。支持数据库mysql系列和mongodb系列。上海泥娃通信科技有限公司http://www.01wa.netα文搜索技术白皮书查询管理数据库语义树编码数据导入,编辑,删除内核管理脚本文件语义树存储语义树查询1.特点α文搜索是一款基于语句的全文检索服务系统,不再基于关键词,也不依赖分词服务,对语言的支持采用统一的标准,支持语言仅仅需要以下特点的:有最小的文字单元,语句可以切分。对文字的搜索提供一种独有的方式,按系

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。