欢迎来到天天文库
浏览记录
ID:40966479
大小:49.50 KB
页数:8页
时间:2019-08-12
《产品设计说明书》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、企业垂直搜索引擎产品设计说明书一、企业垂直搜索引擎工作原理非结构化数据1、网络半结构化信息资源目前,网络半结构化数据日趋丰富。完全结构化数据有非常良好的数据结构,如关系数据库、面向对象数据库中的数据。完全无结构数据是指声音、图像文件等无模式数据。而半结构化数据是介于完全结构化数据和无结构数据之间的一种数据类型。半结构化数据虽然有一定的结构,但却是不严格的、多变的和不完整的。从网络的信息层次来看,网络半结构化信息的研究对象分为3个层面:网页层面、网站层面、网络层面。——www网页:最主要的数据来源。●HTML(
2、HypertextMarkupLanguage)。目前互联网上最最要的数据描述语言●XML(extensibleMarkupLanguage)——XML是标准的通用标记语言SGML(ISO8879)的一个子集,用于支持Internet亡有结构文档的交换。和HTML相比,XML是面向内容的,它具有更多样化的结构和更丰富的语义,并具有可扩展性良好、易于零握、自描述等特点,适用于web上的数据交换。XML数据模型与半结构数据模型有着很多的相似性,即它既为半结构数据的研究提供了广阔的应用前景,同时也推动了半结构化数据
3、研究的发展。——网站的半结构化研究:充分利用网页内容、锚文本、网页链接、链接的关系等进行导航。——网络的半结构化数据抽取:通过挖掘利用网络信息半结构化的特点,设计智能搜索引擎,提供某一主题的高效检索,要更好地组织网络半结构化信息.首先要对半结构化信息进行合理的组织描述。非结构化数据抽取在我们的实践中,我们发现一些最有价值的数据指标通常都包含在非结构化的数据中,尤其是文本。以汽车制造公司为例,比如我们要处理来自六个数据源(包括非结构化的文本字段)的数据,包括关于故障的原因或症状的专家注释、对制造商的呼叫中心和消
4、费者协会收到的客户投诉的以及诉讼案例的摘要。我们构建的解决方案每天可以自动处理数以万计的记录,以寻找可以提高安全性或其它重要问题的指标。非结构化数据抽取工具可以定义和一组特性,这些特性会捕捉适合于正在被分析的文档集合的关键术语和概念。特性可以是多单词术语、人名、组织名和地名、缩写和关键的数字,如货币金额和日期。数据抽取算法将设定的抽取规则定义为独立的概念,并使用这些概念挖掘有价值的数据信息。每个特性都有可能成为一段结构化数据。分词及索引器网络机器人或网络蜘蛛采集的网页,需要先经过中文分词处理,将信息转化为单词
5、,中文分词是搜索引擎的核心技术之一。目前的分词技术基本有四种:A、基于字符串匹配的分词算法B、基于理解的分词方法C、基于统计的分词方法D、复方分词法分词之后还要进行分析,根据一定的相关度算法进行大量的计算通过索引器建立网页索引,才能添加到索引数据库中。索引数据库以文件方式存在。文件索引系统文件索引保存了有关文档的一些信息。索引以文档ID的顺序排列,每条记录包括当前文件状态,一个指向知识库的指针,索引域信息,倒排词表等。索引文件定义了6种基础数据结构Byte、UInt32、UInt64、VInt、Chars、S
6、tring,这些基础数据类型都以字节为基础来定义,因此保证索引文件系统与平台无关。索引index由若干段(segment)组成,每一段由若干的文档(document)组成,每一个文档由若干的域(field)组成,每一个域由若干的项(term)组成。项是最小的索引概念单位,它直接代表了一个字符串以及其在文件中的位置、出现次数等信息。域是一个关联的元组,由一个域名和一个域值组成,域名是一个字串,域值是一个项,比如将“标题”和实际标题的项组成的域。文档是提取了某个文件中的所有信息之后的结果,这些组成了段,或者称为一
7、个子索引。子索引可以组合为索引,也可以合并为一个新的包含了所有合并项内部元素的子索引。从概念上映射到结构中,索引被处理为一个目录(文件夹),其中含有的所有文件即为其内容,这些文件按照所属的段不同分组存放,同组的文件拥有相同的文件名,不同的扩展名。此外还有三个文件,分别用来保存所有的段的记录、保存已删除文件的记录和控制读写的同步,它们分别是segments,deletable和lock文件,都没有扩展名。每个段包含一组文件,它们的文件扩展名不同查询器我们平时看到的全文搜索引擎,实际上只是一个搜索引擎系统的检索界
8、面,当你输入关键词进行查询时,搜索引擎会从庞大的数据库中找到符合该关键词的所有相关网页的索引,并按一定的排名规则呈现给我们。不同的搜索引擎,网页索引数据库不同,排名规则也不尽相同,所以,当我们以同一关键词用不同的搜索引擎查询时,搜索结果也就不尽相同。查询器分两个部分,一个是查询分析器,负责构建查询条件;另外一个是查询检索器,负责访问索引系统或者分布式索引查询服务器,并计算返回结果.查询分析器从用户角
此文档下载收益归作者所有