企业级搜索引擎产品-深度搜技术介绍

企业级搜索引擎产品-深度搜技术介绍

ID:4243728

大小:1.61 MB

页数:29页

时间:2017-11-30

企业级搜索引擎产品-深度搜技术介绍_第1页
企业级搜索引擎产品-深度搜技术介绍_第2页
企业级搜索引擎产品-深度搜技术介绍_第3页
企业级搜索引擎产品-深度搜技术介绍_第4页
企业级搜索引擎产品-深度搜技术介绍_第5页
资源描述:

《企业级搜索引擎产品-深度搜技术介绍》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、上海深度网络(2013-06)1信息膨胀与搜索技术目前全文搜索可选择方案以及问题深度搜索技术的特点和优势深度搜索典型使用案例公司介绍2我有100年以来出版内容的电子数据我有50年以来所有报道的新闻电子稿我有20年来所有发帖内容,而且每天以数万条增长馆藏数百万的书都已经可以在线阅读了我有全世界所有工业设备的详细资料我有十年来的阅读材料,样卷,教材…我的笔记本,可以存放一个小型图书馆数据3存储不是问题,但只有搜索,才能将从数据中找到有用的信息只要是提供信息服务,就注定需要有提供对信

2、息检索的方法海量数据有用信息搜索4传统的数据库:开源搜索引擎:商业搜索引擎:5传统数据库具有众多优点:产品数量众多,可选择余地很大。成熟,可靠,稳定。具有大量相关的开发人员,易于开发。具有丰富的相关资料。但…尽管可以达到功能上要求,关系数据库并不是为了全文搜索准备的。约多的数据量和少量并发就可以耗尽系统资源,这样做无异于南辕北撤。6以LUCENE为代表的全文搜索引擎Apache基金会项目为全文搜索目的设计的倒排的索引格式多种方式的接口开源真正全文搜索的系统,现在生活很幸福?7我有大

3、的并发请求。我有海量的数据。我需要良好的可伸缩性。我需要可定制高质量的结果排序。我不断的有数据要更新。坏了一个硬件不能终止服务。和LUCENE的日子还幸福吗?8上周就更新了,怎么还不能找到?这篇文章一点都不相关怎么排最前面?昨天有的,今天怎么被删除了?我的数据并不在网站上,该如何搜索?什么也不用做,但什么也不知道。9政府部门企业应用教育各行业应用……应用程序接口用户界面接口多语言处理多文档格式处理实时自动重复检测理实时更新搜索自动主题词分类相似关联信息存储信息匹配10基于基因组

4、学:从信息到知识基因组作图(genomemapping)测序(sequencing)基因识别(geneidentification)模式生物(modelorganism)深度搜实现的重要理论创新将香农理论(SHANNONTHEORY)和向量空间(VECTORSPACEMODEL)提升到了新的高度多维索引信息单元搜索片段搜索细粒度信息识别11多种模式的数精心设计的内可插件话的积据存储方式存模型分排序算法可搜索单词,多重分词,交长句,段落,叉索引,多维快速更新布尔逻辑.检索。高并发能力,可快速扩充的

5、高可用性,多高速度。搜索集群点热备。12支持多种语言搜索基于基因组学开发的深度系统真正地不受语言的约束。任何语言,无论英语、日语、中文或者阿拉伯语、数学符号、化学方程式、音符或者其他重复的、逻辑符号集,都无需语法或者词典的帮助下被搜寻到支持主流各种文档的存储与搜索MSOffice所有类型word,excel,…PDF各种版本,邮件,xml,甚至图片等主流文件格式。13最新的新闻需要排最前面,论文就不要这样。论坛回复和主贴的长度差好多,长度因子要调整。这是付费的广告,我要将其置顶。搜索的

6、三个词中,我觉得第二个词特别重要。从人民日报返回的新闻重要性最高。需要排前面。你可以按你想要的方式进行排序14搜索压力特别大,高峰期每秒上百个。库很大(>1亿文档),但搜索压力很小。库很大(>1亿文档),而且搜索压力有时也很大(>100请求/秒)。我的库不大,搜素压力也不大。深度搜的简单配置可满足不同要求并在最大程度的节省硬件资源。15对于搜索中华人民共和国,包含中华人民,人民共和国的内容也挺相似的。硫酸的结果里面要有硫酸铜但要排序到后面才好。计算机的结果里面匹配电脑也必须出现,但

7、不要排前面。这么大一段话,要能根据主要意思搜索。这篇文章我想找找与其相似的文章。简体和繁体在意义上其实没啥差别。...深度搜包含了更多的中文优化。16我们出版社每月才会出版一份刊物,每月新增我们报社每天都会出版一份报纸,每天新增论坛中新发的贴需要在几分钟内就能被搜索,几分钟内新增。微博?几秒钟吧...深度搜适用各种更新需求17基于云平台的设计,可以弹性的增加和减少服务器。访问量大了,需要加机器平衡负载了。数据量大了,需要加机器增加容量了。为了高可用性,关键节点需要做了备份。

8、硬件坏了,再找个机器替换。增加和减少机器,服务不能停。支持大规模数据,不再需要昂贵的大型机器,而使用廉价的普通服务器。深度搜完备的集群管理功能18自定义分词基于HTTP的通用接口输入的文章排除重复,即使个别字有改动。存储的信息均有备份,孤立硬件的问题不会终止系统服务和丢失信息。通过KEY,快速获取内容自动生成文章主题词能按时间,来源,作者…等排序……大量可选功能19GFT上海寰融信息技术有限公司设计规模1亿文档设计性能无cache情况下200请求/秒部署规

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。