欢迎来到天天文库
浏览记录
ID:6184173
大小:7.98 MB
页数:47页
时间:2017-11-14
《TRS - 江西电信综合搜索平台解决方案》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、TRS-搜索引擎解决方案北京拓尔思信息技术股份有限公司搜索技术和产品综合搜索平台的需求分析海量高效开放精准非结构化TRS核心技术专注于非结构化信息处理主要核心技术信息检索文本智能内容管理搜索和内容管理垂直/行业搜索、企业搜索、互联网搜索内容全生命周期管理融合互联网搜索和企业搜索互联网搜索和企业级搜索并非一回事TRS领导“高端”搜索技术海量信息处理能力智能化信息处理能力融合互联网搜索和企业搜索的能力查全和查准的协调高安全性、可靠性高端应用伸缩扩展能力……TRS企业搜索平台和应用特色数据库采集对于综合搜索平台而言,更多的是使用该种方式,实现资源的整合与搜索网页采集互联网信息采集系统设置运行周期控制
2、网页抓取模块网页采集队列链接分析和采集策略控制网页分析模块内容过滤自动分类内码转换自动排重数据输出模块数据库文件系统数据加工采集支持扫描数据采集海量信息处理海量信息处理的基本策略是“分布式”、“集群”、“多服务器”协同。目前在国内只有TRS已经成功在实际客户处成功部署了多服务器集群检索系统,处理数千万以至上亿条记录信息,无论Autonomy,Verity,Baidu,Google均没有这方面的成功案例新华社多媒体数据库(18T,仅中文就4000万记录)中华人民共和国门户网站(全国各级政府网站数据整合)公安部搜索引擎系统(1.2万网站,约2000万网页)新华社多媒体数据库全球最大中文多媒体数据库
3、每天支持1000万的访问次数UserInterfaceWindows/Linux/Unix数据层资源整合--企业搜索引擎应用TRSDBSERVERTRSDPRDBMSTRSGATEWAYTRSInfoRadarWebSphere/Weblogic/Tomcat/.NetPlatformTRSAPI/TRSJAVABEAN/TRSADOTRSCDSTRSWAS数据存储和检索在TRS搜索引擎方案中,搜索服务所需的数据及其索引并非像其他搜索引擎以单纯的文件来进行组织和存储,而是采用类似关系数据库的管理模式,以“数据库”、“表”、“记录”、“字段”、“全文内容”及“索引”等机制来对来自不同信息源的不同
4、类型的信息对象予以全面而有序的组织管理,这是TRS搜索引擎优于互联网搜索引擎的一大特点和优势数据库管理和存储字段类型TRS全文数据库支持多种不同类型的字段,它们是:DATE日期型字段NUMBER数值型字段CHAR字符串型字段PHRASE短语型字段DOCUMENT全文型字段BIT二进制型字段多种格式文件支持索引模式按字按词字词混合,混合模式只对具有按词索引属性的数据库的Pharse和Document字段有效全冗余模式:将公共部分分别在“按词”和“按字”索引中各存一份。优点是检索时直接取各自的索引即可,缺点是索引空间膨胀大半冗余模式:将公共部分只存储在“按词”的索引中。优点是“按词”检索时可直接取
5、“按词”的索引即可,且索引空间膨胀小;缺点是“按字”检索时要取“按字”的索引和“按词”的索引进行合并,多一次“或”运算零冗余模式:将公共部分单独存储。优点是索引空间膨胀小;缺点是“按字/词”检索时要取“按字/词”的索引和“公共索引”的索引进行合并,多一次“或”运算索引技术零空间膨胀率(-0.2~1)索引分区技术(参考索引文件)多线程并行运算技术Cache技术(针对近期频繁访问的检索结果)检索功能48种检索运算符外部特征与正文内容的各种逻辑组合检索位置检索二次检索/渐进检索历史检索词根检索大小写敏感检索概念检索(词典)相关性排序排序权重计算因素文章的词频命中词出现的位置(标题、第一段、第二段、…
6、…、最后一段)检索技术自动分库技术:将物理数据库转化为能自动分裂数据库的视图。可对生成的分裂视图进行装入记录和复制记录操作,结果将自动反映到其对应的物理数据库里多库并行检索技术多级Query-CACHE技术基于词以及词频的bi-gram算法索引跳跃式扫描技术知识检索词典智能语言检索简繁检索相关词提示拼音检索自然语言检索(Like函数)TRS搜索集群的示意架构数据库集群服务器示意图TRS信息资源管理平台配套产品:TRS全文数据库服务器(TRSDatabaseServer)TRS全文数据库集群服务器(TRSDatabaseCluster)TRS数据处理工具(TRSDataProcessor)TRS
7、关系数据库内容检索引擎(TRSGateway)TRS内容发布应用服务器(TRSWAS)各产品组合应用可实现异构环境下非结构化信息的采集、存储、检索、控制、发布和服务,并可与主流关系型数据库无缝集成。实现非结构化、半结构化和结构化数据统一管理的完善解决方案。文本挖掘技术和产品智能化信息处理TRS在业界最早推出实用化的文本挖掘技术,现已发展到4.X版本,包括自动分类、自动聚类、自动摘要、自动标引、信息
此文档下载收益归作者所有