欢迎来到天天文库
浏览记录
ID:5320200
大小:8.19 MB
页数:50页
时间:2017-12-08
《信息检索技术的发展》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、TRS信息检索技术的发展施水才北京拓尔思信息技术有限公司2006/11/21∑热烈祝贺“中国中文信息学会第六届全国代表大会暨成立二十五周年学会会议”胜利召开。∑TRS公司愿在各界领导、学者、专家的指导和支持下,共同开创中文信息处理技术和应用发展的新天地。内容∑当今语言信息处理系统的挑战∑TRS信息检索系统的发展历程和产业化成果∑TRS信息检索相关研发工作的思路∑TRS信息检索系统中一些关键技术∑TRS文本挖掘技术的进展∑信息检索中知识库的建设问题∑搜索引擎和信息检索的关系∑信息检索技术面临的挑战和新需求
2、当今语言信息处理应用系统的挑战∑搜索引擎成为国家一种战略资源°信息内容产业的门户和入口°信息安全和国家利益°极大推动各种中文信息处理技术的研究和应用∑自动化和智能化°应对海量信息的处理°应对信息和知识挖掘问题∑多语言和跨语言趋势°国际化竞争、网络的无界∑和结构化信息以及多媒体信息的融合°现实世界信息的多样性∑语言信息处理技术的集成创新°形成大规模内容处理的基石,全生命周期管理TRS….∑TRS是英文TextRetrievalSystem的缩写∑TRS是北京拓尔思信息技术有限公司的简称∑TRS是国家商标局
3、批准的注册商标(1996),冠名公司全线产品∑长期致力于信息检索、文本内容分析和内容管理技术的研究和产品开发。TRS信息检索系统的发展历程时间主要内容和标志性成果1985~1990∑新华社新闻资料检索系统,基于人工标引的关键词检索∑开展中文全文检索研究1990~1995∑人民日报社新闻资料检索系统∑TRS全文检索系统产品化1995~2000∑获国家科技进步二等奖∑WebEnable2000~2005∑企业搜索引擎、Web搜索引擎∑从检索扩展到全生命周期的大规模内容处理∑TRS获得超过2000家企业级用户
4、∑国家门户等互联网搜索引擎应用2005~∑垂直搜索引擎∑智能企业搜索引擎(文本挖掘技术深入应用)∑跨媒体、跨语言、跨数据源的信息检索∑TRS信息检索系统获得2006年中国十大创新软件之一TRS产业化成果∑TRS已经成为中国最大的搜索技术和内容管理技术提供者。∑累计获得直接经济效益近5亿元。∑大型客户数超过2000家。∑在国家重大项目中发挥了不可替代的作用∑和国际上同类系统竞争中取得领先优势,并进入国际市场°Autonomy,Verity等近期其他相关成果∑TRS搜索引擎产品已被XX行业搜索引擎选用∑TR
5、S搜索引擎产品已被公安部、XX部、XX选用作为网络信息监控基础技术平台∑政务搜索引擎/公安搜索引擎∑TRS搜索引擎产品已被新华社、外交部等网络舆情监控应用采用∑TRS为新华社建设了世界上最大的中文多媒体数据库,其搜索技术为TRS所提供∑国家专利局TRS在信息检索领域主要的研发内容∑文本信息检索°Web检索°企业内容检索(corporatesearch)°E-businesssearch°跨语言检索∑文本挖掘°自动分类和自动聚类°自动摘要(包括自动标引)°信息过滤、信息抽取°相似性检索(信息去重)∑搜索引
6、擎应用°企业搜索引擎°互联网搜索引擎-主要是垂直搜索引擎°内容管理和知识管理TRS的基本思路和技术路线∑致力于大规模海量信息处理°100T级以上数据规模°高性能∑致力于真实环境下的可用性°领域不受限制°信息的动态和多态性(多格式)°和结构化数据的联合查询∑致力于已有方法的集成和改进°集成也是一种创新°在实际应用中改进和简化理论成果(如聚类)TRS信息检索系统中一些关键技术∑中文索引策略∑单服务器的索引和查询性能∑大规模集群系统(索引、检索)∑结构化数据和非结构化数据联合检索∑实时索引和检索∑Native
7、XML∑Unicode内核∑查准率和查全率的平衡∑严格的安全检索和信息访问控制TRS中文索引策略如何建立索引单元对中文来说有许多研究和讨论,TRS的长期实践得出如下结论:1.字索引和词索引各有用途,检索性能没有本质的差别,只是查全率和查准率不同。TRS开发了两者结合的字词混合索引。2.信息检索和自然语言理解用的自动分词在词的定义和收集范围方面有很大不同。3.N-gram方法产生的冗余很大,没有词典、知识的支持,查准率比较差。4.从检索性能和检索效果来衡量,词索引+BI-GRAM为最佳中文文本索引方式。5
8、.实例规则库是有效提高分词准确率的手段我们采用人民日报(1947-2000年,110万篇),新华社电讯稿(500万篇),开发了专用的歧义片断识别软件,并进而建立了数万条歧义处理实例规则库。TRS单服务器的索引和查询性能∑4CPU的入门级PC服务器,每小时10G文本索引能力(主要是采用并行和多线程算法)∑每个服务器管理的文档在500万~1000万之间为最优,千万篇文档平均查询时间<1秒∑提高性能的高级查询技术°自动分库技术、多库并行检索技术°
此文档下载收益归作者所有