欢迎来到天天文库
浏览记录
ID:5365174
大小:335.42 KB
页数:5页
时间:2017-12-08
《基于lucene api的中文全文数据库设计与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于LUCENEAPI的中文全文数据库设计与实现赵汀1孟祥武2(1中国地质科学院矿产资源研究所,北京100037)(2北京邮电大学计算机科学与技术学院,北京100876)E-maiI:zhaoting@cags.cn.net摘要实现了中文单字切分模块,并在LuceneAPI基础上建立支持中英文混合检索的全文数据库。在地质公园及地质遗迹全文数据库项目中作为全文检索工具。Lucene中文全文数据库的主要性能和功能包括:支持中英文混合检索;可以不关机动态添加或删除一篇文档索引;采用多线程设计,能承受大量
2、的访问请求;支持跨平台运行;提供命令行直接查询方式和基于WEB的查询方式;易学通用的检索表达式;系统可扩展性强。关键词中文信息处理全文数据库全文检索文章编号1002-8331-(2003)20-0179-03文献标识码A中图分类号TP311DesignandImplementationofChineseFullTextDatabaseBaseonLuceneAPIZhaoTing1MengXiangwu2(1MiningandResourceInstitute,ChineseAcademyofGe
3、oIogicaISciences,Beijing100037)(2SchooIofComputerScienceandTechnoIogy,BeijingUniversityofPostsandTeIecommunications,Beijing100876)Abstract:ThethesisdesignsandimpIementsaChineseAnaIyzer.onthebasisofLuceneAPI,aFuIITextDatabaseisdeveIoped,whichsupportsre
4、trievingbothChineseandEngIish.AtthesametimethisfuIItextdatabaseisworkingasatooIoffuIItextsearchinginaprojectfundedbyChinesebasicresearchofScience&TechnoIogyfund.LuceneChineseFuIITextDatabasehavefoIIowingadvancedfuture:itsupportsChineseorEngIishsearchi
5、ng.ItcanaddordeIeteanentryintheLucenedatabasewithoutshutdownservice,anditsupportsthreadsprogramming,sothatitcansupportbigamountaccess.ItcanrunonmuIti-pIatform.ItsupportsDoSPromotedorWEBbasedJSPsearchingengine,easy-Iearningguerystring,andexpandabIe.Key
6、words:LUCENEAPI,ChineseInformationProcessing,Index,Tokenize1引言子文件,并且支持网上查询,由于在这些文档中也存在大量的随着国际互联网的迅速发展,以Internet为载体的中文电英文内容,所以需要支持中英文混合查询。子信息愈来愈多,如网上新闻、网上电子期刊、数字图书馆等,在LuceneAPI的基础上开发中文全文数据库是一种有产生了大量的有重复利用价值的信息,这些长期积累的电子效、低成本的选择,因为Lucene全文数据库采用倒排文件索引信息一
7、般是以HTML或其他纯文本文件的形式存在,有如下技术,所以查询速度优于关系型数据库,而且可以免费下载。但特点:由于LuceneAPI是针对英文的文法开发的,所以在倒排中文(1)内容丰富,全文一般都比较长;文档时候,无法正确的将中文切分开,也不支持中文查询,所以(2)文件结构不规律,因为内容多样,所以文档很难用固定需要修改其源代码,加入中文单汉字切分模块。的格式规范;(3)数据量大,象新闻、数字图书馆等有可能达到超过1G2LuceneAPI的分析研究的数据量;LuceneAPI是ApacheSoft
8、wareFoundation提供的一个(4)中英文混合,这种情况非常普遍。共享的软件开发类库,现在发布的是V1.02版,可以在Http://如何科学高效地去管理这些信息,使它在最短的时间内最www.Iucene.com免费下载,Lucene完全由JAVA编写,支持多大限度地发挥它的价值,是信息工作者面临的一个难题。这样种操作系统,可以在任何支持JAVA虚拟机的平台工作。就需要一种中文全文数据库软件,专门用于存储和查询这些电2.1数据库的文件结构基金项目:国家科技基础性工作专项资金资
此文档下载收益归作者所有