基于lucene api的中文全文数据库设计与实现

基于lucene api的中文全文数据库设计与实现

ID:5293456

大小:335.42 KB

页数:5页

时间:2017-12-07

基于lucene api的中文全文数据库设计与实现_第1页
基于lucene api的中文全文数据库设计与实现_第2页
基于lucene api的中文全文数据库设计与实现_第3页
基于lucene api的中文全文数据库设计与实现_第4页
基于lucene api的中文全文数据库设计与实现_第5页
资源描述:

《基于lucene api的中文全文数据库设计与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于LUCENEAPI的中文全文数据库设计与实现赵汀1孟祥武2(1中国地质科学院矿产资源研究所,北京100037)(2北京邮电大学计算机科学与技术学院,北京100876)E-maiI:zhaoting@cags.cn.net摘要实现了中文单字切分模块,并在LuceneAPI基础上建立支持中英文混合检索的全文数据库。在地质公园及地质遗迹全文数据库项目中作为全文检索工具。Lucene中文全文数据库的主要性能和功能包括:支持中英文混合检索;可以不关机动态添加或删除一篇文档索引;采用多线程设计,能承受大量的访问

2、请求;支持跨平台运行;提供命令行直接查询方式和基于WEB的查询方式;易学通用的检索表达式;系统可扩展性强。关键词中文信息处理全文数据库全文检索文章编号1002-8331-(2003)20-0179-03文献标识码A中图分类号TP311DesignandImplementationofChineseFullTextDatabaseBaseonLuceneAPIZhaoTing1MengXiangwu2(1MiningandResourceInstitute,ChineseAcademyofGeoIogic

3、aISciences,Beijing100037)(2SchooIofComputerScienceandTechnoIogy,BeijingUniversityofPostsandTeIecommunications,Beijing100876)Abstract:ThethesisdesignsandimpIementsaChineseAnaIyzer.onthebasisofLuceneAPI,aFuIITextDatabaseisdeveIoped,whichsupportsretrievingb

4、othChineseandEngIish.AtthesametimethisfuIItextdatabaseisworkingasatooIoffuIItextsearchinginaprojectfundedbyChinesebasicresearchofScience&TechnoIogyfund.LuceneChineseFuIITextDatabasehavefoIIowingadvancedfuture:itsupportsChineseorEngIishsearching.Itcanaddo

5、rdeIeteanentryintheLucenedatabasewithoutshutdownservice,anditsupportsthreadsprogramming,sothatitcansupportbigamountaccess.ItcanrunonmuIti-pIatform.ItsupportsDoSPromotedorWEBbasedJSPsearchingengine,easy-Iearningguerystring,andexpandabIe.Keywords:LUCENEAPI

6、,ChineseInformationProcessing,Index,Tokenize1引言子文件,并且支持网上查询,由于在这些文档中也存在大量的随着国际互联网的迅速发展,以Internet为载体的中文电英文内容,所以需要支持中英文混合查询。子信息愈来愈多,如网上新闻、网上电子期刊、数字图书馆等,在LuceneAPI的基础上开发中文全文数据库是一种有产生了大量的有重复利用价值的信息,这些长期积累的电子效、低成本的选择,因为Lucene全文数据库采用倒排文件索引信息一般是以HTML或其他纯文本文件的形式

7、存在,有如下技术,所以查询速度优于关系型数据库,而且可以免费下载。但特点:由于LuceneAPI是针对英文的文法开发的,所以在倒排中文(1)内容丰富,全文一般都比较长;文档时候,无法正确的将中文切分开,也不支持中文查询,所以(2)文件结构不规律,因为内容多样,所以文档很难用固定需要修改其源代码,加入中文单汉字切分模块。的格式规范;(3)数据量大,象新闻、数字图书馆等有可能达到超过1G2LuceneAPI的分析研究的数据量;LuceneAPI是ApacheSoftwareFoundation提供的一个(4

8、)中英文混合,这种情况非常普遍。共享的软件开发类库,现在发布的是V1.02版,可以在Http://如何科学高效地去管理这些信息,使它在最短的时间内最www.Iucene.com免费下载,Lucene完全由JAVA编写,支持多大限度地发挥它的价值,是信息工作者面临的一个难题。这样种操作系统,可以在任何支持JAVA虚拟机的平台工作。就需要一种中文全文数据库软件,专门用于存储和查询这些电2.1数据库的文件结构基金项目:国家科技基础性工作专项资金资

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。