基于gb18030的多语种全文检索系统设计与实现

基于gb18030的多语种全文检索系统设计与实现

ID:34140901

大小:3.80 MB

页数:63页

时间:2019-03-03

基于gb18030的多语种全文检索系统设计与实现_第1页
基于gb18030的多语种全文检索系统设计与实现_第2页
基于gb18030的多语种全文检索系统设计与实现_第3页
基于gb18030的多语种全文检索系统设计与实现_第4页
基于gb18030的多语种全文检索系统设计与实现_第5页
资源描述:

《基于gb18030的多语种全文检索系统设计与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、南京邮电大学硕士学位论文摘要学科、专业:工学计算机软件与理论研究方向:数据仓库与决策支持系统Y141217l作者:j堕级研究生刘栋指导教师塑鏖题目:基于GBl8030的多语种全文检索系统设计与实现英文题日:Thedesignandimplementofmulti—languagefull·textretrievalbasedonGBl8030主题词:多语种全文检索倒排索引GBl8030CluceneKeywords:Multi--languageFull·-textretrievalInvertedindexCBl8030Clucene南京邮}毡人学坝I:研究生学位论交中文摘

2、要随着信息社会的不断发展,计算机网络应用的不断深入,互联网已经成为人类获取信息的最重要途径之一。在信息爆炸时代,人们面对的烦恼不再是信息资源的贫乏而是资源过剩甚至于泛滥。如何在信息海洋中找到准确有用的信息已不是一个新的课题。全文检索技术因此应运而生。全文检索技术是将海量的非结构化数据通过建立索引,检索的方式来迅速搜索定位要查找的信息。信息的内涵比较大,这早特指计算机中的文本信息。即文字语言表达的信息。当提及到多语种或者多文种文字信息时,人们不禁会想到实现世界上所有文字的统一编码Unicode。然而,自2000年我国强制性标准GBl8030推行之后,理论上要实现多语种非Unic

3、ode不能用的论断就此推翻。本文对多语种全文检索中所涉及的关键技术包括字符编码、汉语分词、索引架构、检索算法等进行了探讨和研究。为了能够支持我国独立研制的编码字符集标准,实现在该领域计算机处理的自主权,本文提出了利用GBl8030为编码基础来设计与实现全文检索系统。使得多语种信息处理不再依赖于Unicode,支持我国自主知识产权,也使得我国中文信息处理技术更上一个台阶。本文主要分以下几部分内容:一.常用字符编码的概述和GBl8030特点的分析=.多语种分词技术的概述和实现三.以倒排索引为基础的Clucene架构的分析和内部代码剖析四.如何利用Clucene架构来扩展实现基于G

4、Bl8030的全文检索组件技术。五.对基于GBl8030的多语种全文检索系统的性能统计和效率评估。关键词:多语种,全文检索,倒排索引,GBI8030,Clucene。南京邮I乜人学坝l:iOf究生学位论文ABSTRACTABSTRACTWiththecontinuousdevelopmentoftheinformationsocietyandtheapplicationofcomputernetwork,theInternethasbeenthemostimportantmediaforpeopletosearchforinformation.Inthetimesofinfo

5、rmationexplosion,whatpeopleworryisnotaboutthelackofinformationbutabouttheovermuchinformation.HOWtosearchforexactandusefulinformationfromtheInternethasnotbeenanewtopicofcomputerscienceandtechnology.Thetechnologyoffull—textretrievalemergesasthetimesrequire.Thetechnologyoffull—textretrievalisu

6、sedforsearchfortheexactinformationfrommassivedata.Whenthemulti-languageinformationismentioned,peoplecan’thelptothinkaboutthecodeofUnicode,whichcancodeworldwidelanguagecharacters.However,sincethecompellentChineseideogramscodedcharactersetforinformationinterchange—GB18030isbroughtintoeffectiv

7、ein2000,thetheorythatmulti-languagedatacanbedealtonlybasedonUnicodeiscastdown.Thispaperdiscussesaboutallpivotaltechnologiesaboutfull-textretrievalincludingcharactercoding,word-cutting,indexarchitectureandsearcharithmetic.Inordertosupportourself-developed

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。