资源描述:
《计算机理论论文全文检索系统lucene的分析与扩展》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中国农村医疗保险必须有商业保险公司进入,才能形成完整的医疗保障体系。面对巨大的农村医疗保险市场,保险公司却驻足不前,究其原因主要是缺乏政府政策支持,现有农村医疗卫生环境及其卫生管理体制与商业健康保险配套需求差距较大,风险较高。针对农村医疗保险市场,保险公司应积极主动地争取改善外部环境,同时应及早地制定公司进入战略,以获取新的保险业务增长点中国农村医疗保险必须有商业保险公司进入,才能形成完整的医疗保障体系。面对巨大的农村医疗保险市场,保险公司却驻足不前,究其原因主要是缺乏政府政策支持,现有农村医疗卫生环境及其卫生管理体制与商业健康保险配套需求差距较大,风险较高。针
2、对农村医疗保险市场,保险公司应积极主动地争取改善外部环境,同时应及早地制定公司进入战略,以获取新的保险业务增长点全文检索系统Lucene的分析与扩展全文检索系统Lucene的分析与扩展LuceneFull-textSearchSystemAnalysisandExpansion【摘要】全文检索技术是一个最普遍的信息查询应用,人们每天在网上使用Google、百度等搜索引擎查找自己所需信息,这些搜索引擎的核心技术之一就是全文检索。Lucene是Apache软件基金会Jakarta项目组的成员项目,是一个开放源代码的全文检索引擎工具包,方便在目标系统中添加全文检索的功
3、能,或者是以此为基础建立起完善的全文检索系统。Lucene中只具备英文和德文两种西方语言的检索功能,并不具备中文检索功能,因此如果开发一个基于Lucene的全文检索系统,一个中文检索模块必不可少。为了能够更加准确的实现分词同时避免歧义,本文对现在比较流行的基于统计的分词方法进行了改进,以词典训练的方式解决了一部分歧义词的处理以及未登录词汇的切分。本文的算法是建立在一个自定义的词典基础上的,本文中的词典并不是传统意义上的机械分词中的词典,在一篇文章中,两个字按照一定的次序出现的次数越多,那这两个字就更可能是一个词,所以我们定义了这样一个统计词典:它建立在对大规模的
4、语料进行统计和分析的基础上,它其中的词条并不是通常我们所说的词,而是两个相邻的字之间的“黏合度”,即“黏合度”越高,成词的概率就越高。Lucene的内核被设计得非常小巧,它的处理对象仅限于纯文本格式数据。因此,本文建立了一个通用的接口,开发一个能够用来索引多种格式文档的统一处理框架,通过这个框架索引各种文档内容,添加到索引数据库中,从而为全文检索系统添加多种格式文档的统一处理能力【Abstract】IntheinitialtimeoftheInternet,thenumberofsitesissmall,theinformationseemseasytofind
5、.However,withthedevelopmentoftheInternet,theamountofthesitesincreaseinthenumberofinquiries,thesearchingofinformationgetsmoredifficult.Thesearchenginewillbecreatedtomeettheneedsofinformationretrieval.Full-textsearchtechnologyisoneofthemostwidespreadapplicationsofinformationthatpeopleu
6、sedeveryday.ThroughtheGoogle,Baiduandothersearchengines,peoplesearchtheinformationtheyneed,thetechnologyofthesesearchenginesisoneofthecoretechnologyoffull-textsearch.Full-textsearchinthisarticlereferstoavarietyofelectronicdata,suchastext,sound,imagesandotherobjectsprovidedinaccordanc
7、ewiththecontentsofthedataratherthantheoutsidetoachievethecharacteristicsofthemeansofinformationretrieval.Bycreatingasearchconditioncontainsaseriesofuserqueries;itcanhelppeopleagreatdealofdocument’scollationandmanagement,then,peopleareabletoquicklyandeasilyfindtheinformationtheyneed.T
8、hefull-texts