基于全文检索ApacheLucene引擎的原理与流程研究.pdf

基于全文检索ApacheLucene引擎的原理与流程研究.pdf

ID:51503476

大小:680.69 KB

页数:4页

时间:2020-03-25

基于全文检索ApacheLucene引擎的原理与流程研究.pdf_第1页
基于全文检索ApacheLucene引擎的原理与流程研究.pdf_第2页
基于全文检索ApacheLucene引擎的原理与流程研究.pdf_第3页
基于全文检索ApacheLucene引擎的原理与流程研究.pdf_第4页
资源描述:

《基于全文检索ApacheLucene引擎的原理与流程研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第29卷第4期长春工业大学学报(自然科学版)Vol129,No.42008年8月JournalofChangchunUniversityofTechnology(NaturalScienceEdition)Aug12008基于全文检索ApacheLucene引擎的原理与流程研究1231高文举,李晓伟,孙春燕,李哲(1.中国人民解放军装甲兵技术学院电子工程系,吉林长春130117;2.天津中医药大学公共课教学部,天津300193;3.吉林市结核病防治研究所,吉林吉林132011)摘要:根据全文检索A

2、pacheLucene引擎原理与流程,设计了一种网络视频信息的索引方法。可以对所有的视频信息进行索引,解决了视频搜索引擎排序信息不明以及局域网站搜索的局限性等问题。关键词:网络;视频;索引中图分类号:TP311文献标识码:A文章编号:167421374(2008)0420424204StudyontheprincipleandflowchartofthefulltextsearchengineApacheLucene1231GAOWen2ju,LIXiao2wei,SUNChun2yan,LIZh

3、e(1.DepartmentofElectronicEngineering,ArmorTechniqueInstituteofPLA,Changchun130117,China;2.DepartmentofCommonRequiredCourses,TianjinUniversityofTraditionalChineseMedicine,Tianjin300193,China;3.JilinCityTBInstitute,Jilin132011,China)Abstract:Basedonthe

4、principleandprocedureofthefulltextsearchengineApacheLucene,anewindexmethodisdesignedforthevideoinformationsearch.Itsolvestheproblemssuchasunclearsearchengineorderorthelimitationinthelocalareanetworks.Keywords:internet;video;index.络视频现在已经非常流行,由于网络视频具有图

5、0引言文并茂、在线观看、简单方便等特点,具有网页文据统计,在2003年,网上能够公开访问到的字无法比拟的优势,网络视频网站也如雨后春笋不同网站超过5000万个,网页总容量约为般的涌现,目前,国内较大的网络视频网站已经达[1]167TB;另一方面,信息增长态势更为惊人,据到几十家,而且还有迅速增长的趋势。但是如果调查显示,2004年网页总数同期相比增长用户想找到自己感兴趣的视频,逐一访问这些网[2]108.6%,呈现出逐年翻番的几何增长的势头。站效率将十分低下。如果在单个的视频网站中进2007年全球

6、网民总数已达12亿,占全球总人数行搜索,检索结果往往只包含本网站中的视频,结的比例超过五分之一,呈现出了越来越快的增长果较少;如果采用现今最为有名的搜索引擎,如百[3]势头。度等视频搜索引擎,当前还做不到根据各个视频随着网络规模的扩大和检索及时性的要求,权重的不同,按照先后次序把搜索结果返回给用搜索引擎的硬件要求也大大提高。另一方面,网户。收稿日期:2008205217基金项目:吉林省教育厅科研基金资助项目(06026)作者简介:高文举(1975-),男,汉族,吉林吉林人,中国人民解放军装甲兵技术

7、学院讲师,工学硕士,主要从事网络安全与计算机远程教育研究,E2mail:gaowj913@sina.com.第4期高文举,等:基于全文检索ApacheLucene引擎的原理与流程研究425[5]用户就可以点击视频进行观看了。1视频信息检索系统1.2视频信息的索引网络视频搜索引擎系统一般共分为两个部根据保存到数据库中的视频信息,采用Lu2分:视频信息抓取系统和视频信息检索系统。视cene对这些数据进行索引。频信息抓取系统各个视频网站技术相对比较成索引部分系统架构如图1所示。熟,在此不再赘述。文中重点

8、说明视频信息检索系统。1.1Lucene概述索引器和检索器是网络视频搜索引擎中的重点,为了完成该功能,采用了Lucene架构,并且对Lucene进行了改进和优化,使之更加符合系统的需求。Lucene是软件基金会项目组的一个子项图1索引部分系统架构目,是一个开放源代码的全文检索引擎工具包,它从图1可以看出,索引程序首先从数据库中不是一个完整的全文检索引擎,而是一个全文检取得视频的标题、简介、标签、时长、日期、浏览次索引擎的架构。全文检索就是以文本数据为数等属性信息;然后把视频的标题、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。