基于分布式的搜索引擎框架研究和实现(hdfs lucene)

基于分布式的搜索引擎框架研究和实现(hdfs lucene)

ID:9288326

大小:12.76 MB

页数:67页

时间:2018-04-26

基于分布式的搜索引擎框架研究和实现(hdfs lucene)_第1页
基于分布式的搜索引擎框架研究和实现(hdfs lucene)_第2页
基于分布式的搜索引擎框架研究和实现(hdfs lucene)_第3页
基于分布式的搜索引擎框架研究和实现(hdfs lucene)_第4页
基于分布式的搜索引擎框架研究和实现(hdfs lucene)_第5页
资源描述:

《基于分布式的搜索引擎框架研究和实现(hdfs lucene)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、西北工业大学硕士学位论文基于分布式的搜索引擎框架研究和实现姓名:蒋建洪申请学位级别:硕士专业:软件工程指导教师:张捷20070301 技术能够高效而稳定的运行分布式的任务。本文还详细探讨了信息抓取模块中负 ��������������������,���������������������������������������������������������������������甒�������������������������.� 学位论文知识产权声明书查阅和借阅。学校可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时本

2、人保证,毕业后结合学位论文研究课题再撰写的文章一律注明作者单位为西北工业大学。保密论文待解密后适用本声明。学位论文作者签名秉承学校严谨的学风和优良的科学道德,本人郑重声明:所吊交的学位论文,是本人在导师的指� ��引言果的符合度才能够达到满足不同用户的需求的程度。滤,能够准确的返回用户想要的结果。索引擎中得到有效、及时的信息。用户接口的设�和实现使用人机交互的理论和 西北工业大学硕士学位论文本文所讨论的分布式搜索引擎,上文提到的搜索器、索引器和检索器都是运行在不同的计算机上,换句话说就是每台运行分布式节点的计算机都要运行上面三个部分的程序。用户接口也可以运行在每一个节点之上,但是只有用户接口会

3、与所有节点的检索器进行通讯,而�籭『面三个部分的数据不会同其他节点进行交互。设计是要求每一个单元所拥有的索引不构成重复,但是进行数据的采集�莱�时可以采取独立的系统,获取后再按照规则分布到各个单元上。这个系统能够部署在多台计算机上,各台计算机能够同时运行索引文件的功能,同时各节点也能提供搜索功能,完成对本地存储器中索引文件的搜索。运行搜索客户端的机器,能够向这些节点搜索需要的信息。本文同时也对相关的技术做了相应深入的探讨。这个系统能够跨平台使用,是一个灵活而又快速的分布式搜索系统框架。 第二章相关通用类能够促使开发的重点转向系统思想的实现,而无需停留于细端末节的研究。这些开放源代码的应用程序,

4、是经过很多团队甚至是企业的测试以及应用的成果,正是有了这些成熟和稳定的应用,极大的提高了整个系统设计和运行的稳定性以及高效性。下面逐一简要介绍一下�分布式系统主要使用到的一些开源代码包,以及与�分布式系统的关联。也是围绕着这个框架来讨论的。效的运作。’ 西北工业大学硕士学位论文类型,���和����接口的实现类,以及元素为以上类型的数组。接口方法中,����和����需要互相了解状态。��索引工具����得强大的查询能力,���的查询实现中默认实现了布尔操作、模糊查询���面对已经存在的商业全文检索引擎,���也具有相当的优势。首先,它��������,在此基础上不仅仅可以 充分利用���所

5、提供的强大功能,而且可以深入细致的学习到全文检索引擎制作技术和面相对象编程的实践,进而在此基础上根据应用的实际情况编写出更好的更适合当前应用的全文检索引擎【埘。在这一点上,商业软件的灵活性远远不及���。其次,���秉承了开放源代码一贯的架构优良的优势,设计了一个合理而且极具扩充能力的面向对象架构,可以在���的基础上扩充各种��С掷�肂��、���和��加密的认证。 第二章相关通用类�.可设置连接超时时间。读取应答信息;释放连接;最后处理应答。在执行方法的过程中,有两种异常,一种是������������,表示知的严重错误。����� 西北工业大学硕士学位论文�甇����瓽�����分析器�

6、����������项目主要��杂迷谝詒两个方咖: 目前,软件测试的几种方法有: 西北�业大学硕士学位论文用它们的��方法。�甌����测试包类——多个测试的组合。 分支。它合并了许多超出基本��牡当硎镜墓δ埽��ḿ�傻腦��支持、为了支持所有这些功能,���褂媒涌诤统橄蠡�纠喾椒ā���大量使用了��械腃�����类,但是在许多情况下,它还提供一些替代方法以允许更好的性能或更直接的编码方法。虽然���冻隽烁�丛拥腁�的代价,但是它提供了比��大得多的灵活性。���,具有性能优异、功能强大和极端在强调可重用组件的今天,除了自己从头到尾开发一个可重用的同志操作类�甃���褐付�胖拘畔⒌氖鋐�格式

7、。 法,这样对于日后程序的调试有着重大的作用。息输出到控制台����⑽募���组件。口也和��涌谝谎�趌���包中,接口提供了获得日志器实例的两个静态方法:������������ 日志记录对于�分布式系统来说是不可或缺的,因为这个系统运行在网络中的不同节点之上,实际运行时不可能同时对每台计算机的运行状态进行跟踪,在出现问题的时候也无法对问题的来源进行判别。同时信息的获取对于抓取����网络中的资

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。