资源描述:
《搜索引擎分析学位思考》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、沈阳理工大学学士学位论文摘要随着互联网的迅速发展,网络规模不断扩大,信息储量急剧增长,搜索引擎技术越来越得到广泛地使用。本文通过对各种通用搜索引擎的关键技术进行研究,完成了对通用WEB搜索引擎的设计与实现。搜索引擎系统包括3个功能模块:网页获取模块,数据存储模块和检索模块。本人在课题组中主要承担工作有:系统整体设计、数据库的设计实现以及中文分词系统的设计实现。本系统的整体设计突出操作简便、功能强大、人性化设置、并行处理可移植等特点,其中中文分词,各模块的存储流程是系统的设计亮点。本文中对搜索引擎的各种技术算法进行了介绍,而且根据系统的需要进行了各功能模块的设计。数据
2、库设计的特点是:大容量存储、高效检索和简单查询。索引数据库以页面信息表和词库表为核心,通过对词创建索引以提高检索效率;中文分词系统采用JDK平台开发,实现对中英文句子的分割,使其分为单独的词或词组。关键词:搜索引擎;WEB搜索;中文分词;索引数据库;排序。IV沈阳理工大学学士学位论文AbstractWiththerapiddevelopmentoftheinternet,theconstantexpansionofthenetworksize,therun-upgrowingoftheinformationstorage,thetechnologyofthesear
3、chengineisbecomingmoreandmorepopular.ThearticleaccomplishthedesignandrealizationofthegeneralWEBsearchenginethroughthestudyingofallkindsofthegeneralsearchengine.Thesearchenginesystemincludesthreefunctionsmodules.TheyareHomepagegainmodule,datastoragemoduleandretrievalmodule.Mymaindutyint
4、histopicresearchisoverallSystemdesign,databasedesignrealization,Chineseparticiplesystemdesignrealization.Theprominentpointinthisoverallsystemisthatoperationissimple,thefunctionisformidable,thehumannatureestablishment,theparallelprocessingmaytransplantandsoon,especiallytheChinesepartici
5、pleandeachmemoryoperationmodule.Thearticledoesnotonlyintroduceallkindsoftechnicalalgorithminthesearchengine,butdesigneachfunctionmoduleaccordingtotheneedofthesystem.Thedatabasedesigncharacteristicis:Largecapacitymemory,highlyeffectiveretrieval,simpleinquiry.Theindexdatabasetakesthepage
6、informationtableandthewordstorehousetableasacore,enhancingthesearchesefficiencythroughestablishingthewordsindex.ChineseparticiplesystemusestheJDKplatformexploitation,realizationtotheChineseandEnglishsentencedivision,causesittodivideintotheindependentwordorthephrase.Keywords:WEBsearch;C
7、hineseparticiple;Indexdatabase;ArrangesIV沈阳理工大学学士学位论文目录1绪论11.1研究的背景及意义11.2国内外研究现状及发展趋势11.2.1搜索引擎的发展历史介绍11.2.2当今互联网搜索引擎巨头的发展状况21.3本研究的内容及研究方案32搜索引擎相关技术52.1JSpider软件52.1.1JSpider软件介绍52.1.2JSpider软件工作原理52.2Java、JSP和Android介绍62.2.1Java介绍62.2.2Android介绍72.3SQL数据库访问技术82.3.1传统关系型数据库MySQL92.