摘要随着因特网的迅猛发展、WEB信息的增加,而人们越.doc

摘要随着因特网的迅猛发展、WEB信息的增加,而人们越.doc

ID:27182905

大小:167.00 KB

页数:51页

时间:2018-12-01

摘要随着因特网的迅猛发展、WEB信息的增加,而人们越.doc_第1页
摘要随着因特网的迅猛发展、WEB信息的增加,而人们越.doc_第2页
摘要随着因特网的迅猛发展、WEB信息的增加,而人们越.doc_第3页
摘要随着因特网的迅猛发展、WEB信息的增加,而人们越.doc_第4页
摘要随着因特网的迅猛发展、WEB信息的增加,而人们越.doc_第5页
资源描述:

《摘要随着因特网的迅猛发展、WEB信息的增加,而人们越.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要:随着因特网的迅猛发展、WEB信息的增加,而人们越来越依靠网络来查找他们所需要的信息,用户要在如此浩瀚的信息海洋里查找信息,就象大海捞针一样,所以如何有效的去发现我们所需要的信息,就成了一个很关键的问题。为了解决这个问题,搜索引擎随之诞生。因而也成为除了电子邮件以外最多人使用的网上服务。但是,随着信息多元化的增长,千篇一律的给所有用户提供同一个入口显然已经不能满足特定用户更深入的查询需求。我们需要分类细致精确、对硬件要求低,数据全面深入、更新及时的搜索引擎,因而搜索引擎技术成为计算机工业界和学术界争相研究、开发的课题。本文阐述了搜索引擎的基本原理,着重分析

2、了中文分词的设计与实现。关键词:互联网;搜索引擎;中文分词Abstract:WiththefastdevelopmentoftheInternetandthegrowthoftheWEBinformation,usersbecomemoreandmorerelyonthenettosearchallinformationtheyneed.It'simpossiblefortheytosearchinformationfromsomuchinformationsource,sohowtoseekallinformationweneedeffectivelybec

3、ameakeyproblem.Tosolvethisproblem,thesearchenginearised.ItbecamethemostusefulnetservicesecondtoE-mail.However,withinformationcontinuingtoexplodeinalldirections,somespecifickindsofusersarenotsatisfiedwithonlyoneentrance.Whatweneedisafocusedsearchengine,whichiswellclassified,requestin

4、glowhardwarerequirement,containingprofoundandentiredata,andbeingupdatedintime.Sotheindustrialandtechnicalityworldofcomputercompetedtosearchanddevelopthesearchenginetechnique.Inthispaper,IwillshowthebasicofthesearchengineespeciallyanalysethedesignandimplementationoftheChinesesentence

5、splitter.Keywords:Internet;Searchengine;Chinesesentencesplitter目录前言1第一章搜索引擎概述21.1Internet与WWW发展现状21.1.1Internet的发展历程21.1.2Worldwideweb(www)31.1.3Internet的信息分布31.2搜索引擎简介41.3搜索引擎的发展51.3.1第一代搜索引擎51.3.2第二代搜索引擎61.3.3第三代搜索引擎61.3.4第四代搜索引擎71.4搜索引擎的分类71.4.1全文搜索引擎71.4.2目录索引81.4.3元搜索引擎91.4.4其他

6、非主流的引擎10第二章搜索引擎的结构介绍112.1搜索器112.2索引器122.3检索器122.4用户接口122.5小结13第三章基于lucene的研究143.1lucene搜索引擎介绍143.2Lucene的特性分析153.2.1Lucene核心部分——索引排序153.2.2Lucene的相关度积分公式173.3.Lucene的其他特性183.3.1.Boosting特性183.3.2.IndexingDate193.3.3.Indexing数字193.3.4.排序193.3.5.RAMDirectory和FSDirectory转化203.3.6.为查询优化

7、索引(index)203.3.7.并发操作Lucene和locking机制203.3.8.Locing203.4Lucene文档结构213.4.1.Lucene概念详细介绍213.4.2.Lucene基本数据类型(PrimitiveTypes)233.4.3.索引包含的文件(Per-IndexFiles)243.5Lucene分词原理30第四章中文分词344.1中文分词简介344.1.1什么是中文分词344.1.2中文分词和搜索引擎344.2中文分词技术354.2.1基于字符串匹配的分词方法354.2.2基于理解的分词方法364.2.3基于统计的分词方法374

8、.3分词中的难题374.3.1歧义识别

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。