毕业设计(论文)-ftp搜索引擎设计

毕业设计(论文)-ftp搜索引擎设计

ID:6792296

大小:546.00 KB

页数:43页

时间:2018-01-25

毕业设计(论文)-ftp搜索引擎设计_第1页
毕业设计(论文)-ftp搜索引擎设计_第2页
毕业设计(论文)-ftp搜索引擎设计_第3页
毕业设计(论文)-ftp搜索引擎设计_第4页
毕业设计(论文)-ftp搜索引擎设计_第5页
资源描述:

《毕业设计(论文)-ftp搜索引擎设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西华大学毕业设计说明书摘要随着信息的快速速增长,让搜索引擎成了人们查找信息的首要工具。如今在中文搜索引擎领域,国内搜索引擎已经同国外搜索引擎效果上相差不大了。能形成现在这样的局面,是有一个重要的原因:英文和中文两种语言自身的书写方式不相同,其中在计算机涉及的技术就是中文分词技术。本设计的主要目的是利用爬虫获取的网页,将网页的内容按照一定的分词技术,拆分成一项项的词条,并存储到本地,供后期检索使用。系统中的分词算法采用基于分词词典的机械分词方法,这种方法是按照正向最大匹配的方法将要分析的中文句子与字典中的词条进行匹配,从而把中文句子拆分成一个个词。通过使用该分词软件可以自动的把中文句子比较准

2、确的拆分成词,并且拆分速度快。结合正向最大匹配法和逆向最大匹配法也能把句子比较正确的分成需要的一个个词条。关键词:中文分词;词典;西华大学毕业设计说明书摘要随着信息的快速速增长,让搜索引擎成了人们查找信息的首要工具。如今在中文搜索引擎领域,国内搜索引擎已经同国外搜索引擎效果上相差不大了。能形成现在这样的局面,是有一个重要的原因:英文和中文两种语言自身的书写方式不相同,其中在计算机涉及的技术就是中文分词技术。本设计的主要目的是利用爬虫获取的网页,将网页的内容按照一定的分词技术,拆分成一项项的词条,并存储到本地,供后期检索使用。系统中的分词算法采用基于分词词典的机械分词方法,这种方法是按照正向

3、最大匹配的方法将要分析的中文句子与字典中的词条进行匹配,从而把中文句子拆分成一个个词。通过使用该分词软件可以自动的把中文句子比较准确的拆分成词,并且拆分速度快。结合正向最大匹配法和逆向最大匹配法也能把句子比较正确的分成需要的一个个词条。关键词:中文分词;词典;西华大学毕业设计说明书AbstractWiththerapidgrowthofinformation,searchenginesbecomethepreferredtoolforfindinginformation.Chinesesearchengineinthefield,domesticandforeignsearchengine

4、hasbeentheeffectonthesearchenginetobeclose.Isabletodevelopthiskindofsituation,thereisoneimportantreasonforthisisthatbothChineseandEnglishlanguagetowritetheirowndifferentways,includingthecomputertechnologyistheChinesewordsegmentationtechnology.ThisdesignistherealizationofaChinese-termcomponents.Thr

5、oughtheChinesewordsegmentation,andanalysisoftheChinesesentence,willbesplitintoitsterm.AnditsapplicationinsearchenginessothattherealizationoftheChinesesearchenginesearch.Systemofthealgorithmusingtheworddictionarybasedonthemechanical-termapproach,whichisinaccordancewiththelargestpositivematchwillbet

6、hestrategyoftheChinesephrasesandtermsinthedictionarytomatch,thensplitintotheChinesewordsentence..Throughtheuseofthetermofthesub-componentsoftheChinesesentencescanbeautomaticallysplitintoprecisewords,splitfast.Withtheforwardmaximummatchmethodandthereversemaximummatchingmethodcanalsoputthesentencesi

7、ntooneandonerightentry.Keywords:Chinesewordsegmentation;dictionary西华大学毕业设计说明书西华大学毕业设计说明书目录前言11FTP搜索引擎爬虫模块介绍21.1设计思路21.2设计步骤21.2.1扫描站点21.2.2获取数据21.2.3数据分类21.2.4生成源文件31.2.5生成站点列表31.2.6建立索引文件32FTP搜索引擎概要设计42.1工作原理42.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。