欢迎来到天天文库
浏览记录
ID:6792296
大小:546.00 KB
页数:43页
时间:2018-01-25
《毕业设计(论文)-ftp搜索引擎设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、西华大学毕业设计说明书摘要随着信息的快速速增长,让搜索引擎成了人们查找信息的首要工具。如今在中文搜索引擎领域,国内搜索引擎已经同国外搜索引擎效果上相差不大了。能形成现在这样的局面,是有一个重要的原因:英文和中文两种语言自身的书写方式不相同,其中在计算机涉及的技术就是中文分词技术。本设计的主要目的是利用爬虫获取的网页,将网页的内容按照一定的分词技术,拆分成一项项的词条,并存储到本地,供后期检索使用。系统中的分词算法采用基于分词词典的机械分词方法,这种方法是按照正向最大匹配的方法将要分析的中文句子与字典中的词条进行匹配,从而把中文句子拆分成一个个词。通过使用该分词软件可以自动的把中文句子比较准
2、确的拆分成词,并且拆分速度快。结合正向最大匹配法和逆向最大匹配法也能把句子比较正确的分成需要的一个个词条。关键词:中文分词;词典;西华大学毕业设计说明书摘要随着信息的快速速增长,让搜索引擎成了人们查找信息的首要工具。如今在中文搜索引擎领域,国内搜索引擎已经同国外搜索引擎效果上相差不大了。能形成现在这样的局面,是有一个重要的原因:英文和中文两种语言自身的书写方式不相同,其中在计算机涉及的技术就是中文分词技术。本设计的主要目的是利用爬虫获取的网页,将网页的内容按照一定的分词技术,拆分成一项项的词条,并存储到本地,供后期检索使用。系统中的分词算法采用基于分词词典的机械分词方法,这种方法是按照正向
3、最大匹配的方法将要分析的中文句子与字典中的词条进行匹配,从而把中文句子拆分成一个个词。通过使用该分词软件可以自动的把中文句子比较准确的拆分成词,并且拆分速度快。结合正向最大匹配法和逆向最大匹配法也能把句子比较正确的分成需要的一个个词条。关键词:中文分词;词典;西华大学毕业设计说明书AbstractWiththerapidgrowthofinformation,searchenginesbecomethepreferredtoolforfindinginformation.Chinesesearchengineinthefield,domesticandforeignsearchengine
4、hasbeentheeffectonthesearchenginetobeclose.Isabletodevelopthiskindofsituation,thereisoneimportantreasonforthisisthatbothChineseandEnglishlanguagetowritetheirowndifferentways,includingthecomputertechnologyistheChinesewordsegmentationtechnology.ThisdesignistherealizationofaChinese-termcomponents.Thr
5、oughtheChinesewordsegmentation,andanalysisoftheChinesesentence,willbesplitintoitsterm.AnditsapplicationinsearchenginessothattherealizationoftheChinesesearchenginesearch.Systemofthealgorithmusingtheworddictionarybasedonthemechanical-termapproach,whichisinaccordancewiththelargestpositivematchwillbet
6、hestrategyoftheChinesephrasesandtermsinthedictionarytomatch,thensplitintotheChinesewordsentence..Throughtheuseofthetermofthesub-componentsoftheChinesesentencescanbeautomaticallysplitintoprecisewords,splitfast.Withtheforwardmaximummatchmethodandthereversemaximummatchingmethodcanalsoputthesentencesi
7、ntooneandonerightentry.Keywords:Chinesewordsegmentation;dictionary西华大学毕业设计说明书西华大学毕业设计说明书目录前言11FTP搜索引擎爬虫模块介绍21.1设计思路21.2设计步骤21.2.1扫描站点21.2.2获取数据21.2.3数据分类21.2.4生成源文件31.2.5生成站点列表31.2.6建立索引文件32FTP搜索引擎概要设计42.1工作原理42.
此文档下载收益归作者所有