欢迎来到天天文库
浏览记录
ID:3278218
大小:1.43 MB
页数:44页
时间:2017-11-20
《全文搜索引擎毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、本科生毕业设计目录目录设计总说明IINTRODUCTIONII第1章绪论11.1课题研究的目的和意义11.2全文搜索引擎的发展现状和前景11.2.1搜索引擎对用户提问的理解11.2.2对检索结果进行处理21.2.3提高搜索引擎的针对性21.2.4将搜索引擎的技术开发重点放在对检索结果的处理上2第2章相关技术的介绍42.1中文分词简介42.1.1分词规范问题42.1.2基于词典的中文分词方法42.1.3分词中的词典机制7第3章全文搜索引擎需求分析103.1系统功能103.1.1功能划分103.2功能描述103.2.1
2、前台显示103.2.2后台管理103.2.3搜索引擎103.2.4LUCENE索引103.2.5网页分析103.2.6分词113.3分词模块需求113.3.1功能需求113.3.2中文自动分词模块设计方案选择12第4章全文搜索引擎系统设计134.1系统功能结构图134.2系统流程图134.3分词组件图144.4分词流程图154.5分词时序图154.6分词数据库设计164.6.1数据字典164.7分词词典设计184.7.1Dictionary散列表的实现184.7.2分词词典的查询194.7.3分词词典的创建19II
3、目录4.7.4添加未登录词194.7.5删除错误词汇214.8分词器设计214.8.1预处理模块设计214.8.2自动分词模块设计224.8.3切分未登录词模块设计22第5章系统实现和系统测试245.1系统实现245.2系统测试26总结28鸣谢29参考文献30附录31II设计总说明设计总说明搜索引擎(SearchEngine)已经成为互联网不可缺少的工具,可以帮助人们更快的找到所要的内容和信息。提高做事的效率,使互联网资源高效的利用。.互联网搜索的使用水平可以反映全民的信息处理能力,几年前有研究发现美国用户比欧洲用
4、户的互联网使用水平领先半年左右,主要是根据谁搜索时平均使用的关键词的个数多。中文用户的搜索使用水平相对于西文用户目前仍然处于比较初级的阶段,而中文网站搜索功能的缺失也是一个重要的因素。网站拥有了较多内容后,首先考虑基于目录的内容分类,以解决信息快速定位的问题,随着内容量的进一步增加,很多内容在发表之后就很快被湮没,成为“信息孤岛”,而不断加深的目录结构也会让用户逐渐失去耐心,这时,关键词检索的优势就体现出来了:关键词检索可以让处于“信息孤岛”状态的内容以一种更直接的方法提供给用户;和基于目录/分类的树形结构不同,基
5、于关键词检索还可以让内容之间实现网状的关联结构,从而大大提高信息的引用密度。基于传统数据库的关键词检索由于性能问题让很多网站放弃了搜索功能,问题的解决归根结底还是需要一个全文引擎。而Lucene开源信息资源库的出现让这种原来被少数公司掌握的技术得到了迅速的普及。本文在对传统自动分词系统及目前已有的主要自动分词算法研究的基础上,对传统分词算法都做了改进。主要工作如下:对传统的正向最大匹配算法进行了改进,将传统的固定最大匹配词长改为分词过程中动态确定,充分体现了“长词优先”原则;对分词中的未登录词识别问题,对字符串分别
6、进行二元分词和数字处理,能在一定程度上提高算法的查全率,精确率和问登录词识别率。综上所述,本文设计的自动分词方法,具有较好的分词效果,可以初步应用于全文检索及各种中文文本处理。关键词:正向最大匹配算法;中文分词;全文搜索;搜索引擎;39INTRODUCTIONINTRODUCTIONTheInternetsearchenginehasbecomeanindispensabletoolthatcanhelppeopletofindfastercontentandinformation,toimprovetheeffi
7、ciencyofwork,makeuseofInternetresourcesefficiently.TheuseofInternetsearchcanreflectthelevelofthepowerofnationalinformationprocessing.Afewyearsago,studieshavefoundthatAmericanusersofInternethadatleastahalfofyear’sheadstartinprocessinginformationoftheusersofEuro
8、pe,whichisbasedontheinvestigationoftheaveragenumberofwords.Chineseuserssearchlevelcomparedwithwesternuserisstillintheprimarystage,whichismainlyleadedbythelackoffunctionofChineseweb
此文档下载收益归作者所有