基于关键词的网页检索和排序【毕业论文】

基于关键词的网页检索和排序【毕业论文】

ID:472052

大小:580.00 KB

页数:42页

时间:2017-08-07

基于关键词的网页检索和排序【毕业论文】_第1页
基于关键词的网页检索和排序【毕业论文】_第2页
基于关键词的网页检索和排序【毕业论文】_第3页
基于关键词的网页检索和排序【毕业论文】_第4页
基于关键词的网页检索和排序【毕业论文】_第5页
资源描述:

《基于关键词的网页检索和排序【毕业论文】》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、本科毕业设计(20届)基于关键词的网页检索和排序41【摘要】【摘要】随着互联网41的发展,整个网络正在不断累积成一个前所未有的超级大型数据库。面对如此海量存储的信息空间,快速获取所需的信息已成为信息时代最基本的问题。网页检索系统作为互联网上不可或缺的信息资源检索工具,几乎所有的网络用户都用它来查询自己需要的信息。本文以网页检索系统为研究背景,使用关键词的网页检索的并融合中文分词的原理,通过引入统计法和TF-IDF赋权重的方法于VSM中来计算网页相关度,并对网页进行相关度的排序,给予用户想要的网页地址。【关键词】网页检索系统;中文分词;相关度计算;网页排序41【

2、ABSTRACT】WiththedevelopmentoftheInternet,theentirenetworkistoaccumulateintoanunprecedentedsuperlargedatabase.Withsuchamassstoragespace,theinformationneededtoquicklygettheinformationhasbecomethemostbasicinformationera.WebpageretrievalsystemastheInternetindispensableinformationretriev

3、altool,almostallthenetworkusersuseittoinquirestheinformationtheyneed.Basedonpageretrievalsystemastheresearchbackground,theuseofkeywordswebsearchandfusionofChinesewordsegmentationandthroughintroducingthestatisticsandtheprincipleoftheTF-IDFempowermentofVSMweightcalculatedmethodinweb,a

4、ndthecorrelationwebpageforrelatednesssorting,givinguserswantwebaddresses.【keyword】Webpageretrievalsystem;TheChinesewordsegmentation;Correlationcalculation;Websort41目录基于关键词的网页检索和排序3【摘要】3【Abstract】4目录5第一章引言61.1网页的概述61.2网页检索的必要性61.3网页检索的类型71.4网页检索主要技术分析91.4.1网页的解析91.4.2网页文档检索101.5本文的安排

5、10第二章网页的抓取及解析和中文分词112.1HtmlParser解析器概述112.2网页的选取132.3网页的文本信息提取132.4中文分词概述152.5ictclas4j工具概述172.6输入的请求分词172.7对文本文件分词18第三章基于关键词的网页文本相关度计算213.1基于空间向量模型的相关度计算213.1.1对输入汉字串进行二元分词213.1.2确定每一项的权值223.1.2.1用统计法确定每一项的权值223.1.2.2用TF-IDF确定每一项权值243.1.2.3用统计法和TF-IDF法确定权值的区别293.1.3用余弦法进行相关度的计算313.

6、1.3.1基于统计法确定权值的余弦法进行相关度的计算323.1.3.2基于TF-IDF确定权值的余弦法进行相关度的计算33第四章网页的相关度排序的实现354.1.基于统计法的相关度排序354.2基于TF-IDF的相关度排序38第五章体会42参考文献43致谢4441第一章引言1.1网页的概述网页是构成网站的基本元素,是承载各种网站应用的平台。网页(英文:Webpage)是一个文件,它存放在某一台与互联网相连的计算机中。文字和图片是两个构成对页面的基本元素。你可以简单的理解为:文字,就是网页内容,图片,就是网页的点缀。此外,网页内容包括动画,音乐,程序等。网页经由

7、网址(URL)来识别与访问,当我们在浏览器输入网址后,经过一段复杂和快速的程序,网页文件会被发送到你的计算机,你的眼前展示的是已经由浏览器解释过的网页内容。网页要透过网页浏览器来阅读,网页经常使用图像提供图片。网页通常是HTML格式(文件扩展名为.html或.htm)。右键点击网页页面,选择菜单“查看源文件“来查看在记事本中的网页实际内容。你可以看到,该网页实际上只是一个纯文本文件,通过网页上标记对文字,图片,表格,声音和其他元素进行描述(如字体,颜色,大小),浏览器解释这些标记并产生网页,所以你就能在屏幕上看到了。为什么没有看到任何图片源文件?因为网页文件存

8、储的是图像链接位置,而图像文件和网页文

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。