基于关键词的网页检索和排序【开题报告】

基于关键词的网页检索和排序【开题报告】

ID:472129

大小:31.50 KB

页数:4页

时间:2017-08-07

基于关键词的网页检索和排序【开题报告】_第1页
基于关键词的网页检索和排序【开题报告】_第2页
基于关键词的网页检索和排序【开题报告】_第3页
基于关键词的网页检索和排序【开题报告】_第4页
资源描述:

《基于关键词的网页检索和排序【开题报告】》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、毕业设计开题报告计算机科学与技术基于关键词的网页检索和排序一、选题的背景与意义随着Internet的发展,整个网络正在不断累积成一个前所未有的超级大型数据库。面对如此海量存储的信息空间,快速获取所需的信息已成为信息时代最基本的问题。网页检索系统作为Internet上必不可少的信息资源检索工具,几乎每个网络用户都在使用它来寻找自己需要的信息。网页检索系统可以为用户进行网络导航,帮助用户在数以亿计的网络信息中快速查找所需的站点或网页,筛选出符合用户需求的有用信息。它是各类网络信息处理工具中比较稳定而最具效率的部分。网页检索系

2、统是引领我们在浩瀚的网络信息资源中寻找真正所需的重要工具。在最近几年里,WWW更是得到了长足的发展。全球的域名都7690万个了,要说网站应该少于这个数,但要说加入互联网的计算机那就没办法数了,网页更是天方夜谭。那么用户如何在浩瀚如海的信息空间里,快速查找并获取所需的信息,已成为这新的信息时代里最根本的问题之一。这就需要形成一些网页的信息检索系统,,它是在互联网产生后伴随着网上用户快速查询信息的需求而产生的新生事物,即提供信息检索服务的计算机系统,检索的对象包括互联网的站点、新闻组中的文章、软件存放的地址及作者、某个企业和

3、个人的主页等,我们难以想象没有网页检索系统,人们如何在浩瀚无边、拥有着各种各样信息的因特网上冲浪。大大缓解了这个矛盾,它为人们大大缩短了浪费无用功的时间,让人们尽快地得到了自己所需要的信息和服务。二、研究的基本内容与拟解决的主要问题目标是要用智能的方式查找网页,只要给出想要用户输入的关键词,就能够从可获得的网页中选择优先服务满足用户的要求。预定想解决的问题:1.如何确定网页优先权。2.如何衡量用户输入的关键词与网页的相关度。3.如何计算用户输入的关键词与网页的相关度。4.如何得到网页的的排序。网页的优先权通过用户输入的关

4、键词与网页的相关度来体现假设用户查询为Q被检索文档为D两者的相关程度可用向量之间的夹角来度量,夹角越小,说明相关度越高。(2)如何得到网页的排序网页的排序通过相关度的的计算,按相关度从高到低进行排序输出。三、研究的方法与技术路线:一.抓取网页1.用HtmlParser抓取所需网页并保存为文本。二.分词1.对网页文本进行分词并保存到对应的分词文本。2对输入的请求进行分词。三.相关度的计算1.对网页文件构造向量空间模型,将输入汉字串向量中的每一项作为网页向量中的项,然后对输入汉字串向量中的每一项,查找网页的二元分词表根据每一

5、项在分此表中出现的次数,来构造网页的向量。2.对输入向量和网页向量进行相关度匹配采用夹角余弦计算方法作为相关性的计算。夹角余弦计算法:向量空间模型VSM是近年来使用较多且效果较好的一种信息检索模型。在VSM中,将文档看作是由相互独立的词条组(T1,T2,…Tn)构成,对于每一词条Ti都根据其再文档中的重要程度赋予一定权值Wi,并将T1.T2…Tn看成一个n维坐标系中的坐标轴,W1,W2….Wn为对应的坐标值。这样由(T1,T2,….Tn)分解而得到的正交词条矢量组就构成一个文档向量空间,文档则映射成为空间中的一个点。对于

6、所有文档和用户查询都可映射到此文档向量空间,用词条矢量(T1,W1,T2,W2….Tn,Wn)来表示,从而将文档信息的匹配问题转化为向量空间中的矢量匹配问题.假设用户查询为Q被检索文档为D两者的相关程度可用向量之间的夹角来度量,夹角越小,说明相关度越高,相关度计算公式如下四.按相关度的高低进行排序输出相关度计算的得出结果在(0,1)。越接近1说明相关度越高,则排在前面。程序开发:Myeclipse三、研究的总体安排与进度:截止时间要求完成的工作2010-11-20~2010-11-26在老师指导下进行毕业设计选题2010

7、-11-27~2010-11-28明确课题的目标和内容及做好相应技术准备2010-11-29~2010-12-6下发毕业设计课题任务书2010-12-13~2010-12-19学生撰写开题报告2010-12-20~2010-12-26完成开题答辩2010-12-27~2011-1-31查找文献,完成文献综述和翻译2011-2-1~2011-4-30完成课题主要内容并进行实验验证2011-5-1~2011-5-20撰写毕业设计论文,整理材料,毕业设计论文完善,修改及定稿2011-5-21~2011-5-31完成毕业论文答辩

8、五、主要参考文献:【1】PapazoglouMP,TraversoP,DustdarS.etal.Service-orientedcomputing:Stateoftheartandresearchchallenges[J].Computer,2007,3:38−45.【2】E.Voorhees.Overviewof

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。