web信息获取技术研究

web信息获取技术研究

ID:34529278

大小:1.98 MB

页数:54页

时间:2019-03-07

web信息获取技术研究_第1页
web信息获取技术研究_第2页
web信息获取技术研究_第3页
web信息获取技术研究_第4页
web信息获取技术研究_第5页
资源描述:

《web信息获取技术研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、南京理工大学硕士学位论文Web信息获取技术研究姓名:吴东华申请学位级别:硕士专业:计算机应用技术指导教师:孙怀江20040701硕士论文web信息获取技术研究摘要随着互联网的兴起和信息时代的到来,Web信息获取技术成为当今世界上一大研究的热点。如何最准确的获得人们感兴趣的信息,成为Web信息获取技术研究的重中之重。然而由于互联网内部的多样性以及文档结构的复杂性,Web信息获取技术的研究具有一定的困难,很难涵盖所有范围,专业搜索引擎成为解决这一问题的主要方法。本文选取当今世界上公认最好的计算机专业科学文献搜索引擎Citeseer进行研究,试图提出一种方案,使科学工作者根据自己的兴趣能更

2、加方便、准确的通过Citeseer网站获取计算机类文献。本文的工作包括:1.针对Citeseer网站的文献搜集和分析在对互联网上的信息进行处理时,常常要将分布在互联网各处的Web页面下载到本地供进一步处理,因此本文设计网络爬虫,根据Citeseer网站中文献页面对应的链接具有的特定形式,将文献页面的Html源代码下载到本地数据库中;荐根据文献页面显示样式所具有的特定规律进行分析,根据需要从中提取各类信息,分类存储到数据库各个表中,以供进一步研究使用。2.基于内容和拓扑结构的文献质量评价本文在Citeseer搜索的结果文献集的基础上,分别根据内容和拓扑结构对这些文献进行重新评价,根据评

3、价结果对文献集进行重新排序,以找到感兴趣的文献。本文中基于内容的文献质量评价根据事先提供的好文献构造“语境图”找到各类样本,分类算法采用朴素贝叶斯理论;基于拓扑结构的文献质量评价采用PageRank算法进行。实验结果表明,这两种评价方法分别从主观和客观角度体现了文献的质量。3.提出基于内容和拓扑结构相结合的知识决策系统框架由于基于内容和拓扑结构的方法分别从主观和客观的角度评价文献质量,本文将这两种方法相结合提出一种应用于Citeseer文献搜索引擎的知识决策系统框架。具体表现为根据Citeseer搜索的结果文献集先用基于内容的方法提取出相关文献,再根据PageRank算法对这些文献从

4、客观上进行排序。本文选取比较熟悉的两个领域进行实验,结果表明这种方法具有一定的效果。关键词:网络爬虫,Web,Citeseer,文献质量评价,语境图,PageRank贝叶斯,内容,拓扑结构堡圭笙兰!些堕皇茎墼垫查堕塞AbstractWiththespringupofwwwandtheadventofinformation-explodingage,technologyofaquiringwebinformationbecomeaveryactivesubjectintheworld.Howtoexactlygetinterestinginformationfromwebisthemo

5、stimportantproblem.However,sincethecomplexityofweb,therelevantresearchishard,itishelluvatoincludeallareas,appearanceoftopic—specificsearchenginebecomeoneofthebestsolutions.Inthispaper,wepickoutthesearchengineCiteseerwhichisbelievedthebesttopic·specificsearchenginetogetalongwithourresearch,tryto

6、putforwordaschemeinordertopromotescientiststoaquireinterestingcomputerpapersfromCiteseermollconvenientandmoreexactly.Contrbutionofthispaperincludes:1.CollectingandanalyzingofpaperonCiteseerWhenprocessinginformationontheweb,weneedtodownloadhtmlpagestonativecomputer.Inthispaper,wedesignawebcrawle

7、ronCiteseertocollecthtmlsourcecodeofeverypaper,andstorageitinnativedatabase,thenanalysisthisinformationonthedisplayruleofCiteseer,storagetheresultincorrespondingtable.Theaboveworkisapreparationforthefollowingreseach.2.Qulityevalua

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。