基于改进hits算法及位置信息关键网页信息抽取方法

基于改进hits算法及位置信息关键网页信息抽取方法

ID:34302825

大小:3.81 MB

页数:60页

时间:2019-03-04

基于改进hits算法及位置信息关键网页信息抽取方法_第1页
基于改进hits算法及位置信息关键网页信息抽取方法_第2页
基于改进hits算法及位置信息关键网页信息抽取方法_第3页
基于改进hits算法及位置信息关键网页信息抽取方法_第4页
基于改进hits算法及位置信息关键网页信息抽取方法_第5页
资源描述:

《基于改进hits算法及位置信息关键网页信息抽取方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、复旦大学硕士学位论文基于改进HITS算法及位置信息的关键网页信息抽取方法姓名:陈翰生申请学位级别:硕士专业:计算机应用技术指导教师:张世永20090320复旦大学硕士学位论文基于改进HITS算法及位置信息的关键网页信息抽取方法摘要随着人类社会信息化程度的不断提高,越来越多的数据已通过互联网进行分享。在这个庞大的数据集中,如何获取所需的重要信息是一个难题。这其中涉及两个核心问题:关键网页的获取和网页内结构化信息的抽取。现有的搜索引擎是一种针对互联网的信息检索工具,但其通用性决定了它必须平等地处理每一个网页,因此并不适用于一些特定领域的信息获取。网络上有相当一部分文档是无结构或半结构的

2、,而传统的信息抽取领域一般基于结构化的文本文档。因此,如何从网页中抽取出其中重要的结构化信息,成了近年来研究的热点之一。这就推动了一个研究方向——网页信息抽取。本文研究了关键网页的获取及其结构化信息的提取方法。首先,论文分析了传统链接分析方法PageRank和HITS的优缺点,并选择HITS算法作为获取关键网页的基本方法。在实验中发现:传统的HITS算法具有忽视新页面和易受“垃圾链接”(SpareLink)影响的缺点,并不适用于实际应用,特别是新闻类的时效型网页。前入的研究已经针对“垃圾链接”提出了一种过滤方案,因此论文在其基础上加入了时间因素等改进措施,进一步完善了HITS算法,

3、提出了TimeWeightedHits算法。经实验证明,TuneWeightedHits算法能有效地过滤无用网页,并能筛选出时效性较高的关键网页。其次,为了从这些网页中提取重要的结构化信息,本文提出了一种利用HTML标签显示位置信息的网页信息抽取方法。通过模拟浏览器的渲染工作来获取HTML文档上每个HTML标签在浏览器屏幕上的显示位置,以便提取这些标签的位置特征。并将TimeWeightedHits算法获取的部分关键网页作为训练样本集,由支持向量机算法生成分类模型,以此筛选出在测试网页重要信息区域内的HTML标签。经实验证明,与另一个基于统计的抽取方法相比,提高了准确率。并且由于采

4、用了半自动化的训练样本标注方法,减少了训练时人工介入的工作量。关键词:链接分析,网页信息提取,支持向量机中图分类号:TP34复旦大学硕士学位论文基于改进HITS算法及位置信息的关键网页信息抽取方法ABSTRACTWiththeenhancementofinformatization,moreandmoredataiSsharedbYtheInteract.InalargedatabaseliketheIntemet,howtoobtainthenecessaryinformationisadifficultissue.TIlisinvolvesoftwocoreproblems:h

5、owtoacquiretheimportantwebpagesandhowtOextracttheS1ructllredinformationofwebpages.SearchenginesareoneoftheIntemetinformationretrievaltools.Becauseoftheirgeneral-purposeUSeS,theymusttreateachwebpagefairly.Andtherefore,theyarenotsuitabletohandletheproblemofinformationretrievalofspecificdomains.T

6、hereisaconsiderableportionofdocumentswhichareunstructuredorsemi-structured.ThetraditionalinformationextractionmethodsarcgenerallybasedonstrIlctureddatafromtextdocuments.mrefore,howtOextractinformationfromwebpageshasbecomeoneoftheresearchhotspotinrecentyears.Tllisalsoledtoanewresearchsubarea,na

7、mely,webinformationextraction.Tllispaperfocusesontheresearchofamethodofacquiringimportantwebpagesandextractingsn_ucturedinformationfromthem.Firstofall,bytheanalysisoftheadvantagesanddisadvantagesoftwolinkanalysismethods,namelyHITSandPag

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。