基于多特征的HTML网页内容提取的研究

基于多特征的HTML网页内容提取的研究

ID:37352246

大小:5.01 MB

页数:55页

时间:2019-05-22

基于多特征的HTML网页内容提取的研究_第1页
基于多特征的HTML网页内容提取的研究_第2页
基于多特征的HTML网页内容提取的研究_第3页
基于多特征的HTML网页内容提取的研究_第4页
基于多特征的HTML网页内容提取的研究_第5页
资源描述:

《基于多特征的HTML网页内容提取的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、山东大学硕士学位论文基于多特征的HTML网页内容提取的研究姓名:李连霞申请学位级别:硕士专业:计算机系统结构指导教师:马军20080405山东大学硕士学位论文摘要网页内往往包含丰富而不同的内容,可以分为主题相关内容和主题不相关内容,识别出主题相关内容应用于网页检索,分类等,可以很大程度上节约空间以及提高这些应用的性能。此方面的研究已经有很多,也取得了很大的成果,其中研究较多和应用较广的是利用分块思想:首先将网页看作是由多个分离的聚集块组成,然后识别并取得需要的主题相关内容,即主题信息块。识别并提取网页主题相关内容的这一过程称为网页内容提

2、取。网页内容提取对W曲中的Hub型网页和主题型网页有不同的含义,对前者是找到该网页中非噪音内容的主要链接:对后者是发现描述网页主题内容的文本以及相关链接。本文的研究主要着眼于以下几个方面:首先,本文研究介绍了网页的类型划分以及分析了几种较为有效的划分网页类型的算法,并在此基础上提出了一种改进的网页类型划分的方法。这种改进的算法分为两个阶段。首先利用VIPS算法将网页划分为一个个的信息块,然后分别判断每一块的类型,并根据这些信息块中是否存在一个满足要求的主题型信息块来判断网页的类型。实验结果表明该方法能准确的划分出网页的类型,正确率达到9

3、8.6%。其次,本文总结了以往网页内容提取的各种方法,在此基础上,提出了一种新的网页内容提取算法,该算法在网页分块的基础上,分析每一块的特征,得到了主题信息块的多个特征。并利用概率论对这些特征进行量化,得到每个特征与信息块为主题内容的一个对应的概率关系,最后综合信息块的所有特征计算得到这个信息块是主题内容的总的概率,通过将这个概率与阈值的比较来判断信息块的性质。通过实验可以明显地看到新算法有效地提取了网页的主题内容,并优于其它同类算法。最后,本文给出了两个具体的网页内容提取的应用:HiddenWeb分类和Web检索。在HiddenWeb

4、分类中,通过应用本文提出的新的网页内容提取算法得到HiddenWeb的文本描述信息,并将其作为一个分类影响因素,从而明显的提高了分类的效果。在Web检索中,本文用新的网页内容提取算法提取网页主题内容,对实验集建立索引,进行检索,并与同类方法进行比较,实验结果证明新方法很山东大学硕士学位论文大程度的提高了检索的准确率,查全率等指标,而且明显优于同类算法。由于网页分块的应用和推广,本文详细介绍了两种有效的网页分块方法,并在实验中进行了比较,本文提出的新算法依赖于网页分块的效果,因此进一步提高网页分块的准确性,合理性,以及分块后得到信息块的更

5、多属性,都是提高算法性能的有效途径。关键词:内容提取;网页净化:内容划分;网页分析II山东大学硕士学位论文ABSTRACTWebpagesoftencontainrichanddifferentcontents,andCarlbedividedintotopic—relatedcontentandnotrelatedtothetopic,Identifyingtopic。relatedWebcontentforretrieval,classification,andSOon,Callsavespaceandimprovetheperfo

6、rmanceoftheseapplicationstoalargeextent.Suchstudieshavebeenalotandhaveachievedgreatresults,moreresearchandwiderapplicationisthethinkingofusingthecontentblockoftheWebpages:Apageismadeupofanumberofisolatedpiecesofaggregation,andthenwecanidentifyandobtainthetopiccontentwhic

7、histheneededrelevantcontent,namelytopic·contentblock.Theprocessofidentifyingandextractingthewebpage’Stopic·contentiscalledWebcontentextraction.Awebpageusuallyconsistsofthepagetitle,thetextorimageblocksdescribingthemaincontentofthepage,navigationlinks,decorationparts,inte

8、ractionandcontactinformation.ClearlythelatercontentsarenotcloselyrelatedtOthetopicofthewebpage.Sinceweb

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。