主题型网页的信息抽取技术研究

主题型网页的信息抽取技术研究

ID:36768661

大小:2.47 MB

页数:54页

时间:2019-05-15

主题型网页的信息抽取技术研究_第1页
主题型网页的信息抽取技术研究_第2页
主题型网页的信息抽取技术研究_第3页
主题型网页的信息抽取技术研究_第4页
主题型网页的信息抽取技术研究_第5页
资源描述:

《主题型网页的信息抽取技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、RESEARCHoNTHETECHNOLOGYOFEXTRACTINGINFoRM睑TIoNFROMTHETHEME.BASEDWEBPAGESABSTRACTWiththeIntemettechnologydevelopment,worldwidewebasarisinginformationmedtediahasinfluencedmtluenceallaaspectspectsOtof;ocialSOelalactivitiesmcluamgincludingintbrmationeconomy,culture,educati

2、onandentertainment.Ithasbecomeanimportantpartofourdailylive.Theme—basedpagesasoneofthemostimportantkindofwebpagesincludesnewspages,BBS,Blogs.Theme-basedpagesisahugeinformationbankincludingpublicopinionandknowledgeespeciallyinBBSandBlogswhichhaveraiseconceminthepublic.S

3、oitisgoodforSociologystudiesandpublicopinioncollectionanddataminingtostudythetechnologythatextractinformationfromtheme-basedpages.Themainstudymadethefollowingpointsinthispaper:(1)AmethodtoestimatetheimageinformationandimageeffectiveinformationWasproposedinthispaper.Ano

4、velalgorithmformaintextofwebpagelocalizationbasedonimageandtexteffectiveinformationWasalsopresentedinthispaper.Thenoisewasreducedbythemethodthatlocatethemaintextofwebpage.Theexperimentsshowthatthismethodhasabetterreducednoiseeffects(2)Opposedthelackofpastweb—pages’revi

5、ewsdiscoveryalgorithm.Anew-nI-Suffix-treebasedweb—pages’reviewsdiscoveryalgorithmwasproposed,whichCallautomaticallyextractthecontentofreviewwithoutlabeledinstanceorcalculatingthesimilarityofsub-treeorsettingthemall—madethreshold.Theexperimentsshowthatthisalgorithmhasbe

6、tteraccuracyrateandrecall.KEYWORDS:informationextraction;effectiveinformation;discoverytheme-basedpages;imageandtextrepeatpattem;web—pages’review目录摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.IABSTI认CT⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..IIl第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..11.1研究背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.11.2主题型网页

7、信息抽取算法的研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..31.2.1基于自然语言的信息抽取算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..31.2.2基于机器学习的信息抽取算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..3第二章基础知识和相关3.3.1相关定义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.233.3.1网页图片有效信息量的计算⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯243.3.2算法描述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.263.4实验结果及分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.273.5本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.30第四章基于后缀树的主题型网页数据区域发现与抽

8、取⋯⋯⋯⋯⋯⋯⋯⋯314.1引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..314.2相关算法研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯314.3主题型网页结构的特点⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.324.3.1视觉特征⋯⋯⋯⋯⋯⋯⋯⋯

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。