中文blog网页识别与内容抽取研究

中文blog网页识别与内容抽取研究

ID:35140058

大小:724.43 KB

页数:58页

时间:2019-03-20

中文blog网页识别与内容抽取研究_第1页
中文blog网页识别与内容抽取研究_第2页
中文blog网页识别与内容抽取研究_第3页
中文blog网页识别与内容抽取研究_第4页
中文blog网页识别与内容抽取研究_第5页
资源描述:

《中文blog网页识别与内容抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、工学硕士学位论文中文Blog网页识别和内容抽取研究张迪哈尔滨工业大学2007年7月国内图书分类号:TP391.2国际图书分类号:681.37工学硕士学位论文中文Blog网页识别与内容抽取研究硕士研究生:张迪导师:李生教授申请学位:工学硕士学科、专业:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2007年7月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.2U.D.C.:681.37ADissertationfortheDegreeofM.Eng.RESEARCHONCHINESEBLOGPAGESRECOGNI

2、TIONANDCONTENTEXTRACTIONCandidate:ZhangDiSupervisor:Prof.LiShengAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScienceandTechnologySchoolofComputerScienceandAffiliation:TechnologyDateofDefence:July,2007Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔

3、滨工业大学工学硕士学位论文摘要Blog作为一种全新的网络信息发布模式,已经深入到每一个网络用户的生活中。它提供了一种个人信息的发布、交流和沟通的平台。Blog的迅速发展已经构成了一个巨大的网络资源,如何从这个大规模的数据资源中挖掘出有价值的信息变得刻不容缓。本文的研究就是基于这样的背景产生的。本文将对Blog这一强大的发布模式做深入的探讨和研究。本文通过比较Blog网页和普通Web页面,提取Blog网页的特征,从网络爬行器下载得到的网页识别出Blog网页来,并对Blog网页相关内容进行抽取。本文首先从普通Web网页的特点开始分析,然后过渡到Blo

4、g网页的特点分析,比较Blog网页区别与普通Web网页的特点,根据这些特点识别出Blog网页。本文在长期深入观察、统计和分析Blog网页的基础上,提出了一些基础性的定义,基于这些定义和概念对Blog做了深入的阐述。首次提出了Blog网页的分类方法,即广义Blog网页和狭义Blog网页分类方法。提出了一种识别广义Blog网页的方法,并得到了很好的实验效果。在广义Blog网页识别得到良好效果的前提下,进行了去除Blog导航网页的实验,对已有方法进行了比较和分析,并提出了新的方法。针对Blog空间的数据挖掘需要Blog的正文日志内容、评论等关键信息和统

5、计信息作为依据。本文以数十个大型中文Blog网站为来源,对Blog的关键内容进行了抽取,实验结果显示,效果良好。本文的研究成果在于对Blog网页进行深入的分析。提出了Blog网页分类方法,并根据此方法做了相关实验,得到较好的结果。完成相关系统,实现了Blog网页内容的抽取,为Blog内容挖掘做了良好的铺垫工作。关键词Blog;特征分析;网页识别;内容抽取;内容挖掘--I哈尔滨工业大学工学硕士学位论文AbstractAsanewmodeofinformationdisseminationnetwork,Bloghasstepintothelives

6、ofnetworkusers.Itprovidesaplatformofinformationrelease,exchangeandcommunication.Astherapiddevelopmentofblog,itcreatedhugeresources,howtorecovervaluableinformationfromthelarge-scaledatawarehousebecomesimperative.Thispaperisreleasedforthestudyandresearchofthispowerfulmodel.Comp

7、aredwithordinarywebpages,weextractedthefeaturesofblogpages.Weidentifiedblogpagesfromthedownloadedpagesandextractedcontentfromthesepages.Thispaperstartsfromanalysisofthefeaturesofordinarywebpage,thenthefeaturesofblogpages.Bycomparingfeaturesofblogpageswithordinarywebpage,weide

8、ntifyblogpages.Basedonthelong-termobservation,statisticsandanalysiso

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。