中文BLOG网页分析技术研究与应用

中文BLOG网页分析技术研究与应用

ID:36552803

大小:3.16 MB

页数:58页

时间:2019-05-12

中文BLOG网页分析技术研究与应用_第1页
中文BLOG网页分析技术研究与应用_第2页
中文BLOG网页分析技术研究与应用_第3页
中文BLOG网页分析技术研究与应用_第4页
中文BLOG网页分析技术研究与应用_第5页
资源描述:

《中文BLOG网页分析技术研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文BLOG网页分布儆术研究与应用作者:指导教师:薛文武高阳教授南京大学研究生毕业论文(申请工程硕士学位)南京大学软件学院2010年12月ResearchandapplicationofChineseBLOGpageanalytics一1_一一XUE,WenwuSubmittedinpartialfulfillmentoftherequirementsforthedegreeofMasterofEngineeringSupervisedbyProfessorGAO,YangSoftwareInstituteNANJINGUNIVERSITY

2、Nanjing,ChinaDec,2010南京大学硕士论文摘要摘要作为一种全新的网络信息发布模式,BLOG的出现,深深影响并改变着网民的习惯。BLOG为人们提供了一个信息发布、交流和沟通的平台。近几年来,BLOG发展迅猛,已经形成一个庞大的网络资源,如何从这些大规模的数据资源中获取有用的信息,已成为人们的热门研究对象。本文的研究目的就是基于这样的背景。本文将针对中文BLOG网页作深入的研究分析,并探讨其在实际中应用。本文通过比较BLOG网页与普通Web网页的相同点与不同点,找出BLOG网页的特征,从下载得到的网页中识别出BLOG网页,并对其

3、中的关键内容进行抽取。本文先对普通Web网页的特点进行分析,然后过渡到对BLOG网页的特点进行分析,通过比较、区分两者之间的不同点,从而识别出BLOG网页。通过对BLOG网页的长期深入观察、统计和分析,提出了一些基础性的定义,并针对这些定义和概念对BLOG网页的特点做了深入的阐述。提出了BLOG网页的分类方法,即广义BLOG网页和狭义BLOG网页的分类方法。并提出了一种识别广义BLOG网页的方法,在实验环境中取得了很好的效果。在广义BLOG网页识别得到良好效果的前提下,进行了去除BLOG导航网页的实验,对已有方法进行了比较和分析,并提出了新

4、的方法。由于BLOG空间的信息挖掘需要BLOG的正文日志内容、评论等关键信息和统计数据作为依据,本文以十多个大型中文BLOG网站为来源,对BLOG的关键内容进行了抽取,通过实验结果显示,效果良好。本文的研究成果在于对BLOG网页特征进行了深入的分析,从普通WEB网页中识别出BLOG网页,并提出了BLOG网页分类方法,根据此方法做了相关实验,得到较好的结果。实现了BLOG网页内容的抽取,为BLOG网页内容进一步挖掘做了良好的铺垫工作。关键词:BLOG;特征分析;识别:内容抽取;信息挖掘南京大学硕士论文AbstractAsanewmodeofi

5、nformationdisseminationnetwork.BLOGhasinfluencedandchangedthehabitsofnetworkusers.Itprovidesaplatformofinformationreleaseexchangeandcommunication.AstherapiddevelopmentofBLOG,itcreatedhugeresources.howtorecovervaluableinformationfromthelarge—scaledatawarehousebecomesimperat

6、ive.Thispaperisreleasedforthestudyandresearchofthispowerfulmodel.Comparedwithordinarywebpage,weextractedthefeaturesofBLOGpage.WeidentifiedBLOGpagefromthedownloadedpagesandextractedcontentfromthesepages.ThisdissertationstartsfrOmanalysisofthefeaturesofordinarywebpage.thenth

7、efeaturesofBLOGpage.BycomparingfeaturesofBLOGpagewithordinarywebpage,weidentifyBLOGpage.Basedonthelong—lermobservation.statisticsandanalysisofBLOGpage,wehavegotsomebasicdefinitions.AccordingtothesedefinitionsandconceptsthispaperhaveadeeplydescriptiononthecharacteristicsofB

8、LOG.FirstweproposetheclassificationofBLOGpage,generalizedBLOGpageclassificationandnarrowB

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。