欢迎来到天天文库
浏览记录
ID:36552803
大小:3.16 MB
页数:58页
时间:2019-05-12
《中文BLOG网页分析技术研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中文BLOG网页分布儆术研究与应用作者:指导教师:薛文武高阳教授南京大学研究生毕业论文(申请工程硕士学位)南京大学软件学院2010年12月ResearchandapplicationofChineseBLOGpageanalytics一1_一一XUE,WenwuSubmittedinpartialfulfillmentoftherequirementsforthedegreeofMasterofEngineeringSupervisedbyProfessorGAO,YangSoftwareInstituteNANJINGUNIVERSITY
2、Nanjing,ChinaDec,2010南京大学硕士论文摘要摘要作为一种全新的网络信息发布模式,BLOG的出现,深深影响并改变着网民的习惯。BLOG为人们提供了一个信息发布、交流和沟通的平台。近几年来,BLOG发展迅猛,已经形成一个庞大的网络资源,如何从这些大规模的数据资源中获取有用的信息,已成为人们的热门研究对象。本文的研究目的就是基于这样的背景。本文将针对中文BLOG网页作深入的研究分析,并探讨其在实际中应用。本文通过比较BLOG网页与普通Web网页的相同点与不同点,找出BLOG网页的特征,从下载得到的网页中识别出BLOG网页,并对其
3、中的关键内容进行抽取。本文先对普通Web网页的特点进行分析,然后过渡到对BLOG网页的特点进行分析,通过比较、区分两者之间的不同点,从而识别出BLOG网页。通过对BLOG网页的长期深入观察、统计和分析,提出了一些基础性的定义,并针对这些定义和概念对BLOG网页的特点做了深入的阐述。提出了BLOG网页的分类方法,即广义BLOG网页和狭义BLOG网页的分类方法。并提出了一种识别广义BLOG网页的方法,在实验环境中取得了很好的效果。在广义BLOG网页识别得到良好效果的前提下,进行了去除BLOG导航网页的实验,对已有方法进行了比较和分析,并提出了新
4、的方法。由于BLOG空间的信息挖掘需要BLOG的正文日志内容、评论等关键信息和统计数据作为依据,本文以十多个大型中文BLOG网站为来源,对BLOG的关键内容进行了抽取,通过实验结果显示,效果良好。本文的研究成果在于对BLOG网页特征进行了深入的分析,从普通WEB网页中识别出BLOG网页,并提出了BLOG网页分类方法,根据此方法做了相关实验,得到较好的结果。实现了BLOG网页内容的抽取,为BLOG网页内容进一步挖掘做了良好的铺垫工作。关键词:BLOG;特征分析;识别:内容抽取;信息挖掘南京大学硕士论文AbstractAsanewmodeofi
5、nformationdisseminationnetwork.BLOGhasinfluencedandchangedthehabitsofnetworkusers.Itprovidesaplatformofinformationreleaseexchangeandcommunication.AstherapiddevelopmentofBLOG,itcreatedhugeresources.howtorecovervaluableinformationfromthelarge—scaledatawarehousebecomesimperat
6、ive.Thispaperisreleasedforthestudyandresearchofthispowerfulmodel.Comparedwithordinarywebpage,weextractedthefeaturesofBLOGpage.WeidentifiedBLOGpagefromthedownloadedpagesandextractedcontentfromthesepages.ThisdissertationstartsfrOmanalysisofthefeaturesofordinarywebpage.thenth
7、efeaturesofBLOGpage.BycomparingfeaturesofBLOGpagewithordinarywebpage,weidentifyBLOGpage.Basedonthelong—lermobservation.statisticsandanalysisofBLOGpage,wehavegotsomebasicdefinitions.AccordingtothesedefinitionsandconceptsthispaperhaveadeeplydescriptiononthecharacteristicsofB
8、LOG.FirstweproposetheclassificationofBLOGpage,generalizedBLOGpageclassificationandnarrowB
此文档下载收益归作者所有