blog网页分类与识别技术研究

blog网页分类与识别技术研究

ID:12142260

大小:272.00 KB

页数:6页

时间:2018-07-15

blog网页分类与识别技术研究_第1页
blog网页分类与识别技术研究_第2页
blog网页分类与识别技术研究_第3页
blog网页分类与识别技术研究_第4页
blog网页分类与识别技术研究_第5页
资源描述:

《blog网页分类与识别技术研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第12期郑德权等:Blog网页分类与识别技术研究·161·Blog网页分类与识别技术研究郑德权,张迪,赵铁军,于浩(哈尔滨工业大学语言语音教育部-微软重点实验室,黑龙江哈尔滨150001)摘要:为了找到一种自动将Blog网页区别于其他Web页面的方法,以便针对Blog语料进行内容抽取、对Blog社区进行规律性研究和发现等,针对Blog网页的特点与规律,提出一种根据网页结构和关键字计算相似度的方法识别Blog网页,初步的实验结果表明,达到了较高的识别正确率。关键词:Blog网页识别;相似度计算;网页分类中图分类号:TP391

2、文献标识码:A文章编号:1000-436X(2007)12-0156-05StudyontheclassificationandidentificationofBlogpagesZHENGDe-quan,ZHANGDi,ZHAOTie-jun,YUHao(MOE-MSKeyLaboratoryofNaturalLanguageProcessingandSpeech,HarbinInstituteofTechnology,Harbin150001,China)Abstract:Inordertofindanautomatic

3、waytorecognizetheBlogpagesfromotherWebpagesforthecontentextractionoftheBlogpagesandotherresearches.AccordingtothecharacteristicofBlogpages,somebasicconceptsandideasintheareaofBlogwasdescribed,andanovelmethodontheidentificationofBlogpageswasproposedbasedonthestruct

4、ureoftheBlogpagesandkeywords.Theexperimentalresultsshowethatahighresultcanbeachievedinprecision.Keywords:Blogpagesidentification;similaritycomputing;Blogpagesclassification第12期郑德权等:Blog网页分类与识别技术研究·161·1引言Blog也称为Weblog(指人时对应于Blogger),中文译名为“博客”,特指一种区别于其他网页的网络个人出版形式。

5、近几年来,随着博客的迅猛发展,其相关研究也渐成热点。为了更方便地研究Blog,需要大规模地自动获取网络上的Blog网页,所以急切需要一种将Blog网页区别于其他网页的方法。收稿日期:2007-09-25;修回日期:2007-12-03基金项目:国家自然科学基金资助项目(60736044);国家高技术研究发展计划(“863”计划)资助项目(2006AA01Z150,2004AA11701008)FoundationItems:TheNationalNaturalScienceFoundationofChina(6073604

6、4);TheNationalHighTechnologyResearchandDevelopmentProgramofChina(863Program)(2006AA01Z150,2004AA11701008)在本文的研究中,按照Blog网页的意义,将其处理方式分成粗分类和细分类2种。粗分类就是识别出广义的Blog网页,即格式意义级别上的分类。广义的Blog网页是指一切与个人Blog日志相关的网页,包含Blog网站主页、导航信息、广告、Blog登录信息等,一些广义的Blog网页对于研究工作没有太大的意义,需要将其过滤掉,这

7、是本文所谓的粗略分类过程。细分类识别出狭义的Blog网页,是人们一般意义上指的Blog网页,即个人日志网页,是内容意义级别上的分类。分类任务的基本目标是分离出内容意义级别上的Blog网页。其中日志网页又可以两种形式展示:单篇日志格式和多篇排列日志格式。单篇日志格式形式中一个Blog网页仅含有一篇日志,多篇排列日志格式中一个Blog网页以某种格式排列出作者的多篇日志,这种排列方式第12期郑德权等:Blog网页分类与识别技术研究·161·多为日期的倒序。在本文的研究中,将含有单篇日志、评论内容、链接信息、文章分类等特征的Blo

8、g网页称为标准的Blog网页,并将其作为研究的重点。近几年,国内外研究人员侧重于研究普通Web网页的分类,提出了一些效果较好的网页分类方法,但是在网页识别方面研究却较少。中科大的朱明等对网页识别中的特征选择问题进行了研究,提出了一种综合文字方法[1]。这种方法针对Web网页Head部分、超链接以及非超链

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。