基于评论的博客搜索引擎的设计与实现

基于评论的博客搜索引擎的设计与实现

ID:35179195

大小:2.62 MB

页数:63页

时间:2019-03-20

基于评论的博客搜索引擎的设计与实现_第1页
基于评论的博客搜索引擎的设计与实现_第2页
基于评论的博客搜索引擎的设计与实现_第3页
基于评论的博客搜索引擎的设计与实现_第4页
基于评论的博客搜索引擎的设计与实现_第5页
资源描述:

《基于评论的博客搜索引擎的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于评论的博客搜索引擎的设计与实现重庆大学硕士学位论文(专业学位)学生姓名:李浩指导教师:李华副教授学位类别:工程硕士(计算机技术领域)重庆大学计算机学院二O一六年四月ThedesignandimplementationofBlogsearchenginebasedoncommentsAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementfortheProfessionalDegreeByLiHaoSupe

2、rvisedbyProf.LiHuaSpecialty:ME(ComputerTechnologyField)CollegeofComputerScienceofChongqingUniversity,Chongqing,ChinaApr.2016重庆大学硕士学位论文中文摘要摘要博客又被称为网络日志,是一种个人信息的发布形式。从个人角度来说,博客是一种表达思想,以及与他人分享有价值资源的一种方式。随着博客用户的激增,越来越多的各行各业的人员利用博客进行广泛的交流、知识的共享。当今博客在人们获得资源

3、的途径中占有重要位置。随着互联网的发展,各种应用都允许用户进行评论。用户的评论则直接体现了用户的情感倾向性。博客应用也不例外,用户总会在看到一篇高质量的博客时忍不住留下自己的敬佩之情。因此可以认为含有很多好评的博客是一篇优质的博客文章。本文通过分析博客文章评论的情感来优化博客搜索结果,使得用户在搜索相关博客时,搜索结果在相关度的基础上按照博客质量进行排序。本文主要工作如下:首先,需要准确的抓取博客的评论内容。由于一些博客网站的评论内容是由Ajax动态生成的,传统的网络爬虫不能完成动态页面的抓取工作

4、,系统中采用phantomJS来改进传统的爬虫。为了从抓取到的网页中准确提取出来评论的内容,本文采用了一种基于特殊标识的最大DOM树算法。该算法可以准确地抽取出来网页中评论的内容。其次,准确提取到评论内容之后就可以进行情感倾向性分析。情感分析的目的是生成一个整体的评论得分,该得分作为搜索博客返回结果的排序依据。本文使用了文本分类的方法进行文本情感倾向性分析,并通过构建博客评论领域的情感词典和改进特征提取算法来提高文本分类的精度。最后,本文在Nutch开源软件的基础之上设计并实现了一个博客搜索引擎系

5、统(CBlog)。Nutch系统本身只考虑了检索关键词因子以及链接分析因子来影响文档得分,CBlog系统增加了对评论内容的情感分析因子来进一步优化检索结果。CBlog通过为用户搜索时返回高质量的博客,使得用户有更好的搜索体验。关键词:博客评论,情感倾向性分析,Nutch,搜索引擎I重庆大学硕士学位论文英文摘要ABSTRACTBlogalsoknownasweblogs,isawaytoreleasethepersonalinformation.Fromapersonalpointofview,bl

6、ogisawayofexpressingideasandsharingvaluableresourceswithothers.Withtheproliferationofblogusers,moreandmorepeopleuseblogtocommunicatewitheachotherandshareknowledge.Today,blogoccupiesanimportantpositionasthewayofpeopleaccesstotheimportantresources.Witht

7、hedevelopmentofInternet,variousapplicationsallowuserstocomment.Thecommentsofusersdirectlyreflectthebiasofuser'semotional.Blogapplicationneitherexception,whenwereadagoodblog,we'llgiveahighevaluation.Sowecanthinkablogthatcontainalotoffavourablecommentsi

8、sagoodone.Inthispaper,weoptimizetheblogsearchresultsthroughtheanalysisofblogcomments,sothatwhenusersinthesearchofrelatedblogs,searchresultsaresortedaccordingtothequalityoftheblogonthebasisofthecorrelationdegree.Themainworksareasfollows:First,t

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。