bbs热点话题发现和监控系统

bbs热点话题发现和监控系统

ID:20644125

大小:6.65 MB

页数:65页

时间:2018-10-14

bbs热点话题发现和监控系统_第1页
bbs热点话题发现和监控系统_第2页
bbs热点话题发现和监控系统_第3页
bbs热点话题发现和监控系统_第4页
bbs热点话题发现和监控系统_第5页
资源描述:

《bbs热点话题发现和监控系统》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文摘要摘要:互联网的飞速发展为BBS的普及提供了条件,目前BBS己经成为一种常用的交流工具,网民可通过BBS发起新话题或回复现有的话题来表达对某个事件的看法。从一定角度来看,BBS是现实社会的镜像,因而可以采集BBS中的数据,为BBS舆情分析提供数据基础。本文实现的热点话题发现、话题监控功能都是以BBS实时数据为基础的。本文在分析国内外BBS热点话题发现与监控现状和发展的基础上,从系统的整体设计和实现过程入手,深入分析系统结构设计和系统处理流程等方面的问题。本文的主要研究内容如下:(1)BBS数据采集:数据采集是整个热点话题发现与监控系统的基础,本文利用传统网络爬虫的运行原理,并结合论坛的特

2、征,提出基于论坛版块扩展的BBS数据采集策略,实现对BBS论坛的高效采集。(2)BBS数据预处理:采集所得的数据为非结构化数据,系统需要对其处理,使之转化为结构化数据。预处理部分主要包括页面信息抽取和文本向量表示两个主要步骤。(3)BBS热点话题发现:话题识别是热点话题发现的关键步骤,本文采用Single。Pass聚类算法进行话题识别,在实际应用时针对原算法存在的缺陷做了相应改进,并给出实验结果及和分析。在话题识别的基础上,综合话题包含的主题贴子数、参与讨论的Ⅲ数、回复数、浏览数等信息,对话题进行热度评分,筛选出论坛中的热点话题。(4)BBS热点话题监控:本文采用基于自主学习的INN增量分类算

3、法来实现对BBS热点话题的监控。关键词:BBS;Web文本挖掘;爬虫;聚类;热点话题发现;话题监控分类号:TP319ABSTRACTABSTRACT:TherapiddevelopmentofIntemetisahelpfultoolforpopularizingBBS.Atpresent,BBShasbecomeapopularcommunicationt001.ThroughtheBBS,usercouldlanchanewtopicorreplytoexistingtopicstoexpressideasoftopics.Tosomeextent,BBSisamirrorofrealso

4、ciety.Thereal-timedataonBBScanbecollectedwhichprovidescertaindatabasefortheresearchoftheBBShottopicdetection.Inthispaper,hottopicdetectionandmonitoringfunctionarebasedonreal-timedataofBBS.BasedontheanalysisofthedomesticandinternationaldevelopmentandstatusofIntenethottopicdetectresearch,thisissuedeep

5、lyanalyzehowtodesignaneffectivearchitectureoftheBBShottopicdetectionandmonitoringsystemandwhatisthepropersystemprocessinthisthesis.Themaincontentofthispaperareasfollows.(1)BBSdatacrawling.Datacrawlingisthebaseofthissystem.Thispaperutilizesthecrawlerprincipleandforumfeatures,postaBBSdatagatheringstra

6、tegy,andusethismethodgatheringtheBBSwitll11ighefficiency.(2)BBSdatapreprocessingThroughdatacrawling,systemcallgetunstructureddata,itisneedtopreprocessthisdataandchangeitintostructureddata.Thismoduleincludestwomainsteps,dataextractingandfeaturewordsselecting.(3)BBShottopicdetection.Topicdetectionisak

7、eystepinhottopicdetection.ThispagesuseSingle—Passclusteringalgorithmtodetecttopic.Thenthehotnessoftopicsisscoredaccordingtotopicinformationincludingthenumberoftheposts,thenumberofvaluableposts,therepl

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。