云环境下基于rihdbscan的微博事件检测及跟踪

云环境下基于rihdbscan的微博事件检测及跟踪

ID:22280397

大小:1.98 MB

页数:85页

时间:2018-10-28

云环境下基于rihdbscan的微博事件检测及跟踪_第1页
云环境下基于rihdbscan的微博事件检测及跟踪_第2页
云环境下基于rihdbscan的微博事件检测及跟踪_第3页
云环境下基于rihdbscan的微博事件检测及跟踪_第4页
云环境下基于rihdbscan的微博事件检测及跟踪_第5页
资源描述:

《云环境下基于rihdbscan的微博事件检测及跟踪》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、云环境下基于RIHDBSCAN的微博事件检测及跟踪重庆大学硕士学位论文(学术学位)学生姓名:韩楠指导老师:冯永教授专业:计算机软件与理论学科门类:工学重庆大学计算机学院二O一四年四月MicroblogEventsDetectionandTrackingBasedonRIHDBSCANusingCloudFrameworkAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementfortheMaster’sDegreeofEngineeringByNanHanSupervisedbyProf.Fen

2、gYongSpecialty:ComputerSoftwareandTheoryCollegeofComputerScienceofChongqingUniversity,Chongqing,ChinaApril,2014重庆大学硕士学位论文中文摘要摘要微博近几年有着飞速的发展和广泛的影响。用户通过网页、手机、SMS等多种途径,随时随地记录见闻时事、参与话题讨论等。对实时产生的大量微博文本进行分析和挖掘具有风险预警、舆论监控等重要实际意义,也给文本挖掘领域带来了新的挑战。针对微博的挖掘分析,国内外学者已经取得了一定的成果。然而,为了提高从海量迅速增长的微博数据中挖掘新闻事件的速度和精

3、度,需要采取新的更加有效的方法来处理即时更新的大量文本数据流。云计算技术是未来的趋势,它能够高效的完成海量数据的存储和计算任务,将云计算技术和微博挖掘结合起来势在必行。论文设计了一套完整的云环境下的微博事件检测跟踪模型。主要研究及创新点如下:①制定机械化过滤规则,将抓取的微博文本按规则进行过滤,有效提高后续处理的效率。②在传统TF-IDF算法的基础上,提出动态权值计算方法FCF-DIDF。该算法基于微博转发数和评论数,能够有效改善TF-IDF算法的不足,并考虑到微博文本集规模的不断增加,适合处理微博短文本。③基于DBSCAN算法,提出基于代表点的增量层次密度聚类算法(RIHDBSCA

4、N)。该算法分为三个步骤:生成初始簇、初始簇合并、选出代表点。算法执行过程中只需要选取部分对象进行核心点检测,大大降低了I/O开销,屏蔽了数据输入顺序敏感性。RIHDBSAN算法在每轮事件检测聚类算法执行结束后,选出代表点组参与下轮的增量聚类,并通过增量聚类中簇结构和关键词变化追踪事件的发展轨迹。④针对单一节点处理海量微博数据面临困境,将算法部署在Hadoop云计算平台上。模型的四个部分:文本过滤、FCF-DIDF动态权值计算、余弦距离计算、RIHDBSCAN聚类,都并行在该平台上。通过在新浪微博平台上抽取的数据进行实验表明,表明论文提出的FCF-DIDF算法对比TF-IDF和UF-

5、ITUF等有更高的性能,并且云框架的使用较好的提高了从大规模微博数据中挖掘新闻事件的效率,适合用于海量数据的分析和挖掘。关键词:微博,事件检测,密度聚类,云计算,代表点I重庆大学硕士学位论文英文摘要ABSTRACTMicroblog,asocialnetworkthatuserscanrecordwhathappening,participateindiscussionthroughmobilephone,SMSandsoon,haveafierydevelopmentandaprofoundimpactinrecentyears.Thevastamountofreal-timeMi

6、croblogcontentsagreatwealthofinformationnotonlyofferssignificantpracticalsignificance,suchas,riskwarning,situationalawareness,toanalysisandmining,buthasbroughtnewchallengestotextmining.InordertomineandanalysistheMicroblogtextstreams,domesticandforeignscholarshavedonesomeworkandmadecertainachiev

7、ement.Nevertheless,sheeramountofMicroblogdatawithrapidgrowthrequirenewscientificmethodologies.Cloudcomputing,thefuturetrend,isabletoefficientlycompletethetaskofmassdatastorageandcomputing,socombiningthecloudcomputingtechnologyandm

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。