基于语义-分析和二次聚类的微博热点发现方法

基于语义-分析和二次聚类的微博热点发现方法

ID:34069297

大小:1.22 MB

页数:62页

时间:2019-03-03

基于语义-分析和二次聚类的微博热点发现方法_第1页
基于语义-分析和二次聚类的微博热点发现方法_第2页
基于语义-分析和二次聚类的微博热点发现方法_第3页
基于语义-分析和二次聚类的微博热点发现方法_第4页
基于语义-分析和二次聚类的微博热点发现方法_第5页
资源描述:

《基于语义-分析和二次聚类的微博热点发现方法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、MicroblogHotspotDetectionBasedonSemanticAnalysisandTwo-stepClusteringAthesissubmittedtoXIDIANUNIVERSITYinpartialfulfillmentoftherequirementsofMastergraduationByWuNi(ManagementScienceandEngineering)Supervisor:Prof.ZhaoPengweiDecember2014西安电子科技大学毕业论文独创性(或创新性)声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下

2、进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。毕业论文与资料若有不实之处,本人承担一切的法律责任。本人签名:日期:西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用毕业论文的规定,即:研究生在校学习期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内

3、容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后结合毕业论文研究课题再撰写的文章一律署名单位为西安电子科技大学。(保密的论文在解密后遵守此规定)本论文属于保密,在年解密后适用本授权书。本人签名:导师签名:日期:日期:摘要摘要微博已经成为表达用户观点的主要阵地之一,同时也是新闻消息的主要产生和传播途径之一。用户在微博平台发布和传播的内容即可以及时掌握用户的关注点,提高用户满意度,也可以帮助有关信息监督部门及时掌握突发事件。因此对微博热点发现的研究具有较高的社会意义和学术价值。针对传统的微博热点发现方法中存在的语义理解不足和聚类算法局限性的问题,本文从语义分析角度表示文

4、本,使用信息增益和潜在语义分析方法构建词-文档矩阵;提出了二次聚类算法,改进的K-means算法及其增量聚类算法实现话题发现与更新,相似强度来选取最优话题,以解决传统的先确定聚类个数再发现话题的不准确性问题;最后构建微博话题热度评估计算模型。本文主要研究的微博热点发现,其过程划分为三方面:(1)数据采集与清洗。经研究分析发现反映微博主题的因素主要有:标题、内容、转发次数、评论内容、作者和发表时间,采集结果中相同微博内容仅保留一个,清除内容中未处理的HTML标签,去除空值、广告等噪声,去停用词。(2)数据处理与文档表示。从语义分析角度表示文本。本文使用信息增益选取特征词,可以较多的保留低频

5、词汇的隐含信息。通过向量空间模型构建的词-文档,该矩阵维度高且存在噪声,使用潜在语义分析可有效解决这些问题。(3)热点发现。本文使用二次聚类算法发现微博话题。通过相关门户网站分析和人工分类微博,确定了微博热点话题的数量区间作为K-means聚类算法的聚类个数区间。对于新加入的数据使用增量聚类算法,快速更新话题。聚类结果不唯一通过相似强度选取最优值,解决了传统的先确定话题个数再发现话题内容的不准确性问题。从实验结果来看,本文提出的话题发现方法具有较高的精确度。提出了微博话题热度评估模型和计算公式。根据以上研究,本文还设计了博热点发现流程,使用JAVA实现了流程中的关键步骤。通过抓取新浪微博

6、中的相关数据及实验,验证了本文提出的方法具有较好的效果。关键词:潜在语义分析,二次聚类,相似强度,热度评估论文类型:基础研究类I西安电子科技大学硕士学位论文IIABSTRACTABSTRACTIntheeraofweb2.0,theInternetandcommunicationtechnologydevelopedrapidly,thewaytoacceptedandreleasedforinformationhavegreatchanges.Duetolowbarrierstoentry:microbloghavesimpleoperation,optionalcontentedit

7、ing.Thecontenttopublishandspreadreflectstheuser'sinterestanddiscussion,italsocanhelptheinformationsupervisiondepartmentintimelymanagethespreadofemergency.Tosolvethelackofsemanticunderstandingandthelimitationofclusterin

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。