微博数据提取及话题检测方法的研究

微博数据提取及话题检测方法的研究

ID:34021176

大小:10.03 MB

页数:49页

时间:2019-03-03

微博数据提取及话题检测方法的研究_第1页
微博数据提取及话题检测方法的研究_第2页
微博数据提取及话题检测方法的研究_第3页
微博数据提取及话题检测方法的研究_第4页
微博数据提取及话题检测方法的研究_第5页
资源描述:

《微博数据提取及话题检测方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、微博数据提取与话题检测方法研究4.2.2构建文本模型,特征项及特征权重⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一374.3微博话题检测算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.384-3.1话题相似度计算⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..383’3.2话题检测流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..405实验及结果分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯425.1获取方式及存储方式比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.425.2采集数据⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯

2、⋯⋯⋯⋯⋯.435.3实验评价标准⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.435.4相似度参数及时间参数的确定⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.445.5不同检测算法比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.455.6不同相似度算法比较⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.46结论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..47参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯48攻读硕士学位期间发表学术论文情况⋯⋯⋯⋯⋯⋯⋯⋯⋯

3、⋯⋯⋯⋯⋯⋯⋯⋯⋯..50致1射⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..51大连理工大学学位论文版权使用授权书⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯1大连理工大学硕士学位论文1绪论1.1研究背景微博作为近年来迅速流行的网络应用,已经越来越深入人们的日常生活中。微博是以用户关系为基础的信息分享平台。用户不仅可以通过电脑网络而且可以通过各种连接网络的移动式的终端设备实现对微博的使用。单条微博的信息控制在140字左右。2006年诞生于美国的twitter是全世界最早的微博应用

4、模式。2009年8月中国门户网站新浪推出“新浪微博”内测版,成为门户网站中第一家提供微博服务的网站,微博正式进入中文上网主流人群视野uJ。根据资料显示【2J,2012年全球共有24亿互联网用户,其中中国的互联网用户数为5.65亿居世界之首,中国的互联网渗透率已经达到42.1%,由此可见世界范围内尤其是中国的互联网发展之迅猛。作为现在最为活跃的互联网应用,twitter在2012年12月活跃用户数达到2亿。微博作为利用手机就能使用的网络应用,其对日常生活的渗透作用越来越明显,在奥巴马连任美国总统时,Twitter

5、上每分钟消息发送量,创历史之最,达到了327452条。而微博应用未来的增长潜力也很巨大,截止2012年,全球手机用户总数有50亿之多,智能手机用户数已经达到11亿,移动设备的数据流量也占全球互联网数据流量也达到了13%,呈现逐年上升的趋势。作为国内最大的微博应用提供商,新浪微博截至2012年12月底的注册用户数已经超过5亿,同比增长74%,日活跃用户数达到4620万,微博用户数与活跃用户数保持了稳定的增长[31。由此可见以微博作为研究对象具有很现实的意义。微博现在的火爆程度很大层面上归功于其搭载的平台和其应用的

6、形式。首先就平台来讲微博可以作为智能机的应用软件装载在手机上,而随着智能机的普及,这种应用及时地调动起了人们潜在的社交和个人诉求欲望,只需通过拇指的拨动即可快速地发表一条想说的话,用户使用感很强,使用频度也比较高。就应用的形式来讲,微博的主要功能是发布个人的随机性信息,且单条信息量较小。所以非常便捷,再加上微博博主有关注和被关注的关系,每一条微博又有评论和被转发的可能性,所以概括来讲其应用的形式是简单的,灵活的。正是由于上述两条原因微博应用成为了这个时代的互联网应用代表。话题检测技术来源于1996年美国国防部高

7、级研究计划署提出的一项计划,其目的在于在没有人工干预的条件下,自动辨识出媒体信息流的主题。此项计划的整体为话题检测和跟踪(TDT,TopicDetectionandTracking)【4】,它是一种智能技术,旨在发现大量微博数据提取与话题检测方法研究数据中潜藏的新闻信息并持续跟踪信息的后续发展情况。本文主要研究其中的话题检测技术,并将其应用于微博的话题发现。经过多年的发展,针对网页,BBS和博客等的TDT研究已经较为成熟,目前国内对于博客的话题检测还不是很多,传统的文本文件篇幅较长,且用语规范,不完全适用于微博

8、的特点,而且传统的话题检测算法主要是针对无结构文本的分析,本文在传统的TDT技术上,结合微博时效性,短文本,语义零散和互动性等特点进行有针对性的研究,同时针对微博特有的转发功能从结构化的角度考虑微博的话题检测方法。1.2研究现状由于话题检测与跟踪技术以及微博技术最早源白于美国,所以国外对这两方面的研究都比较多。在对twitter的各种应用研究上,不仅有数据方面的体现而且有效地结合了生活

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。