微博舆情管理平台:数据分析系统的设计与实现本科毕业设计

微博舆情管理平台:数据分析系统的设计与实现本科毕业设计

ID:270425

大小:632.50 KB

页数:67页

时间:2017-07-16

上传者:chess95660
微博舆情管理平台:数据分析系统的设计与实现本科毕业设计_第1页
微博舆情管理平台:数据分析系统的设计与实现本科毕业设计_第2页
微博舆情管理平台:数据分析系统的设计与实现本科毕业设计_第3页
微博舆情管理平台:数据分析系统的设计与实现本科毕业设计_第4页
微博舆情管理平台:数据分析系统的设计与实现本科毕业设计_第5页
资源描述:

《微博舆情管理平台:数据分析系统的设计与实现本科毕业设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

毕业设计(论文)中文题目:微博舆情管理平台数据分析系统的设计与实现英文题目:MicroBlogPublicOpinionManagementPlatform:TheDesignandImplementationoftheDataAnalysisSystem 中文摘要随着网络技术应用的普及和发展,舆情的传播方式和传播速度都发生了根本性变化,网络舆情对人类的社会状态产生了全方位的影响,微博舆情则是网络舆情的重要组成部分,它的特点有:直接性,突发性,偏差性,丰富性和互动性。本文以微博消息为研究对象,研究了微博消息传播的特点与模型,通过对抓取数据的分析发现了微博传播的单向性,便捷性,背对脸等特点,还有微博意见领袖在微博传播中的重要作用,微博热点的产生规律。根据对数据分析的结果提出了趋势分析的算法。利用空间向量模型完成对微博内容的结构数据化,利用K-means算法完成对微博消息的聚类分析,找到所要分析的某类微博内容,进而在这类微博中找出微博消息意见领袖,提出微博意见领袖影响力评估算法,WeiboRank算法,并结合算法完成了微博消息预警模块的实现,初步实现了微博舆情管理平台的数据预警分析功能。1 关键词:微博舆情文本聚类趋势分析1 北京交通大学毕业设计(论文)AbstractAlongwiththeuniversalapplicationandrapiddevelopmentofnetworktechnology,theapproachesthatthenet-mediatedpublicsentimentspreadhavebeenfundamentallychanged.Thenet-mediatedpublicsentimenthasexertedhugeinfluenceonthewaythatthesocietyoperates.Astheoneofthemostsignificantpartsofthenet-mediatedpublicsentiment,thepublicsentimentwhichisproducedandspreadbythemicrobloghasseveralimportantcharacters,suchasdirectness,immediacy,deviation,variability,interactivity.Takingthemicroblogmessagesasourinvestigatingsubject,thispaperaimedtodoresearchonthecharacteristicsandmodelsofdeliveringmessagesbetweenmicroblogusers,Throughtheanalysisofthecapturedatafoundunidirectional,micro-blogcommunicationconvenience,backonthefaceandothercharacteristics,andraisedaneffectivealgorithmtosortthesekindsofmessages.Usingthespatialvectormodel,theK-meansalgorithmdidclusteranalysisonmicroblogmessages,andfoundouttheopinionleadersamongtremendousmessages.Then,aninfluentialestimationalgorithmofthemicroblogopinionleaderswasraised,WeiboRankalgorithm.Togetherwiththeestimationalgorithm,wealsoachievedtheearlywarningpartandsomebasicdatawarninganalysisfunctionsonthewholemicroblog-mediatedpublicsentimentplatform.Keywords:microblog-mediatedpublicsentiment,textclustering,trendanalysis 北京交通大学毕业设计(论文)毕业设计(论文)原创性声明和使用授权说明原创性声明本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。作者签名:     日 期:     指导教师签名:     日  期:     使用授权说明本人完全了解 北京交通大学毕业设计(论文)大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。作者签名:     日 期:      北京交通大学毕业设计(论文)学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权    大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 北京交通大学毕业设计(论文)涉密论文按学校规定处理。作者签名:日期:年月日导师签名:日期:年月日 北京交通大学毕业设计(论文)目录一、概述11.1课题背景与研究意义11.1.1课题背景11.1.2研究现状31.1.3研究意义31.2论文结构4二、微博消息传播模型42.1微博消息传播的特点42.2微博用户状态62.3微博意见领袖72.4微博传播模型9三、微博舆情管理平台的设计与实现123.1微博舆情管理平台的总体流程123.2数据分析系统设计流程13四、微博舆情管理平台的实现144.1样本选取与数据来源144.2微博数据转化154.3微博文本聚类174.3.1文本聚类定义174.3.2机器学习184.3.3K-means算法194.4微博意见领袖重要性评估214.4.1PageRank算法214.4.2WeiboRank算法224.4.3算法对比234.5微博舆情预警模块254.5.1微博舆情预警25 北京交通大学毕业设计(论文)4.5.2趋势分析模块264.6趋势分析结果比较29五、结论与展望315.1系统不足315.2未来展望325.2.1改进预期325.2.2新增功能325.3结束语33参考文献34附录Ⅰ:翻译原文35ClusterAnalysis:BasicConceptsandAlgorithms351Overview401.1.1WhatIsClusterAnalysis?401.1.2DifferentTypesofClusterings411.1.3DifferentTypesofClusters442.RoadMap47•K-means47•AgglomerativeHierarchicalClustering48•DBSCAN48附录Ⅱ:中文翻译48聚类分析:基本概念及算法481概述511.1.1什么是聚类分析?511.1.2不同类型的群集合521.1.3簇的不同类型532.路线图56•K-means算法56•凝聚层次聚类56 北京交通大学毕业设计(论文)•DBSCAN56 56北京交通大学毕业设计(论文)第页一、概述1.1课题背景与研究意义1.1.1课题背景随着时代的进步,技术的发展和web2.0时代的到来,网络舆情也呈现蓬勃发展的势头,截至2012年12月底,我国网民规模达5.64亿,手机网民规模也已达到4.20亿,我国微博用户规模为3.09亿,较2011年底增长了5873万,网民中的微博用户比例较上年底提升了六个百分点,达到54.7%。相当一部分用户访问和发送微博的行为发生在手机终端上,截至2012年底手机微博用户规模达到2.02亿,即高达65.6%的微博用户使用手机终端访问微博。微博,即微博客(MicroBlog)的简称,是一个基于用户关系信息分享、传播以及获取平台,用户可以通过WEB、WAP等各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享。美国埃文·威廉姆斯推出的twitter是最早的微博平台,也是目前最著名的平台。2007年,中国第一家带有微博色彩的网站“饭否网”开张,到2009年新浪微博的开通,中国第一家推出微博的门户网站,微博正式进入中文上网主流人群视野。2011年10月,中国微博用户总数达到2.498亿,成世界第一大国。微博成为网络舆情的一大组成部分。舆情是“舆论情况” 56北京交通大学毕业设计(论文)第页的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者及其政治取向产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。对于舆情的内涵,国内的研究者们有着不同的认识。有研究者指出:“所谓‘舆情’,实际上就是大众密切关心的热门话题或反映了某些社会心理的观点与看法,其较高层次是‘思潮’,基本层次是‘情绪’。大众传媒对此应该有足够的敏感,并以恰当的方式进行舆论引导,减少社会震荡。”另有研究者认为:“舆情即民意情况,涉及公众对社会生活中各个方面的问题尤其是热点问题的公开意见(外露的部分)或情绪反应(既可能外露又可能不外露的部分)。”更多的学者倾向于如下认识:“舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度。如果把中间的一些定语省略掉,舆情就是民众的社会政治态度。”这一定义将舆情界定为民众的社会政治态度,突出了民众与国家管理者之间的关系,抓住了舆情的核心,因此本文在以下的论述中,也采用这一定义。任何一种技术的出现及发展,或多或少会对社会生活造成一定的冲击和影响。网络从诞生的那一天起,就开始深刻地影响人们的生活、学习、思考、交流和娱乐的方式。与此同时,现实生活与虚拟世界交互影响,呈现出一种你中有我、我中有你的局面。以网络为平台,通过新闻、评论、发帖、回复等为载体表现出来的舆情,就是网络舆情。以网络为载体的网络舆情,核心是单个或多个事件,是海量网民感情、态度、建议、观点的表达,互动与传播,以及后续的影响力的集合。带有广大网民的主观性,未经媒体验证和包装,直接通过多种形式发布于互联网上。舆情管理与监控,就是通过对互联网信息挖掘采集技术的整合,实现自动抓取互联网中的海量信息,可以利用一些算法自动对信息分类,主题分析,倾向分析等 56北京交通大学毕业设计(论文)第页功能,形成图表或者简报结论,便于用户掌握。舆情的本质是民众的社会政治态度,而在网络上,某种抽象的社会政治态度是需要以一些具体的形式反映出来的。或者说,舆情在网络上要为人所知、激起网民共鸣、或者在网络上被传播,必然要借助于一定的载体。在网络上,舆情的载体主要有新闻评论,论坛(社区)发帖、跟帖,博客,播客,微博等。与传统舆情相比,网络舆情具有传播快速和实时互动的特点。网络的出现使得地球村的梦想得以实现,一条消息可以在瞬间传遍世界。相应的,某个舆情通过各大网站、论坛的转贴可以在极短时间内为大量人知晓,这在以前是难以想象的;在网络舆情体现最明显的论坛、社区、博客、微博等空间,每一个网民都可以实时地发表自己的观点,大家共同讨论或辩论,不同观点或立场的网民进行交锋,可以通过互动推动舆情的发展或深化,引起更多人的关注。1.1.2研究现状随着网络技术的发展和时代的进步,网络舆情的重要性已经毋庸置疑,有关网络舆情管理与检测的研究也日趋成熟,有关网络舆情管理与监测的系统越来越多,微博舆情的分析平台也有出现,不过多数为政府和企业服务,只监控有可能爆发的负面信息和重大事件,不对普通用户开放,而有关微博消息的分析软件不但费用昂贵而且只是对信息的已传播轨迹进行呈现和分析,缺乏对微博消息未来走向的一个分析预测,也无对微博消息传播范围广度的分级。1.1.3研究意义 56北京交通大学毕业设计(论文)第页网络舆情反映了民情民意,在为国家管理者决策提供参考依据的同时也存在引发社会问题的风险,尤其是国内外敌对势力经常利用互联网,别有用心地煽动不良情绪或发动串联,以期影响我国社会稳定。因此,研究如何发现互联网上的舆情、做出预警并在必要时采取合理的预控措施,成为摆在相关部门面前亟待解决的问题。1.2论文结构论文分为4章。第一章概述介绍了我选择这个课题的背景,叙述了目前国内外关于微博舆情管理平台的研究现状,分析了微博舆情管理平台的重要意义。第二章分析了微博消息传播的模型,研究了微博消息传播的特点,建立了微博消息传播的模型。第三章概述了微博舆情管理平台的总体流程,详细讲解了数据分析系统的设计流程,讲述了分词模块,聚类模块及趋势分析模块的算法思想,基本原理。第四章针对数据分析系统的局限性,提出了未来的改进方向。二、微博消息传播模型2.1微博消息传播的特点微博舆情作为网络舆情重要组成部分,有着与网络舆情共同的特点,网络舆情的特点有以下几点:直接性,突发性,偏差性,丰富性和互动性。 56北京交通大学毕业设计(论文)第页网民根据现实社会或者网络上发生的新闻可以在各种平台上直接发表自己的见解和意见,根据其他网民的见解进行交换观点,而网络的虚拟性也使虚假不良信息的发布变得容易和更具蛊惑性,容易成为热点。这也对网络舆情的监管提出了要求。而微博也有其自身独特的特点:便捷性,原创性,背对脸。随着智能手机的普及以及各种便捷移动电子设备的出现,各种微博移动终端使得微博消息的发表与接收变得非常便捷,使得网络舆情的直接性和突发性表现的更为突出。而以新浪微博为例,其用户可以选择一个或多个的关注组别,例如娱乐,新闻,经济等,这就让用户可以更加便捷的了解自己需要的某些方面的信息。微博的便捷性让网络舆情的消息爆发更加突然,在前不久的雅安地震中,震后3分钟即有第一条关于震区震后实情的微博消息出现,这与微博的便捷性是分不开的。微博消息是由140字左右的短文本构成的,所以其原创性远大于例如BBS,论坛,博客等平台,可能表达的意思相同,但发出的微博却不一样,同样以雅安地震为例,“为雅安祈福”,“雅安平安”,“支援雅安”等消息出现在微博上,虽然是不同文本,但同样表达了对雅安地震灾情的关注和祝福,这种原创性大大丰富了微博的内容,也直接体现了网络舆情的偏差性与丰富性。但也为微博舆情管理增加了难度,对微博内容的分类提出了更高的要求。背对脸这种特性,则是很生动表明了微博与平常网络平台相比最大的特点,其传播消息的途径是单向的,被关注者发布消息无需理会关注者的反应,关注者关注着被关注者的消息,就类似一个人在玩电脑游戏,而他的粉丝就是站在他背后观看的人,观看者可以看到游戏的进度,但游戏者却不用理会观看者在做什么,这就是微博消息传播背对脸的特性。 56北京交通大学毕业设计(论文)第页根据微博典型的这3种特点,我们看出它与其他网络平台舆情传播的显著差别,而想要对微博舆情进行管理,必须很好的利用这三种特点。2.2微博用户状态在调研文献时,病毒在传播的时候会出现三种用户状态,感染态,免疫态,易感染态。由于病毒传播与微博消息的相似性,假设一个用户发布一条消息后,他的粉丝用户都一定会看到这条消息,类比病毒传播的三种状态,将微博用户也分为三种状态,未知状态,转发状态,已知不传播状态。未知状态就是不知道消息的状态,通常就是他所关注的人中没有传播这条消息;转发状态就是这个用户知道这条消息,并且对这条消息很感兴趣,转发了这条状态,就把这条消息通过他的粉丝继续传播了下去;已知不传播状态则是知道了这条消息,但是因为不感兴趣,没有转发这消息或发布相关的消息。如图2-1所示,这是一个用户状态示意图,用户A发布了一条状态,B和C关注了A,所以知道了A发布的消息,B不感兴趣,忽略了这条消息,成为了已知不传播状态,这条消息的传播在B处中断,而C对这条消息很感兴趣,转发了这条消息,则成为转发状态,继续向C自己的粉丝传播这条消息,则D由不知道这条消息的未知状态变为了知道这条消息的已知不传播状态,而E关注了B,虽然被D关注,但根据微博背对脸的特性,E无法知道这条消息,一直处于未知状态。在消息传播过程中,这三种状态是单向转变的,未知状态可以变成已知不传播状态,已知不传播状态可以变成转发状态,但不能反向转变,已知不传播状态可能在多次从不同用户得知同一消息后变得感兴趣从而转变为转发状态。 56北京交通大学毕业设计(论文)第页图2-1微博用户状态图2.3微博意见领袖意见领袖这一说法起源于20世纪40年代初传播学关于媒介传播效果的研究,传播学者拉扎斯菲尔德在1940年美国大选的调查研究中发现,大部分选民的投票不依靠大众传媒,依靠的是身边的亲戚、朋友和团体的影响。从而有了意见领袖这一概念,在人际传播网络中经常为他人提供信息、意见、评论,并对他人施加影响的“活跃分子”,是大众传播效果的形成过程的中介或过滤的环节。而在微博消息传递过程中,人际传播网络化为微博用户传播网络,微博意见领袖在其中发挥着巨大作用【10】。微博意见领袖通常有着数量庞大的粉丝群,通常用户有着几十或几百的粉丝,而微博领袖的粉丝数量则通常为上万甚至几十万上百万, 56北京交通大学毕业设计(论文)第页成为微博平台上的明星,通过发布微博消息领导着他们的粉丝意见。通过对收集到的数据的分析,从数据表明,基本上可以认为20%的意见领袖用户领导着80%的用户的意见,如图2-2,从一条转发量为561次的微博消息的前10名的数据可以看出,昵称为“思想焦距”“杜子健”“历史尘封档案”的3位用户是此次消息传播中最重要的3位意见领袖。排名昵称粉丝用户类型时间二次转发1思想焦距1209767个人认证2013-3-915:03:003682杜子健324621个人认证2013-3-913:07:01513历史尘封档案538570微博达人2013-3-915:45:02404煮酒谈史214251微博达人2013-3-916:11:35375人性之美丽213917微博达人2013-3-915:06:26226长江直播47390微博达人2013-3-915:17:05187敌我媒体采访团275145个人认证2013-3-915:03:0698彭三金176135个人认证2013-3-915:03:0739笑着做教师11370个人认证2013-3-916:38:553 56北京交通大学毕业设计(论文)第页10王周生7162个人认证2013-3-915:23:093图2-2微博消息影响力前10名不过转发量并不是判断意见领袖影响力的唯一标准,包括粉丝数,转发率以及活跃程度均是评估意见领袖影响程度的重要参考标准,通过对实验数据结果的总结,发现微博意见领袖有以下几个特点:基本上所有的微博意见领袖均是新浪认证用户,图2-2也说明了这一观点,而且认证用户容易获得普通用户认可和接受,发布消息的真实性也比较可靠。认证用户中有部分是在现实社会中有着一定影响力,微博则是其社会影响力在网络中的映射。粉丝数量也不是必然要求,类似消息的二级传播原理,活跃且粉丝质量高的用户也会有相当大的影响力,这也是一些草根用户能够成为影响力大的意见领袖的原因。草根用户积极参与用户间的互动,并且努力发布有价值的消息给粉丝,也可以获得较大的影响力。也有部分用户从来不与粉丝互动,但其绝对粉丝数量较多,也可以获得较大影响力。也有草根用户凭借实时发布极有价值信息发布获得较大影响力,随之而来的则是转发和粉丝数量激增。总结上述特点可以得出评估用户影响力的标准:粉丝数,转发率,历史转发率(该用户的活跃程度),是否认证用户。具体重要性的评估算法将在3.5节具体阐述。2.4微博传播模型由微博背对脸的特点可以知道微博消息传播的单向性,类似 56北京交通大学毕业设计(论文)第页病毒的传播,病毒感染一台主机则这台主机进入感染态,而感染一台服务器,则访问这台服务器的所有主机都会了解这个病毒,或感染或免疫,微博中消息传播也是如此,普通用户相当于终端,而微博意见领袖则相当于服务器,区别在于,消息的接受是被动的,只要登录微博就能看到关注者的消息,而不用像用户一样需要登录服务器。通过对抓取的微博数据的分析,发现20%的用户领导着80%的用户意见,而且越是在消息初期,微博意见领袖的作用就越大,意见领袖的加入会使消息有一个爆炸式的增长,而随着加入的意见领袖增加,消息传播增长趋势放缓,意见领袖的作用降低,当消息的传播广度到达一定范围后,意见领袖的影响力就趋近于零了。图2-3是一条有关波士顿爆炸案的微博消息路径图的一部分,通过图2-3可以看出意见领袖在微博消息传播所占的重要作用,是传播路径上的重要节点,与消息传播的广度息息相关。 56北京交通大学毕业设计(论文)第页图2-3微博消息传播路径图通过对数据分析可以发现在消息的传播广度和初始微博意见领袖加入的多少有一定关系,当单位时间内意见领袖的影响力达到了一个阈值M后,可以认为在之后的一段时间内,此消息的传播范围会有一个明显的增长,关于M值会在3.6详细介绍。通过研究发现,消息成为热点中有以下3种规律,每一种都会在热点的成长曲线中出现。对一个范围内的微博意见领袖进行监控,发现意见领袖对一条微博消息的转发比例达到10%时, 56北京交通大学毕业设计(论文)第页可以认为此消息会有一个广泛的传播,会成为一个热点话题;通过对已知此消息但未转发的意见领袖的比例与已知此消息并转发的意见领袖所占比例的对比,可实现对未来的微博消息传播范围的判断;在单位时间内(设为1个小时)的消息传播量达到一个阈值M后,可以认为此消息传播进入爆发期,会出现较大增长,通过设置不同M值,可对未来的消息传播范围有一个大致的分级,不同级别表示预测此消息传播的最大广度。从趋势分析角度来说,以上3种规律无论应用哪一种均可以对消息传播趋势做一个分析,采用多种规律对趋势分析精度的提升也是有限的,而对一种规律分析的足够透彻已经可以达到一个接受的趋势分析的准确度了。三、微博舆情管理平台的设计与实现3.1微博舆情管理平台的总体流程微博舆情管理平台的三大模块如图3-1所示,分为微博信息数据获取模块,数据分析模块,分析结果呈现模块,本文主要研究的是数据分析模块。 56北京交通大学毕业设计(论文)第页图3-1微博舆情管理平台三大模块微博舆情管理平台的主要流程如下,首先输入要查询的微博消息的关键词或核心微博,然后利用网络爬虫来收集微博中的消息内容,包括微博内容,转发关系,博主ID,发布时间等。然后进入中文分词模块,将微博内容分词后进入VSM,将微博内容的文本数据转化为计算机可以处理的结构化数据,将所有相关微博内容预处理后,进入K-means算法对微博内容进行分类,找到离关键词最近的那个类,认为这个类中的微博内容表达的是同一意思,并作为数据分析的主类,然后找出类中符合意见领袖标准的微博领袖逐一进行影响力评估,分析出各意见领袖的影响力指标,然后进入趋势分析预警模块,根据微博的走势代入趋势分析算法进行分析,得出结果将数据上传到管理平台,管理平台对数据进行处理将结果输出。3.2数据分析系统设计流程数据分析系统的主要流程如图3-2所示,获得关键词或核心微博后,从数据库中获取微博相关数据,将微博内容与微博ID挂钩,用中文分词系统将微博内容进行分词,然后在数据库中新建一表项,用于存储分词后的文本内容,继续以微博ID为区分,将分词后的文本放入K-means算法中进行迭代聚类,选出关键词或核心微博所在类为相关微博类,删除数据库中其他无关微博,进而筛选出符合微博意见领袖定义的用户,进入微博意见领袖影响力评估算法,分析出每个意见领袖的重要程度。以小时为单位,计算单位时间内的微博内容传播广度,设定不同等级阈值M,存在超过M值的时间段即可分析预测出消息未来走势,进而将意见领袖重要性在前10名的用户数据反馈数据库,将用户按时间顺序进行排序存储到 56北京交通大学毕业设计(论文)第页数据库交给管理平台进行结果反馈,这就是整个数据分析系统的主要流程。图3-2微博舆情管理平台数据分析系统主要流程四、微博舆情管理平台的实现4.1样本选取与数据来源网络爬虫的主要功能是搜集Internet中的各种信息。它利用网页中的超文本链接(Hyperlink)来访问网页,从一个事先制订好的URL列表开始,这个列表中的URL一般是从过去的访问记录里提取出来的,通常是一些比较流行的站点和新闻网页,利用HTTP等标准协议,通过URL从一个页面爬行到另一个页面,直到没有满足条件的新的URL产生为止。 56北京交通大学毕业设计(论文)第页4.2微博数据转化向量空间模型(VectorSpaceModel,简称VSM),其主要思想是以向量空间中的向量运算来处理文本内容,并且使用空间上的相似性来描述语义的相似性,如图4-1所示。此时,就可以通过计算向量间的相似性来度量文档间的相似性。向量空间模型主要涉及以下两方面的工作:1)构建向量表示文档、查询中的词项2)度量任意文档向量和查询向量的相似性以下则对该三方面的工作进行详细介绍。1)构建向量表示文档中的词项对于文档集中的每一个不同的词项,在向量中只记录一个分量。图4-1VSM主要思想 56北京交通大学毕业设计(论文)第页如果词项出现,则在对应向量的分量处记1;如果词项未出现,则在对应的分量处记0。经过向量化的文档,就可以在坐标系中表示,如图4-2所示。图4-2VSM文档向量化表示示例然而,二值表示的方法并没有考虑一个词项在文档中出现的次数。所以,扩展这种表示形式,将词项在文档中出现的频率作为向量中各个分量的值。在图4-2中,如果文档D2中A出现了两次,则向量表示为<2,0>。通过使用向量空间模型,文本数据被表示为计算机能够处理的结构化数据。此时,通过比较两个向量的相似性就能解决两个文档之间的相似性问题。2)度量任意文档向量和查询向量的相似性余弦距离经常被用在文本相似性比较中。余弦结果为一个0到1的数,1表示向量一致,0则表示正交,符合相似性百分比的特性。不同文档长度的归一化是通过计算向量内积与文档向量的长度的比值实现的,即前提是忽略文档向量长度的影响。假设文档向量为di=(di1,di2,⋯,dit),查询向量为Q=(wq1,wq2,⋯,wqt)。 56北京交通大学毕业设计(论文)第页余弦的计算公式:经过VSM分类的文本文档,可以看做粗略的分类,不过不够精确,所以需要后续的文本聚类的精确分类来确定所需要的微博消息。4.3微博文本聚类4.3.1文本聚类定义所谓聚类,就是一个集群的集合。聚类的目的是找到对象组,进一步目的是通过数据分析确定对数据分析有用的群体。文本聚类就是从很多文档中把一些内容相似的文档聚为一类。文本聚类的基础是著名的聚类假设:聚为一类的文本相似性较大,而聚为不同类的文本相似性较小。文本聚类是一种无监督的机器学习方法,不依赖于训练过程,并且不需要提前手动划分文本类别,因此具有一定的灵活性和较高的自动化处理能力。目前,文本聚类已经成为对文本信息进行摘要、组织和导航的重要手段,受到了越来越多的关注。一个文本表现为一个由文字和标点符号组成的字符串,由字或字符组成词,由词组成短语,进而形成句、段、节、章、篇的结构。要使计算机能够高效地处理文本,就必须找到一种理想的形式化表示方法。下面所介绍的文本聚类算法是在空间向量化模型的基础上实现的。 56北京交通大学毕业设计(论文)第页文本聚类算法有划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法。本系统使用划分法进行文本聚类。划分法:对于一个有N个记录的数据集,将构造K个分组,每一个分组属于同一个聚类,K

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭