特征融合在微博数据挖掘中的应用研究.pdf

特征融合在微博数据挖掘中的应用研究.pdf

ID:55574667

大小:413.20 KB

页数:6页

时间:2020-05-18

特征融合在微博数据挖掘中的应用研究.pdf_第1页
特征融合在微博数据挖掘中的应用研究.pdf_第2页
特征融合在微博数据挖掘中的应用研究.pdf_第3页
特征融合在微博数据挖掘中的应用研究.pdf_第4页
特征融合在微博数据挖掘中的应用研究.pdf_第5页
资源描述:

《特征融合在微博数据挖掘中的应用研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2015年5月现代情报Mav.2015第35卷第5期JournalofModemInformationVoI.35No.5·信息资源开发与利用·特征融合在微博数据挖掘中的应用研究王和勇洪明(华南理工大学电子商务系,广东广州510006)[摘要]针对传统的微博聚类分析中,只单独针对微博阅读数、评论数等数据(下称微博结构化数据)进行分类或者单独针对由微博内容进行文本分词得到的分词数据(下称微博分词)进行分类的问题,本文采用了Kohonen聚类,研究结合微博结构化数据和微博分词的融合数据聚类的效果是否比单独对微博结构化数据或对微博分词聚

2、类有所提高。实证数据实验结果显示,微博结构化数据单独聚类会出现一个类的标准差特别大(本文称为离群类),而对融合数据聚类,微博结构化数据则不会出现离群类;融合数据聚类结果对微博分词的影响不显著。[关键词]微博;聚类;融合数据D0I:10.3969/i.iSSn.1OO8—0821.2015.05.013[中图分类号]G250.78[文献标识码]A[文章编号]1008—0821(2015)05—0068—05TheStudyofMicroblogDataMiningUsingFeatureFusionWangHeyongH0ngMin

3、g(DepartmentofE—Business,SouthChinaUniversityofTechnology,Guangzhou510006,China)[AbstracCThispaperfocusedtheproblemthattraditionalclusteringanalysishavefocusedononlystructureddatasuchasmicroblogwadingnumbersandmicroblogcommentnumbers(mieroblogsegmentation)oronlymicrob

4、logtext.Inthispaper,mi—croblogmetadataarecombinedwithmicroblogtexttoformfusiondataandKohonenNetworkClusteringisappliedtotestiffusiondataclusteringisbetterthanmicroblogmetadataclusteringandthanmicroblogtextclustering.Experimentsindicatesthatmicroblogmetadataclusteringm

5、aycauseaclasswithlargestandarddeviation(outlierclass)andonthecontrary,fusiondataclusteringdoesnot.Micmblogtextclusteringperformsaswelasfusionclustering.[Keywords]micmblog;clustering;fusiondata微博是当今流行的信息发布和交流的工具,微博蕴含文献中,马彬、洪宇、陆剑江、姚建民和朱巧明着大量的信息资源,成为数据分析的重要数据来源。微博(2012)利

6、用线索树双层聚类过滤垃圾微博,进而实现微博数据可以分为两类,一类是结构化数据,微博的用户名、话题检测(微博分词聚类)u;张国安和钟绍辉(2012)分阅读数、转播数、发表日期等微博相关的信息(下称“微析用户数据,利用K均值聚类研究微博用户分类(微博结博结构化数据”);另一类是非结构化数据即微博用户发表构化数据聚类)l2;路荣、项亮、刘明荣和杨青(2012)利微博内容的文本数据(下称“微博内容”)。用两层K均值和层次聚类的混和聚类方法对微博文本进行在微博研究中,往往需要对微博数据进行分类以发现聚类从而检测出新闻话题(微博分词聚类);潘

7、大庆某些数据问有趣的规律和模式。而从微博中收集的现实数(2012)利用层次聚类以敏感话题为单位对微博进行分类据往往没有预先定义的分类,由于微博数据庞大,无法进(微博分词聚类)[43;熊祖涛(2013)基于文本稀疏性问题,行手工分类,必须采用一些分类方法进行处理。由于微博描述了多种微博文本聚类的方法(微博分词聚类)l5;英文非结构化数据都是经过文本分词转化为结构化数据进行有文献中,YangC,DingH,YangJ等(2012)利用K一均值关分类研究,由微博内容转化成的结构化数据下文称为聚类算法发现微博中的用户社区(微博分词聚类)L

8、6J;Olar—“微博分词”。iuA.(2013)利用层次聚类对Twitter的文本进行分类从而收稿日期:2015—03—05作者简介:王和勇(1973一),男,提前上岗教授,研究方向:数据挖掘、文本挖掘和大数据挖掘。一68—第203155卷年第5

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。