数据挖掘领域研究现状与趋势的可视化分析

数据挖掘领域研究现状与趋势的可视化分析

ID:46449463

大小:88.50 KB

页数:8页

时间:2019-11-23

数据挖掘领域研究现状与趋势的可视化分析_第1页
数据挖掘领域研究现状与趋势的可视化分析_第2页
数据挖掘领域研究现状与趋势的可视化分析_第3页
数据挖掘领域研究现状与趋势的可视化分析_第4页
数据挖掘领域研究现状与趋势的可视化分析_第5页
资源描述:

《数据挖掘领域研究现状与趋势的可视化分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、数据挖掘领域研究现状与趋势的可视化分析杨良斌国际关系学院信息科技学院摘要:数据挖掘技术已成为计算机领域的一个新的研究热点,其应用也渗透到了其他各大领域。以2004-2013年SCI数据库中收录的2263篇以“数据挖掘”为主题的文献为研究对象,使用可视化软件CiteSpace绘制关键词共现图谱、期刊共引图谱、机构合作图谱等科学知识图谱,分析数据挖掘领域的热点以及发展趋势。分析结果表明,2004-2013年数据挖掘领域研究处于稳步发展时期。最后获得该领域各研究方向的现状和演化趋势。关键词:数据挖掘;知识图谱;信息可视化;共现分析;作者简介:杨良斌,国际关系学院

2、信息科技学院副主任,副教授,E-mail:yangliangbin@tsinghua.org.cno1引言互联网技术的出现和发展带给了人们太多的便利,在网上互换信息和合作变得越来越容易,计算机不断地提高对各种类数据和信息的收集存储和处理能力,数据库技术的成熟和普及带来的结果是所积累的信息量以指数方式暴涨11丄。伴随着急剧增长的数据量和对数据处理方面的各种需求的增加,传统的数据分析工具已经不能承载对那些海量数据的操作处理了,人们需要一个将广博的数据转换成知识的技术,数据挖掘(datamining)便在这个背景下应运而牛。数据挖掘有多种定义,其中比较有代表性的

3、一个即是“从数据中汲取出包含着的过往不被知道的有利用价值的潜在信息”。作为近年来新兴起的学科,数据挖掘在学术界赢得了极高的关注度,在产业界赢得了赞誉。早先的数据挖掘领域经历了电子邮件阶段和信息发布阶段,而如今这项技术已步入电子商务阶段并逐步走向当下最新的全程电子商务阶段,其应用横跨各个领域并为不同领域提供联系与数据支持的基础。在新世纪信息产业与网络互联持续发展、数据激增的背景下,数据挖掘领域一直不断融入新的知识和技术方法,并不断以多角度多元化发展,其学科框架已遍及多个领域。数据挖掘相关技术如今已被各大领域大力应用,如生物学研究中用数据挖掘技术对DNA进行分

4、析図;市场中可以利用数据挖掘技术对顾客的购买行为模式进行识别和区分,并能对商业上频繁出现的诈骗行为予以防备[3-4]。数据挖掘的多学科化使学术界和产业界的研究人员们面临诸多挑战,因此探究数据挖掘领域的研究热点和发展趋势对于把握该领域的研究现状和发展方向具有重要意义和参考价值[5-6]o本文所使用的研究方法为信息可视化研究法,目前常用的科学知识图谱主要有共词分析、共引分析、多元统计分析、词频分析和社会网络分析。其分析的数据单元涵盖作者、关键词、标题、引文、摘要和作者地址等,通常采用Ucinet.CiteSpace>VOSviewer等可视化分析软件来绘制。本

5、文所选用的CiteSpace软件,是由美国德雷克赛尔大学信息科学与技术学院的陈超美教授于2004年开发的信息可视化软件,该软件近年来在信息可视化分析领域有着不小的影响力,其关键节点测量、时间年轮等特色功能可以方便研究者们对某个领域当前的热点与发展趋势进行研究虫。许多学者利用该软件研究了战略管理领域的智力结构,绘制了共引图谱,并可视化科学知识的结构、关系与演化过程[8-10]。本文依据来自SCI数据库的数据挖掘领域相关文献,绘制关键词共现图谱、期刊共引图谱、国家及机构合作图谱和时区视图这4种类型的科学知识图谱,进行可视化分析并探讨数据挖掘领域研究趋势和热点,

6、以便于这一领域的相关研究人员们对数据挖掘研究的现状从总体上有一个大致的了解,并且对其今后的进一步研究有所引导和帮助,从而促进数据挖掘领域研究的深入发展。2数据来源与整理本文选取的文献数据来源于美国《科学引文索引》数据库,以2004-2013年共10年为时间跨度,以“datamining"为主题词进行检索,得到包括作者、标题、参考文献等项的2263条文献记录,被引频次总计18727次,去除自引的被引频次总计17612次,施引文献15701篇,去除自引的施引文献15072篇,每项题录平均引用次数为8.28次,检索时间为2014年5月3日。统计得到2004-20

7、13年数据挖掘领域每年岀版文献量及论文被引情况分布图(见图1、图2)o从图中可以明显看到,数据挖掘领域的相关研究近10年来一直保持较高热度,每年的文献岀版量都保持在200篇以上,口于2012、2013年分别突破250篇;文献被引频次逐年增加,2013年更是达到了近3500次,说明数据挖掘在近一两年的影响力逐步攀升,甚至在计算机等相关领域的用途越来越广,作用越来越不能被忽视。也许,真正属于数据挖掘技术的时代才刚刚开始。图12004-2013年数据挖掘领域论文发表数量的年度分布下载原图图22004-2013年数据挖掘领域论文被引频次的年度分布下载原图3各图谱的

8、生成及分析3.1关键词共现图谱共现指的是文献当中相同或不同特征项共

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。