欢迎来到天天文库
浏览记录
ID:35519983
大小:337.50 KB
页数:5页
时间:2019-03-25
《信息资源管理共词分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、我国近年来铁路的发展方向——基于共词分析1.实验内容改革开放以来,中国铁路发展取得了巨大成就。2005年中国内地铁路营业里程已经达到7.5万公里,其中复线里程2.5万公里,电气化线路2万公里。随着青藏铁路于2005年10月全线建成,今年7月通车运营,铁路将覆盖全国所有省市自治区。2007年4月18日,中国第六次铁路大提速正式展开,CRH1、CRH2、CRH5动车组大规模上线运行,列车运行时速达200km/h。选择网络数据总库近一段时间,随着李克强总理出访各国,向各国推荐高铁,中国铁路受到世界瞩目。本次实验具体内容包括:(1)文献资源检索。(
2、2)文献处理。(3)文献挖掘。(4)分析我国近年来天路发展方向。(5)总结本实验研究、分析优缺点。2.文献获取与数据收集本实验采用中国学术期刊网(CNKI)全文数据库并选择网络数据总库,时间是2008—2015年,指定来源为核心刊物,指定主题为“中国铁路发展”,共搜索到500篇文献信息,搜索过程如图1所示。图1将搜索到的文献数据以自定义的方式,选择“来源库”、“关键词”、“年”、“提名”、“摘要”、“作者”、“发表时间”、“单位”ISSN项目输出,并导出Excel,以便后续处理。原始数据如图2所示。图23.数据处理1)文献数据初步处理经初步
3、筛选,见关键词缺乏、无作者、摘要内容无关、新闻报告以及其它在《萌芽》等杂志把标的文章全部剔除,并提出摘要,最终剩余359篇主要文献数据,再将数据进行合并汇总,最终汇总如图3所示。图32)关键词处理(1)关键词结构。运用Excel的数据分析功能——分列,见关键词进一步处理,处理结果如图4所示。图4(2)关键词筛选。利用Excel的统计功能将所有关键词进行词频统计,获得原始关键词2396个。选择词频不低于7的关键词,筛选出34个关键词作为高频词。其中,关键词“中国铁路发展”词频170次,为最高频次。但鉴于“中国铁路发展”与本研究内容完全重合,在
4、共此分析中难以发挥作用,予以舍弃。关键词太多,工作量太大,因此得到高频关键词19个,如表1所示。序号关键词词频序号关键词词频1中国铁路发展17011铁道部部长132铁路4612高速铁路建设133铁路运输3313动车组列车134铁路建设2914营业里程125运输能力2715高速铁路126铁路干线1716部长刘志军117客运专线建设1517中国铁路108世界铁路1418铁路跨越式发展109客运专线1419改革1010铁路营业里程13表1(3)关键词共词矩阵由于表1中的这些关键词是有关中国铁路发展文献中出现频次较高的词,它们从较大程度上能代表中国
5、当前中国铁路发展的研究热点。为了进一步了解这些词之间的联系,在建立的数据库中对表1中的高频关键词进行两两共词检索,统计它们在359篇文章中同时出现的频率,建立一个19*19的关键词矩阵。部分共词矩阵数据如图5所示。共词矩阵位对称矩阵,主对角线的数据定义为缺失,非主对角线中单元格的数据为两个关键词共同出现的次数。图5(4)关键词相似矩阵由于将要运用的多元统计方法对矩阵的数据结构有不同的要求,为了统计分析的方便,也为了消除频次悬殊造成的影响,将相关矩阵转化为相似矩阵。共词矩阵转化为相似矩阵的具体方法是用Ochiia系数转化成相似矩阵,即将共词矩
6、阵中的每个数字都除以与之相关的量的关键词总频次开房的成绩。此时对角线上的数据表示该词自身的相似程度,经计算均为1,。利用公式进行计算,得到的部分相似矩阵如图6所示。图6相似距震中的数字表明其对应两个关键词之际,数值越大表明关键词之间的距离越近,相似度越好;反之,数值越小表明关键词之间的距离越远,相似度越差。(5)关键词相异矩阵由于相思局真的0值过多,统计时容易造成误差过大,为了方便进一步处理,用1与全部相似矩阵中的数据相减,得到表示两词间相依程度的相异矩阵,如图7所示。相异矩阵中的数据表示不相似数据,数值越大表明关键词之间的距离越远,相似度
7、越差;反之,数值越小表明关键词之间的距离越近,相似度越高。图7
此文档下载收益归作者所有