欢迎来到天天文库
浏览记录
ID:34266118
大小:4.15 MB
页数:78页
时间:2019-03-04
《基于文本挖掘的“三农”问题文本分析及词同现网络分析研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校代码10530学号201510040242分类号C931密级公开硕士学位论文基于文本挖掘的“三农”问题文本分析及词同现网络分析研究学位申请人李彬指导教师付畅俭学院名称商学院学科专业管理科学与工程研究方向数据挖掘二〇一八年六月三日Researchontextanalysisandco-wordoccurrenceanalysisofThreeRuralIssuesbasedontextminingCandidateLiBinSupervisorProfessor.FuChangjianCollegeBus
2、inessSchoolProgramManagementScienceandEngineeringSpecializationDataMiningDegreeMaster’sDegreeUniversityXiangTanUniversityDateJune3rd,2018摘要在中国,政府工作报告是一种政府机构面向全体公众发布的关于自身的工作总结和将来的工作计划文体,在报告中涉及到了决策者注意力的分配、资源的配置方案以及执政能力检测等内容。所以,政府工作报告不仅仅是政府执政意志的书面体现,同时也是测量政府执
3、政水平的权威材料。随着时间的推移,不同时期的政府工作报告往往关注点和侧重点不同,故就某一个话题对政府工作报告进行研究就具备理论上和逻辑上的可行性。随着近几年文本挖掘技术下的信息爬取、文本统计分析技术的不断丰富,越来越多的学科领域逐渐开始应用文本挖掘技术从事应用研究。本文的理论基础主要来源于文本挖掘和复杂网络理论,我们使用到的语料库有来自主动收集的历年国务院和省级地方政府发布的年度工作报告,在数据分析与处理的过程中主要运用到了自然语言处理和概率统计知识。本文对政府工作报告的文本统计分析能够帮助用户快速获取领域
4、相关知识,构建词同现网络获取话题的演进趋势,采用统计学方法和数据可视化手段辅助挖掘隐藏在文本背后的知识。研究表明:在对50年国务院政府工作报告进行词同现网络分析后,结合生物学领域共生网络知识,得到模块化系数、紧密中心度和主题词关系图谱以及主题词关系子图谱,我们发现中国的“三农”问题的组成部分之间存在非对称互惠共生的模式,即三个话题之间的资源分配是有偏的,并且“三农”问题的主体应该落实到农民主体上来。然后我们再对政府工作报告文本进行中文分词、去除噪声以及关键词统计等数据处理后,首先我们发现1998年是政府工作
5、报告篇幅的分水岭,之后的报告篇幅逐渐趋于稳定,政府工作报告的篇幅可以反映对应时间段的政治、经济形势;经过对五个时间阶段关键词统计分析后,我们发现不同时间阶段中央政府注意力的转移路径:意识形态斗争、发展建设、经济改革。最后是以四大经济区域为划分依据,本文对近11年四个经济区域分别进行文本统计和词同现网络分析,并对比同年的政府工作报告,我们发现一个地区政府工作报告的平均篇幅能够为快速了解该地区经济发展水平状况提供参考;通过划分集群、建立集群词库、统计分析词群关键词分布能够为快速了解和比较不同实体提供借鉴意义,并
6、为决策者提供决策辅助。关键词:文本挖掘;复杂网络;词同现;“三农”问题;政府工作报告IAbstractInChina,thereportofgovernmentworkisaliteralstyleofgovernmentagencies'worksummaryandfutureworkplanissuedtothewholepublic.Inthereport,itinvolvesthedistributionoftheattentionofthedecision-makers,theallocation
7、ofresourcesandthetestingoftheabilitytogovern.Therefore,thegovernmentworkreportisnotonlyawrittenexpressionofthegovernment'swill,butalsoanauthoritativematerialtomeasurethelevelofgovernment'sgovernance.Withthepassageoftime,theemphasisandconcernedofgovernmentw
8、orkreportsindifferentperiodsarediverse.Therefore,itistheoreticallyandlogicallyfeasibletostudythereportofgovernmentworkonaspecifiedtopic.Withthecontinuousenrichmentofinformationcrawlingandtextstatisticsanalysi
此文档下载收益归作者所有