欢迎来到天天文库
浏览记录
ID:39448134
大小:1.65 MB
页数:39页
时间:2019-07-03
《数据分析与软件应用第一讲数据分析概述》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据分析与处理王明芳南京农业大学工学院2021/10/72主要内容Who?When?How?What?数据分析与处理Why?2021/10/73开场白为什么要学这门课?看几个例子个人:这一个月的钱都花到哪里去了?(谁动了我的钱?)集体:一个公司的利润是从哪里得来的?某支股票的波动受到了哪些影响?国家:08年奥运会能带给我们什么?2010年上海世博会……2021/10/74数学建模的例子大学生数学建模艾滋病疗法的评价及疗效的预测同时服用3种药物(zidovudine,lamivudine,indinavir)的300
2、多名病人每隔几周测试的CD4和HIV的浓度。第1列是病人编号,第2列是测试CD4的时刻(周),第3列是测得的CD4(乘以0.2个/ml),第4列是测试HIV的时刻(周),第5列是测得的HIV(单位不详)。PtIDCD4DateCD4CountRNADateVLoad23424017805.523424422843.923424812684.723424251712542342440994052342501405.32342546242.423425911093.72342523122232.62021/10/75研
3、究生数学建模的例子2008-第五届全国研究生数学建模竞赛试题A题:汶川地震唐家山堰塞湖泄洪问题B题:城市道路交通信号实时控制问题C题:货运列车的编组调度问题D题:中央空调系统节能设计问题2021/10/76工欲善其事,必先厉其器教学目的:通过本课程的学习,让学生会应用多种统计分析方法进行数据分析,通过和不同的学科知识相结合,对所考虑具体问题给出合理的推断。2021/10/77这门课都讲什么?问题一信息、数据、知识的差别是什么?2021/10/78课程内容第一讲数据分析概论第二讲SPSS统计软件基本操作第三讲数据文件
4、整理第四讲统计分析概述第五讲均值比较分析2021/10/79第六讲方差分析第七讲数据相关分析第八讲时间序列分析第九讲多变量分析2021/10/710课程相关资料书籍:应用多元统计分析朱建平科学出版社应用统计葛新泉社会科学出版社基于spss的数据分析薛薇中国人民大学出版统计学实验冯力东北财大出版2021/10/711相关软件SpssExcel开始实干!2021/10/712社会研究的四个阶段准备阶段调查阶段总结阶段研究阶段资料分析定性分析定量分析社会统计分析与SPSS应用第一步,数据从哪里来?2021/10/714获
5、取数据初步知识介绍获取数据的原则:及时原则准确原则全面原则适用原则经济原则2021/10/715获取数据的步骤1.分析问题2.确定属性变量3.数据的缺失处理4.数据属性变量的初步筛选2021/10/716获取数据的手段网络查询年鉴实验数据问卷调查2021/10/717收集资料资料量化统计分析资料量化与统计分析资料量化工作流程图分类编码录入数据清理一、分类1.确定分类标志(变量)2.分类原则(1)互斥性原则企业按所有制性质划分:国有集体私营外资合资三资企业一、分类1.确定分类变量2.分类原则(2)完备性原则按文化程度
6、分类小学及以下初中高中大学及以上1.编码原则第一,不重。第二,不漏。第三,对于无回答和不适用也应给予编码。2.具体方法:填空题、单选题和多选题二、编码5.您的文化程度是:(1)小学及以下(2)初中(3)高中或中专(4)大专(5)本科及以上6.您的年龄:____周岁6.您个人拥有下列哪些物品(可选多项)?(1)个人电脑(2)手机(3)呼机(4)相机(5)收录机(500元以上)(6)首饰珠宝(500元以上)(7)名牌服装鞋帽(500元以上)(8)名牌自行车(500元以上)7.您业余时间主要从事哪些活动:(依经常程度选择
7、三项)(1)看书籍报刊□(2)看电视□(3)再学习□(4)做家务(5)逛街、购物(6)聊天(7)休闲健身(8)其他______3.制作编码手册二、编码三、录入1.使用编码表(codesheet)No.Q1Q2Q3Q4≈Q22Q23Q24111153≈217221344≈216322000≈210422745≈217511954≈246631153≈24672952≈216例编码表三、录入1.使用编码表(codesheet)2.直接输入数据3.在调查的同时输入资料4.使用光学扫描仪四、数据清理1.编码幅度检查四、数据
8、清理2.列联式检查第二步,资料分析?2021/10/734数据预处理初步知识介绍数据清洗数据集成数据转换数据消减噪声数据是指数据中存在着错误、或异常(偏离期望值)的数据;不完整数据是指感兴趣的属性没有值;不一致数据则是指数据内涵出现不一致情况(如:作为关键字的同一部门编码出现不同值)。数据清洗是指消除数据中所存在的噪声以及纠正其不一致的错误;数据集成是指将来
此文档下载收益归作者所有