数据分析笔试题

数据分析笔试题

ID:22291105

大小:78.50 KB

页数:9页

时间:2018-10-28

数据分析笔试题_第1页
数据分析笔试题_第2页
数据分析笔试题_第3页
数据分析笔试题_第4页
数据分析笔试题_第5页
资源描述:

《数据分析笔试题》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、从互联网巨头数据挖掘类招聘笔试题目看我们还差多少知识1从阿里数据分析师笔试看职业要求以下试题是来自阿里巴巴招募实习生的一次笔试题,从笔试题的几个要求我们一起来看看数据分析的职业要求。一、异常值是指什么?请列举1种识别连续型变量异常值的方法?异常值(Outlier)是指样本中的个别值,其数值明显偏离所属样木的其余观测值。在数理统计里-•般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。Grubbs’test(是以FrankE.Grubbs命名的),乂叫maximumnormedresidualtest,是一种用丁•单变量数据集异常值识别的

2、统计检测,它假定数据集来ft正态分布的总体。未知总体标准差0,在五种检验法中,优劣次序为:t检验法、格拉斯检验法、峰度检验法、狄克逊检验法、偏度检验法。点评:考察的内容是统计学基础功底。二、什么是聚类分析?聚类算法冇哪几种?请选择一种详细描述其计算原理和步骤。聚类分析(clusteranalysis)是一组将研究对象分为相对M质的群组(Clusters)的统计分析技术。聚突分析也叫分笑分析(classificationanalysis)或数值分类(numericaltaxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析

3、计算方法主耍育:M次的方法(hierarchicalmethod)>划分方法(partitioningmethod)、基于密度的方法(density-basedmethod)、基于网格的方法(grid-basedmethod)、基于模型的方法(model-basedmethod)等。其中,前W种算法是利用统计学定义的距离进行度量。k-means算法的工作过程说明如卜‘:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对丁所剩卜其它对象,则根掘它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再

4、计算每个所获新聚类的聚类屮心(该聚类屮所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差(标准差)作为标准测度函数.k个聚类其宥以卜特点:各聚类木身尽可能的紧凑,而各聚类之间尽可能的分开。其流程如下:(1)从n个数据对象任意选择k个对象作为初始聚类中心;(2)根据每个聚类对象的均值(屮心对象),计算每个对象与这些屮心对象的距离;并根据最小距离重新对相放对象进行划分;(3)重新计算每个(有变化)聚类的均值(中心对象);(4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。优点:本算法确定的K个划

5、分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可仲缩和高效的,计算的复杂度为O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来说,K«N,t〈<N。缺点:1.K是事先给定的,但非常难以选定;2.初始聚类屮心的选择对聚类结果有较大的影响。点评:考察的内容是常用数据分析方法,做数据分析一定耍理解数据分析算法、应用场景、使用过程、以及优缺点。三、根据要求写出SQL表A结构如下:MemberjD(用户的ID,字符型)Log.time(用户访问页而时间,H期型(只有一天的数据))URL(

6、访问的页面地址,字符型)要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A—致)createtableBasselectMemberlD,min(Logtime),URLfromAgroupbyMember_lD;点评:SQL语句,简单的数据获取能力,包括表杳询、关联、汇总、函数等。四、销售数据分析以下是一家B2C电子商务网站的一周销售数据,该网站主要用户群是办公室女性,销售额主要集中在5种产品上,如果你是这家公司的分析师,a)从数据中,你看到了什么问题?你觉得背盾的原因是什么?b)如果你的老板要求你

7、提出一个运营改进计划,你会怎么做?表如下:一组每天某网站的销售数据a)从这一周的数据可以看出,周末的销售额明敁偏低。这其中的原因,可以从两个角度来看:站在消费者的角度,周末可能不用上班,因而也没冇购买该产品的欲望;站在产品的角度来看,该产品不能在周末的时候引起消费者足够的注意力。b)针对该问题背后的两方面原因,我的运营改进计划也分两方面:一是,针对消费者周末没有购叉•欲望的心理,进行引导提醒消费者周末就应该准备好该产品;二是,通过该产品的一些类似于打折促销等活动来提升该产品在周末的人气和购买力。点评:数据解读能力,获取数据是基本功,仅仅冇数据

8、获取能力是不够的,其次是对数据的解读能力。五、用户调研某公句针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需耍你來制定一个事前试验方案

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。