数据分析面试题1

数据分析面试题1

ID:41388485

大小:776.16 KB

页数:36页

时间:2019-08-23

数据分析面试题1_第1页
数据分析面试题1_第2页
数据分析面试题1_第3页
数据分析面试题1_第4页
数据分析面试题1_第5页
资源描述:

《数据分析面试题1》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、DC共享平台——数据分析岗笔试面试题本材料是由DataCastle从谷歌、微软、facebook、百度等企业的网络公开招聘题中进行精选,并附上详细解析,适合应聘数据分析岗位的求职者,未经同意不得转载,请联系zhengchengzhuang@datacastle.cn提前沟通,未经授权的转载会联系法务进行处理。1.一般,K-NN最近邻方法在()的情况下效果较好A.样本较多但典型性不好B.样本较少但典型性好C.样本呈团状分布D.样本呈链状分布答案:B解析:样本呈团状颇有迷惑性,这里应该指的是整个样本都是呈团状分布,这样kNN就发挥不出其求近邻的优势了,整体样本应该具有典型性好,样本较少,比较

2、适宜。2.一个包里有5个黑球,10个红球和17个白球。每次可以从中取两个球出来,放置在外面。那么至少取________次以后,一定出现过取出一对颜色一样的球。A.16B.9C.4D.1答案:A解析:考虑最坏的情况,前10次取出的都是红球+白球的组合,后5次取出的都是黑球+白球的组合,最后只剩下两个白球,则再取1次必取出相同颜色的球,因此总计16次。3.用直接插入排序方法对下面4个序列进行排序(由小到大),元素比较次数最少的是()A.94,32,40,90,80,46,21,69B.32,40,21,46,69,94,90,80C.21,32,46,40,80,69,90,94D.90,6

3、9,80,46,21,32,94,40答案:C解析:插入排序的原理是将第i个数插入到已经排列好的数据中,因此原序列越有序,比较次数越少4.下面有关分类算法的准确率,召回率,F1值的描述,错误的是?A.准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率B.召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率C.正确率、召回率和F值取值都在0和1之间,数值越接近0,查准率或查全率就越高D.为了解决准确率和召回率冲突问题,引入了F1分数答案:C解析:对于二类分类问题常用的评价指标是精准度(precision)与召回率(recall)。通

4、常以关注的类为正类,其他类为负类,分类器在测试数据集上的预测或正确或不正确,4种情况出现的总数分别记作:TP——将正类预测为正类数FN——将正类预测为负类数FP——将负类预测为正类数TN——将负类预测为负类数由此:精准率定义为:P=TP/(TP+FP)召回率定义为:R=TP/(TP+FN)F1值定义为:F1=2PR/(P+R)精准率和召回率和F1取值都在0和1之间,精准率和召回率高,F1值也会高,不存在数值越接近0越高的说法,应该是数值越接近1越高。5.NaiveBayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:()A.各类别的先验概率P(C)是相等的2

5、B.以0为均值,为标准差的正态分布2C.特征变量之间是相互独立的D.P(X

6、C)是高斯分布答案:C解析:朴素贝叶斯的条件就在于假设每个变量相互独立6.下列不是SVM核函数的是:A.多项式核函数B.logistic核函数C.径向基核函数D.Sigmoid核函数答案:B解析:SVM核函数包括线性核函数、多项式核函数、径向基核函数、高斯核函数、幂指数核函数、拉普拉斯核函数、ANOVA核函数、二次有理核函数、多元二次核函数、逆多元二次核函数以及Sigmoid核函数7.(多选)数据清理中,处理缺失值的方法是?A.估算B.整例删除C.变量删除D.成对删除答案:A,B,C,D解析:数据清理中,处理缺失

7、值的方法有两种:删除法:1)删除观察样本2)删除变量:当某个变量缺失值较多且对研究目标影响不大时,可以将整个变量整体删除3)使用完整原始数据分析:当数据存在较多缺失而其原始数据完整时,可以使用原始数据替代现有数据进行分析4)改变权重:当删除缺失数据会改变数据结构时,通过对完整数据按照不同的权重进行加权,可以降低删除缺失数据带来的偏差查补法:均值插补、回归插补、抽样填补等成对删除与改变权重为一类估算与查补法为一类8.在LogisticRegression中,如果同时加入L1和L2范数,会产生什么效果()A.可以做特征选择,并在一定程度上防止过拟合B.能解决维度灾难问题C.能加快计算速度D.

8、可以获得更准确的结果答案:A解析:L1范数具有系数解的特性,但是要注意的是,L1没有选到的特征不代表不重要,原因是两个高相关性的特征可能只保留一个。需要通过交叉验证,确定哪个特征重要。为什么L1,L2范数可以防止过拟合呢?在代价函数后面加上正则项,L1即是Lasso回归,L2是岭回归但是它为什么能防止过拟合呢?奥卡姆剃刀原理:能很好的拟合数据且模型简单模型参数在更新时,正则项可使参数的绝对值趋于0,使得部分参数为0,降低了模型的复杂

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。