资源描述:
《数据挖掘作业答案》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据挖掘作业答案第二章数据准备5.推出在[-1,1]区间上的数据的最小-最大标准化公式。解:标准化相当于按比例缩放,假如将在[minA,maxA]间的属性A的值v映射到区间[new_minA,new_maxA],根据同比关系得:(v-minA)/(v’-new_minA)=(maxA-minA)/(new_maxA-new_minA)化简得:v’=(v-minA)*(new_maxA-new_minA)/(maxA-minA)+new_minA6.已知一维数据集X={-5.0,23.0,17.6,7.23,1.11},用下述方法对其进行标准化:a)在[-1,1]区间进行小数缩放。
2、解:X’={-0.050,0.230,0.176,0.0723,0.0111}b)在[0,1]区间进行最小-最大标准化。解:X’={0,1,0.807,0.437,0.218}c)在[-1,1]区间进行最小-最大标准化。解:X’={-1,1,0.614,-0.126,0.564}d)标准差标准化。解:mean=8.788sd=11.523X’={-1.197,1.233,0.765,-0.135,-0.666}e)比较上述标准化的结果,并讨论不同技术的优缺点。解:小数缩放标准化粒度过大(以10为倍数),但计算简单;最小-最大值标准化需要搜索整个数据集确定最小最大数值,而且最小最大
3、值的专家估算可能会导致标准化值的无意识的集中。标准差标准化对距离测量非常效,但会把初始值转化成了未被认可的形式。8.已知一个带有丢失值的四维样本。X1={0,1,1,2}X2={2,1,*,1}X3={1,*,*,-1}X4={*,2,1,*}如果所有属性的定义域是[0,1,2],在丢失值被认为是“无关紧要的值”并且都被所给的定义域的所有可行值替换的情况下,“人工”样本的数量是多少?解:X1“人工”样本的数量为1X2“人工”样本的数量为3X3“人工”样本的数量为9X4“人工”样本的数量为9所以“人工”样本的数量为1×3×9×9=24310.数据库中不同病人的子女数以矢量形式给出:
4、C={3,1,0,2,7,3,6,4,-2,0,0,10,15,6}a)应用标准统计参数——均值和方差,找出C中的异常点:mean=3.9286sd=4.4153在3个标准差下的阈值:阈值=均值±3*标准差=3.928±3*4.4153=[-9.318,17.174]根据实际情况子女数不可能为负数,所以其范围可缩减为:[0,17.174]C中的异常点有:-2a)在2个标准差下的阈值:阈值=均值±2*标准差=3.928±2*4.4153=[-4.903,12.758]根据实际情况子女数不可能为负数,所以其范围可缩减为:[0,12.758]C中的异常点有:-2,1511.已知的三维样
5、本数据集X:X=[{1,2,0},{3,1,4},{2,1,5},{0,1,6},{2,4,3},{4,4,2},{5,2,1},{7,7,7},{0,0,0},{3,3,3}]。a)在下述条件下用基于距离技术找出异常点:i)距离阈值d≥4,非邻点样本的阈值部分p≥3ii)距离阈值d≥6,非邻点样本的阈值部分p≥2X1X2X3X4X5X6X7X8X9X10X14.58265.19626.16443.74174.12314.123110.48812.23613.742X21.41423.60563.31663.74177.74177.81025.09902.236X32.23613
6、.60564.69045.09908.06235.47723.0X44.69046.40317.14149.27366.08284.690X52.23604.12317.07115.38521.414X62.44956.55746.01.732X78.06235.47723.0X812.1246.928X95.196P(d≥4)P(d≥6)X162X242X351X475X541X653X773X899X983X1031d≥4,p≥3时异常点是X1,X2,X3,X4,X5,X6,X7,X8,X9,X10d≥6,p≥2时异常点是X1,X2,X4,X6,X7,X8,X9第三章数据归约
7、3.特征的值的子集为:{2.5,5.6,8.1};{7.2,3.4,4.8,6.3}{1.6,3.6,4.9};{4.3,5.8,7.2,4.8}{5.9,6.8,8.3};{2.1,1.6,3.1,2.4}Mean()=5.4;V()=7.87;Mean()=5.425;V()=2.8025Mean()=3.367;V()=2.76;Mean()=5.525;V()=1.636Mean()=7;V()=1.47;Mean()=2.3;V()=0.393SE(-)==2.820=