欢迎来到天天文库
浏览记录
ID:7276401
大小:33.00 KB
页数:3页
时间:2018-02-10
《卡方的改进与应用(1)》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、卡方的改进与应用1、考虑蛋白质互作问题二分类,一个样本对A,B;特征x1,x2特征提取方法:原始频次1(20字符,三联体,8000个特征),原始频次2(7字符,三联体,7*7*7个特征);对原始频次经蛋白质残基长度矫正;对原始频次经10000次打乱矫正;对原始频次的扣除背景矫正等。优先考虑原始频次2的残基长度矫正和10000次打乱矫正。数据划分:训练集约等比例2/3,独立测试集约等比例1/3。注意训练集中再随机等比例选择约3000个为valid集。Valid集是训练集的一个子集,不单独从训练集中划分出来。这样在计算训练集L
2、OOCV(其实此处不是严格的LOOCV)精度时,卡方表不需要重新统计计数(速度加快)。而是将Valid集中的每一个样本作为测试样本。也因此,卡方表和卡方值要以元胞形式保存起来。特征选择:在综合评价阶段,一个样本对A(Ax1,Ax2)、B(Bx1,Bx2)可看做平面上的两个点。为了避免A与B排列顺序的问题,转用以下两个与排列顺序无关的参数:直线形状和长度。直线形状:S=(Ax1-Bx1)(Ax2-Bx2),如果S>0,形状为向上;如果S<0,形状为向下。如果等于0,计数时分长度各半。直线长度:计算所有训练集的长度平均值。长度
3、是两点间的欧式距离。每个样本对的欧式距离分两种情形,d>和d<。如果d=,计数时分形状各半。总结:总共有4种情形。(S>0且d>),(S>0且d<),(S<0且d>),(S<0且d<)。由此得到2*4列联表。计算卡方值(不矫正)。注意卡方值和卡方表都要以元胞形式保存。一个下三角或上三角的元胞矩阵。在综合评价时,同样要考虑两种情形:带权重和不带权重。逐个引入:三个特征不能直接排列组合为一个2*c卡方表,而是3个2*4卡方表的卡方值求和。除非,我们能仅选择少量特征,否则2*c卡方表的c值将使我们不能承受。改用分拆的卡方表,前述
4、保存的元胞矩阵将大幅度降低计算量。去冗余:当一个新特征引入但valid预测精度下降,新特征视为冗余。当精度相同时,采用第二标准。注意:无论是预测valid集还是独立测试集,我们的元胞矩阵都是相同的。对前述多种组合情形(包括特征提取方法、带权重与否),选定一个valid预测精度最高的组合。对最优组合,进一步实施负样本去伪。因为负样本中可能有错的。以留一法对负样本逐个检验(顺序随机),凡判错的负样本将剔除。最后用保留特征,负样本去伪后的训练集(全部正样本,去伪后的负样本)实施独立测试集预测。1、基因芯片表达数据同上,这时,(G
5、1明显大于G2,G1大于G2但不明显,G1明显小于G2,G1小于G2但不明显)四种情形,构成的r*4列联表与PPI的情形是等价的。实质也是在考虑x轴上的一条有向线段的方向和长度。3、DNA甲基化二分类,位点A(M1,U1),位点B(M2,U2)。两种思路:一是形成2*12列联表;二是同PPI,考虑形状和长度,构建2*4列联表。4、GWASSNP二分类,每个SNP有三种编码0,1,2。两两组合,有(0,0;0,1;0,2;1,0;1,1;1,2;2.0;2,1;2,2)9种情形。构建2*9列联表。
此文档下载收益归作者所有