资源描述:
《基于贝叶斯方法的高考成绩类别预测》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第8卷第2期太原师范学院学报(自然科学版)Vol.8No.22009年6月JOURNALOFTAIYUANNORMALUNIVERSITY(NaturalScienceEdition)Jun.20093基于贝叶斯方法的高考成绩类别预测张琼(华南理工大学理学院,广东广州510640)〔摘要〕贝叶斯分类方法不同于其他统计分类方法,它不仅利用了数据信息,而且充分利用了样品的先验信息.利用贝叶斯网络分类原理,并借助clementine12.0这一软件,对某高中的新生三年后的高考成绩类别进行预测,有利于改善学校的招生政策.〔关键词〕贝叶斯分类;TAN分类器;条件概率〔文
2、章编号〕167222027(2009)0220041203〔中图分类号〕O212〔文献标识码〕A学生的中考成绩往往是各高中招生的唯一指标,只要成绩达到中学的录取分数线就会被录取.然而这一录取方式存在着许多缺陷和问题,例如,甲学生和乙学生中考成绩相差不多,但甲物理、数学成绩高,且是应届学生,乙各科成绩一般,是往届学生.那么这两个学生究竟哪个比较优秀,哪个学生会在三年的高考中发挥出色?贝叶斯分类是统计学分类方法,它可以通过给定的训练样本集预测未知样本的类别.本文根据贝叶斯网络分类来预测某中学所要录取的学生三年后的高考状况.1贝叶斯分类器模型1.1贝叶斯分类定理及分
3、类方法贝叶斯分类是统计学分类方法.它们可以预测类成员关系的可能性,如给定样本属于一人特定类的概率.分类算法的比较研究发现,贝叶斯分类算法可以与判定树和神经网络分类算法相媲美.用于大型数据库,贝叶斯分类也已表现出高准确率和高速度.贝叶斯分类器是基于贝叶斯定理的.设X是类标号未知的数据样本,设H为某种假定,如数据样本X属于某特定的类C.对于分类问题,我们要确定P(H
4、X),即给定观测数据样本X,假定H成立的概率,P(H
5、X)是后验概率,或条件X下H的后验概率.P(X)、P(H)、P(H
6、X)都可以由给定的数据计算,贝叶斯定理是:[1]P(H
7、X)=P(X
8、H)P(
9、H)P(X).1.2朴素贝叶斯分类模型朴素贝叶斯分类假定一个属性值对给定分类的影响独立于其他属性的值.简单的朴素贝叶斯分类模型(NBC)如图1所示.图1朴素贝叶斯分类模型Fig.1StructureofanaiveBayesmodel3收稿日期:2009201216作者简介:张琼(19852),女,山西霍州人,华南理工大学在读硕士研究生,主要从事数理统计及其应用研究.42太原师范学院学报(自然科学版)第8卷C表示类别变量,A表示属性变量,假定有m个属性变量,分别为A1,A2,⋯,Am.假定有n个类,那么C的值域为{c1,c2,⋯,cn}.其中朴素贝叶斯分类的工
10、作过程如下:1)每个数据样本用一个m维特征向量X={X1,X2,⋯,Xm}表示,分别描述对m个属性A1,A2,⋯,Am样本的m度量.2)给定一个未知的数据样本x,分类法将预测X属于具有最高后验概率(条件X下)的类.也就是说,朴素贝叶斯分类将未知的样本分配给类ci,当且仅当P(ci
11、x)>P(cj
12、x),1≤j≤m,j≠i根据贝叶斯定理,可得P(X
13、cj)P(cj)P(cj
14、X)=.P(x)3)由于P(X)对于所有类为常数,只需要P(x
15、cj)P(cj)最大即可.4)给定具有许多属性的数据集,P(x
16、cj)的计算量可能非常大.给定样本的类标号,假定属性值相互条件
17、独立,即A1,A2,⋯,Am独立,那么mP(x
18、ci)=∏P(xk
19、ci)k=1概率P(x1
20、ci),P(x2
21、ci),⋯,P(xm
22、ci)可以由训练样本估值.5)若对未知样本x分类,对每个类计算P(x
23、ci)P(ci).[2]当P(X
24、ci)P(ci)≥P(X
25、cj)P(cj),1≤j≤m,j≠i,样本X被指派到类ci.1.3贝叶斯TAN分类器模型TAN分类器是朴素贝叶斯分类器的一种改进模型,它放松朴素贝叶斯分类器中的独立性假设条件,即其属性间存在相互依赖关系.往往数学成绩好的物理成绩也比较高,这就属于贝叶斯TAN分类器,下面我们就利用贝叶斯TAN分类器来对
26、学生的高考成绩类别进行预测.2利用数据建立贝叶斯分类模型现有某一高中学生的入学资料,包括姓名,性别,年龄,考生类别(应往届),毕业学校,中考成绩(数学,语文,英语,物理,化学,政治,体育,总分),还有其高考成绩.我们可以把高考成绩分为三类(未达线0,达一本线1,达二本线2).由于姓名,毕业学校,年龄对高考成绩几乎没有影响,所以不考虑这三个属性.我们设置十个变量,其中属性变量分别是性别,考生类别、数学、语文、英语、物理、化学、政治、体育,类别变量是高考成绩类别(未达线0,达一本线1,达二本线2).[3]原始数据是excel格式,在clementine12.0中添
27、加excel源节点,把类别变量设置为输