《股票权证基于分类模型的升跌趋势预测》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
中山大学硕士学位论文股票权证基于分类模型的升跌趋势预测姓名:苏醒侨申请学位级别:硕士专业:应用数学指导教师:张磊;姚正安20060428
1股票权证基于分类模型的升跌趋势预测专业:应用数学硕士生:苏醒侨指导教师:张磊副教授,姚正安教授摘要股票权证(以股票为标的物的权证)作为金融衍生物的一种,传统的分析预测方式是基于数量经济学上的布莱克.斯科尔斯(B1ack—Scho1es)(1973)期权定价公式构造预测模型.但该定价公式不符合我国资本市场的实际情况:我国的证券市场没有卖空机制,该公式的前提假设条件不能满足,故强制性的将Black-Scholes期权定价公式应用于我国的权证预测,效果往往差强人意.本而监据挖掘的方法,在对股票权证的真实历史交易信息进行聚类处理的基础上,应用相关的分类学习算法,最终建立权证波动趋势(升,跌)的预测模型.用真实的股票权证交易历史数据对该模型进行检测,预测效果令人满意.本文的主要工作主要包括两个部分:首先是针对原权证交易历史数据各列属性为连续值的情况,本文利用聚类算法SOM(自组织映射算法),对各属性列分别聚类,很好将连续值转换为状态值,而且这样的聚类处理减少了连续值离散化过程中的信息损失.权证波动趋势(升,跌)的预测作为一个分类问题,本文选用了NaiveBayeMode1+AdaBoostAlgorithm方法构造分类器.其中NaiveBayesianMode1(朴素贝叶斯模型)作为弱分类器,应用AdaB。。st算法来训练加强,以构造强分类器.最终构造的强分类器对股票权证的波动趋势(升,跌)预测效果令人满意.关键词:权证,自组织映射算法,朴素贝叶斯分类器,AdaBoost学习算法Forecastingstockwarrantprice^risingorfa11ingwithclassificationmodelMajor:App1iedMathematicsName:SuXingqiaoSupervisor:ZhangLei,YaoZheng,an
2Asafinancialderivative,stockwarrantisawrittencertificatethatgivestheholdertherighttopurchasesharesofastockforaspecifiedpricewithinaspecifiedperiodoftime.MostofClassicalModelsandtechniquesforwarrantprice'Sana1ysisandpredictionarerootedintheoptionpricingmodeldevelopedbyFischerBlackandMyronScholesinl973.Unfortunately,suchmode1isnotsatisfiedwiththeactualfactofthecapita1marketinourcountry:intheconditionoflackingshortsdfingmechanisminoursecuritiesmarket*thepreconditionoftheBlack&Scho1esMode1cou1dn,tbesatisfied.Forthisreason,,suchsolutioncouldn'treachapreciseresu1tinourwarrantprice'Sprediction.Thispaperappfiedsomea1gorithmsindataminingtobui1dthemodalforstockwarrantprice'SrisingorMiringprediction.Wefirstemployedaclusteringa1gorithmforthepre-processingoftherea1stockwarrants'historica1exchangedata.Andthen,weusedsomeclassificationmodelsindataminingtoconstructthefinalprcdictionmode1.Themode1promotedinthispaperwastes,.tedb.ys,ome,reaLstockwarrants'-historicalexcnangedata,anaitsnoweaagooaiorecastingabifitythroughthetestingprocess.Keywords:Stockwarrant,SOMa1gorithm,NaiveBayesianMod乩AdaBoost第一章引言本章首先介绍本文的研究背景,然后进一步阐述本文的研究范围及研究意义,最后介绍本文的主要内容及其体系架构.1.1背景介绍权证是国际证券市场上的一种最初级的金融衍生物,它是由发行人发行的,能够按照特定价格在特定时间内购买或卖出一定数量的标的证券的选择权凭证.标的证券可以是股票,基金,债券,一篮子股票,货币等投资品种.以股票为标的证券的权证简称为股票权证.股票权证本质上是一种股票期权,它反映了权证发行人与持有人之间的一种契约关系,持有人以一定代价(交付权利金)从发行人那里获取一个权利,即持有人可以在未来某一日期或特定期间内,以约定好的价格向权证发行人购买或出售一定数量的资产.在权证的存续期间,权证持有人可以在证券交易市场转售权证.而根据权证具体的供求关系和投资价值,权证的价格不断波动.权证持有人获得的是一种权利,而不是责任,当履约行权对持有人不利时,持有人可以取消行权(放弃权利).是否行权完全取决于权证的持有人,权证持有人决定是否使用权证赋予的权利的主要根据是“未来某个时刻”交易标的物的市场价格.
3按照履约行权的期限可以把权证分为美式权证,欧式权证及百慕大权证.美式权证的持有人在权证到期日前的任何交易时间均可行使其权利,而欧式权证持有人只可以在权证到期FI当天行使其权利.美式权证虽然较为灵活和方便,但相应的权利金是十分高昂的,而欧式期权的权利金较低.百慕大权证是行权方式介于欧式权证和美式权证之间的权证,权证可以在事先指定的存续期内的若干个交易日行权.目前国际上大部分的权证交易都是欧式权证.我国现行的股票权证交易也以欧式权证为主.根据权利的行使方向,权证又可以分为认股权证(认购权证)和认沽权证,认购权证持有人有权按照约定价格在特定期限内或到期H向发行人买入标的证券,认沽权证持有人则有权按约定价格在特定期限或到期日向发行人卖出标的证券.我国股票权证市场的发展比较曲折:1992年6月,大飞乐配股权证作为我国第一个权证产品在沪市推出,此后相继有十几种权证在沪深证券交易所上市交易.但是到了1996年年底,管理层出于“抑制过度投机”的原因,取消了所有的权证交易.直至2005年6月14日,上海交易所制定《上海证券交易所权证业务管理暂行办法》,在被叫停九年之后,权证交易在国内证券市场重新启动.2005年8月22日,宝钢权证作为证券市场恢复权证交易的第一个权证产品终于面世.其后多个权证产品陆续推出:武钢权证,鞍钢权证,万科权证,白云机场权证……本文主要讨论的对象是欧式股票权证.其中相关实验所用的权证交易数据是来自宝钢权证,万科权证和武钢权证,这三个权证产品简介如下:宝钢JTB1580000基本概况:发行人:宝钢集团有限公司上市地点:上海证券交易所标的证券:G宝钢600019权证类型:认购权证行权代码:582000行权简称:ES060830发行数量:38770万份权证余额:38770万份(截止2005.12.8)行权方式:欧式行权价格:4.50行权比例:1结算方式:实物上市日期:2005年8月22日存续期间:2005年8月18H——2006年8月30H行权期问:2006年8月30日到期日期:2006年8月30日万科HRP1038001基本概况:发行人:华润股份有限公司上市地点:深圳证券交易所标的证券:G万科A000002权证类型:认沽权证
4发行数量:214028.6008万份权证余额:214028.6008万份(截止2005.12.8)行权方式:百幕大式行权价格:3.73行权比例:1结算方式:实物上市H期:2005年12月5H存续期问:2005年12月5H——2006年9月4H行权期间:2006年8月29日——2006年9月4日到期日期:2006年9月4日武钢】TBI580001基本概况:发行人:武汉钢铁(集团)公司上市地点:上海证券交易所标的证券:G武钢600005权证类型:认购权证行权代码:582001行权简称:ES061122发行数量:47400万份权证余额:116460.3762万份(截止2005.12.8)行权方式:欧式行权价格:2.90行权比例:1结算方式:实物上市日期:2005年11月23日存续期问:2005年11月23日20。6年11月22日行权期问:2006年11月16日--2006年11月22日到期H期:2006年11月22E1股票权证作为证券市场上的投资品种,其价值主要受以下几方面因素的影响,下面以认股权证为例具体说明:认股权证事实上可以看成是一份看涨期权,当权证执行价格不变时,认股权证的价值随股票价格的上涨而上涨.其价值上限就是标的股票价格,价值下限是执行认股权证时的实际股价减去执行价格.认股权证的价值包括两个方面:当股票的实际价格高于执行价格时,投资者只要认购股票并在市场出售,即可获得之间的价差,此称为“执行价值”;另一方面,只要认股权证尚未到期,则标的股票价格有进一步上涨的空间.即为“时间价值影响认股权证价值的因素主要有以下五个:一是标的股价的波动率.它是认股权证价值最重要的决定因素.股价的波动性可以是根据标的股票过去一段时间内的价格信息所计算出来的报酬率变异性.波动性越大,代表股价的涨幅越高,同时认股权证的获利机会也就越高.因此,标的股价的波动率与认股权证呈正向关系.二是标的股价.认股权证与其标的股价同步涨跌,因为执行价格的收益来自标的股价与执行价格的差距,因此标的股价越高,认股权证的价值也越高.
5三是执行价格.与标的股价相反,执行价格与认股权证的价值呈反向关系.四是到期期限.由于认股权证存在时间价值,愈接近到期日,认股权证的获利机会愈少,因此认股权证的价值也愈少.五是无风险利率.无风险利率通常用来衡量某项投资所用资金的机会成本,也即是资金不用于这项投资而用于其他投资所能获得的最高收益.若投资者直接购买标的股票,必须支付全部的股价,当无风险利率越高时,资金的机会成本越高.若购买认股权证,则只需支付少量的保证金,这优于直接购买股票.因此,无风险利率越高,认股权证的价值越高.本论文应用数据挖掘的相关算法,首先对股票权证的真实历史交易数据各属性列分别进行聚类处理,将各属性列的值离散化成状态值.进一步应用数据挖掘的分类算法,最终建立权证波动趋势(升,跌)的分类预测模型.1.2本文工作及其意义作为证券市场上一种活跃的金融衍生物投资产品,权证的价格预测问题一直颇受关注.相关的研究学者,都试图通过分析权证市场的历史数据,价格趋势和各种指标,从中发现最能刻画在未来某个阶段权证产品价格走势的规律.针对此问题,经济学家和数学家提出过很多不同的模型,其中RobertC.Merton,FischerB1ack和MyronScho1es在1973年提出了Black.Scholes欧式看涨期权定价公式[111,是目前世界上最流行的期权定价公式.而权证作为特殊的期权产品,也适用于该定价模型.作为第一个成功的期权定价公式,该公式考虑了期权价格与上述五个因素的关系.其具体形式如下:C(E)=S1(吐)一鲁。S(d:)(1—1)di=矿一竽s—E—(1—2)d2=…加方(1_3)式中,s为标的证券目前价格,E为协定价格,c陋)为期权价格,e为自然对数的底2.71828:t为到期日以前的剩余时间,以年为单位表示;r为无风险
6的市场年利率,用小数表示;In为自然对数;盯为即期价格的波动幅度:N“)为对于给定自变量d,服从标准正态分布S(0,1)的概率,其数值可从正态分布表中查得.对于欧式看跌期权的价格,可利用看涨期权与看跌期权之间的平价关系近似地求得.其计算公式为:P(e)=E„e1.oIV(—d2)-S'lV(一面)(1一一4)目前国外很多的期权预测模型都是基于B1ack-Scho1es定价公式而建立.但B1ack—Scho1es模型只给出期权价格的表达式,却没有回答怎样求解该kCa11BJ对—scho1es模型的求解问题,常用的是数值解法,包括:构建微方程求数值解【2],131;MonteCarl。模拟法求解【4—7】;最小二乘法电辑注」凯.。4es模型是基于一定的假设条件才成立的,与目前我国证券市场的露一定的差距.正如2005年8月22日宝钢权证在上海交易所上市,知名券商国泰君安通过B1ack—Scho1es模型将宝钢权证上市价格定为。.688元,用滤费东当天早市以1.263元涨停开盘,打开交易后不到两分钟又涨停,当日以1.263元收盘,和国泰君安预测的理论价格相差甚远.这是因为B1ack—Scho庙机典式不符合我国证券市场的实际情况:我国没有卖空机制,B1ack—Scho1es模型的前提假设条件不满足.实际上,我国目前的权证产品的能介值远高于其理论价值.数据挖掘领域中的许多学者对权证价格预测问题也十分关注,结合一定的金融背景知识,众多数据挖掘算法在该问题的应用上,取得不错的效果.现阶段应用于权证价格预测的数据挖掘方法主要有:神经网络算法(Artificialneuralnetworks)[10—121,遗传算法(GeneticA1gorithms)[13],支持向量机(Suppor^VectorMachines)-14,15],提些算法的应用取得了一定的效果.本文主要的工作是应用数据挖掘的相关算法,构建分类模型,对欧式股票权证的升跌趋势进行预测.具体的处理方法如下:通过对权证市场的历史数据,价格趋势和各种指标属性的离散化处理,分析,应用分类器技术预测权证产品的升跌趋势.在数据预处理的基础上,本文利用聚类算法SOM(自组织映射网络)对权证产品的各个属性分别独立聚类,很好的解决了连续值转换为离散值的问题,而且该聚类方法很好的减少了离散化过程中的信息损失.权证波动趋势(升,跌)的预测作为一个分类问题,本文选用了
7NaiveBayesianModel-|-AdaBoostA1gorithm构建最终的分类器.其中NaiveBayesianModel(朴素贝叶斯模型)作为弱分类器,用机器学习方面的AdaBoost算法来训练加强,以构造强分类器.本文应用此实验方案对我国证券市场上的三个权证产品的真实交易数据进行分类预测,实验结果表明,该方案能很好的处理股票权证的波动趋势预测问题.本文接下来的部分安排如下:第二章介绍数据挖掘的相关技术,其中重点介绍应用于本文的聚类,分类算法.第三章重点介绍机器学习方面的AdaB。。st算法,主要介绍该算法将弱分类器训练转化为强分类器的相关思想.第四章将具体介绍本文构建的股票权证升跌趋势分类预测模型:以S0M算法将各属性列的连续值离散化,在此基础上,应用NaiveBayesianMode1+AdaBoo亲靠留篇寿籥要读证的升跌趋势进行预测.本文的第五章介绍上述模型对我国证券市场上的三个权证产品的真实交易数据进行分类预测的相关结果,通过具体的实验结果检验模型的可靠性.第六章,总结全文的工作,提出进一步工作的想法.
8第二章数据挖掘概述在具体介绍股票权证分类预测模型之前,我们先介绍相关的数据挖掘知识及本文用到的相关算法.2.1概述数据挖掘(DataMining)是近年来随着人工智能、机器学习和数据库技术的发展而出现的一门新兴的技术,它主要利用各种分析工具在海量数据中发现模型和数据间关系,提取隐含的但有用的信息和知识的过程【16】.数据挖掘起源于二十世纪六十年代开始的统计分析和神经网络研究.在不断的发展过程中,数据挖掘充分融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术.20世纪80年代末出现了一个新的术语,即数据库中的知识发现,简称KDD(Know1edgeDiscoveryinDatabase).KDD是从数据模式或描述数据间的联系的过程,其主要步骤包括数据选择、数据预处理、数据转换、数据挖掘、结果解释及评估1171,如图2—1所示.图2—1KDD过程其中数据挖掘只是KDD中的一个阶段,却是最重要的一个阶段,因为它发现隐藏的知识.人们往往不加区别地使用这两个概念,一般在工程应用领域多称为数据挖掘,而在研究领域则多称为数据库中的知识发现.因此,在本文以下部分将不再区分数据挖掘与数据库中的知识发现这两个概念.目前数据挖掘已经广泛地应用于各种领域:市场分析方面的数据挖掘应用[18],生物科学界针对蛋白质和DNA序列分析的数据挖掘应用【19】,金融领域的数据挖掘应用[20——22],财务领域的数据挖掘应用【231作为一个知识体系,数据挖掘比较典型的方法有关联分析、序列模式分析、
9分类分析、聚类分析等.各种方法简单介绍如下:①关联分析(AssociationAna&sis)关联分析,即利用关联规则进行数据挖掘.关联分析的目的是挖掘发现存在于大量数据项集之间有趣的关联或相关关系,它能发现数据库中诸如“同一次的超市购物过程中,如果顾客购买牛奶,他同时也购买面包(具体是什么类型的面包)的概率有多大”这类的问题,常用的算法包括Apri。ri算法【24】,频繁模式增长[751,多层关联规则[26,271,多维关联规则[28].⑦序列模式分析(SequencePatternAnalysis)序列模式分析主要应用于挖掘时间变化过程中,研究对象的变化规律或趋势,主要的一些应用包括:金融市场的分析预测,动态产品的加工过程,科学实验等.其研究内容主要包括:趋势分析,时序分析中的相似度搜索【29】,序列模式和循环模式挖掘[301.③分类分析(ClassificationAnalysis)设有一个数据库和一组具有不同特征的类别(标记),该数据库中的每一个记录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集.分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类.常用的分类算法包括:决策树算法【31】,贝叶斯分类算法[321,神经网络【32】,K一嚣方类算法【33】,遗传算法【33】等.④聚类分析(ClusteringAnalysis)聚类分析输入的是一组未分类记录,并且这些记录应分成几类事先也不知道,通过分析数据库中的记录数据,根据一定的分类规则,合理地划分记录集合,确定每个记录所属类别.它所采用的分类规则是由聚类分析工具决定的.采用不同的聚类方法,对于相同的记录集合可能有不同的划分结果.常用的聚类算法包括:k一均值【34],k一中心点[351,DBSCAN[36],STING[37],[39]等.针对本文实验的具体应用,卜.面将具体介绍聚类算法S0M(自组织映射网络)及分类算法贝叶斯分类模型.2.2聚类算法SOM自组织映射网络S0M(Se1f—0rganizingMapsl是由芬兰赫尔辛基大学神经网络专家Kohonen教授在1981年提出的【40],这种网络模拟大脑神经系统自里特征映射的功能,是一种竞争式的学习网络,在学习中能无监督地进行自组织学习.
10S0M的网络拓扑结构包含输入层和输出层,输出层也称为映射层.输入层由IV个神经元组成,竞争层由膳个输出神经元组成,且形成一个二维阵列.输入层与竞争层各神经元之间实现全互连接,竞争层之间实行侧向连接.SOM网络的主要特性为:1)自组织排序性质,即拓扑保序能力;2)自组织概率分布性质.其网络拓扑结构如图2—2所示:输出层输入层图2—2S0M的网络拓扑结构SOM网络首先把所有的映射结点(输出结点)向量用小的随机值进行初始化,然后计算每一个实际输入向量同输出二维阵列中所有的映射结点的欧氏距
11离,距离最小的那一个映射结点作为获胜结点(WinningNode),把该输入向量映射到获胜结点,并调整该获胜结点向量的权值,同时按比例调整获胜结点邻域内结点的权值,把所有的输入向量提交给网络进行训练(通常每个输入向量要提交若干次),相类似的输入向量被映射到输出层中临近的区域,最后得到输入向量的聚类,同时把高维的输入向量空间非线性地投射到二维的映射网络上,该网络的拓扑结构反映了输入向量的分布情况.算法的具体步骤如下:设网络的输入层有W个输入向量,维数为厅,记为:X(f)一k,屯t,…,%t,ER“,t;1,2,...»IV.输出层有M个神经元为A.,,=1,2,...»M.输入层向量与输出层神经元月,之间的连接权值向量记为:%=(%。,%:,…,%),其在,。后祠嘉训输J过程如下M•(1)初始化.将权值向量%;(叶。,叶:,…,%)(,=1,2,M)化,喝朝。门坐嬲蚓晦哽.,哝).设置初始学习速率叩4品%疵赢徵踹旦/cP)),看至kgHFL区域函数N90)具体指以获胜神经元g为中心,且包含若干其它神经元的区域范围.一般的,NO)的值为受影响鬻警j当诙最后对温必1血*怫邻域所包含的神经元有:设置网络总的训练次数为日日(3)寻求获胜元归一化,计算训学样本fR与权值向量之间的距离城..
12d,=oic七,一矿川―以距离最小的输心^^月c"寸视的足:]“2g=盯gm如瞄j】,,=1,M(24)=1,z,M从而实现神经元的竞争过程.(4)网络更新对获胜神经元的拓扑邻域以(f)内的所有兴奋神经元更新其权值向量:哗川=形哪)即氓一一(2-且0,,7(f)<元的合作和更新过程.11rl(,tj表阿可网g训缈咬习方率,这一调整实现了神经(5)更新学习速率和邻域函数,归一化权值向量.叩o,2叩c。,(,一事)其中,7(0)是初始学习速生,2为廿前网络训蛤欠,,T为开始设定的网络训练总次数.NAt)2叫以c南(,一钏其中刀订卜]表示对(X明整*jp1v,0)的初始值.,.r、,.».矽=^=矗梭等%学叫(6)令训练次数t=t+1,返回步骤(2),直至t;T为止.构建S0M网络的目的是用低维口标空间的点表示高维原始空间的点,同时在高维到低维的映射过程中尽可能保持原始样本空间的拓扑结构.S0M网络不需要存储大量样本的空间,所以具有比一般的多维尺度变化算法低得多的空间复杂性,很好的提高了算法的性能.S0M网络还具备将高维到低维的映射可视化特征,这也是其得到广泛应用的一个原因.目前,S0M网络不仅仅应用于聚类,在分类,机械控制,语音识别,向量量化等领域都有广泛的应用[401.
132.3朴素贝叶斯分类模型贝叶斯分类模型是一种基于统计学理论的分类方法.主要应用于预测样本属于一个特定类别的概率等问题.对于样本分类预测问题,我们一般是基于样本各属性的信息做分类决策.要是我们把分类模型简化,假设每个属性对样本分类结果的影响独立于其它属性,这可以大大的减轻计算的复杂度.基于对样本属性相互独立的假设,是朴素贝叶斯分类模型(NaiveBayesianClassifier)的主要特征.朴素贝叶斯分类器fNaiveBayesianclassifier)是贝叶斯分公认静哪简常而廉1斛概率分类方法,其性能可与决策树、神经网络等算法相媲美.即使应用于大型数据库,朴素贝叶斯分类器也表现出高准确率和高速度[41][42].贝叶斯分类模型的理论主要源于贝叶斯定理,下面先对贝叶斯定理作简单的介绍.2.3.1贝叶斯定理设u={x,c}是随机变量的有限集,其中X={墨,x:,...间的段2变植鳌暇集春融据样本有n维的属性,具体可以用一个n维特征向量表示:协,工:,…,*).下文为了表述方便,仍以记号X表示一个数据样本,即Z一怯,而*).C={C1,C:CO)是类标的集合,标志样本空间可能的类别,类别数目是1c1S七,即给定数据样本X=",屯,47T|勺分类问T我们富甲!定甲样本口k属于。中由里可知:其中P(C,IX)称为后验师黎(P=",x2,…,矗)可能属于c,类的概率.相应的,Pi1ity),P(XIcJ)J)riorprobabi1ity),即工J的先验概率(priorprobab称为类条件概率.上述贝叶斯概率公式给出了一种由P暖),P(XIc』),P(c,)这三个概率值表示后验概率1工、方法.
142.3.2朴素贝叶斯分类模型朴素贝叶斯分类模型的具体思想如F:(1)最大后验概率原则给定一个数据样本x=俄,X2,,),该样本所属类别未知,根据朴素贝叶斯分类模型的规则,该样本丑=怯,而”将被判为属于具有最大后验概率的类.具体用符号表示该思想即为:朴素贝叶斯分类模型将样本工=",而,…,’)判为属于c类,当且仅当:(2)根据贝叶于所有七类都有相同的值,所以可以看作常数.为求得m哆{Ps】工)),我们只b6个叼毁示训练集去扁中练集中属干、续上匕(3)卜条件独立其的应用)•对于具有众多属性的数据集合Gib1维数京样本,nP(XIc,),1s,s七的计算行销可能非常大.应用每年性对样本分类结果俨^1响独立属性的假属性q相独立,.:I大IP晖1C』)=P(协而,…,其中ps、JJ.具体IP“Ic,):翌。S.(2—12)
15其中3』表示训练集中属于。』类样本的个数,S./i表示第c,类样本中第f个属性取值为Xi的样本数目.(4)连续值属性的处理由上述的介绍可知,如果属性Xi(1弓fs订)的值域是有限的离散点,我们可以计算出所有的P@Ic,)(1sfs以,Is,sk)的值.若属性置是连续值属性,我i门需要对该属性的值进行处理.最简单的处理方法当然是将属性值离散化.(5)样本X=",X2,…,%)的分类结果对于给定的所属类别未知的数据样本X=",工:,…,'),分别计算P(XIcj)*P(cj),1s,s七.根据最大后验概率原则,样本x={墨,x2,')被判定属于c;类,当且仅当:P(zlci)oP(q))—e(xlc,)*P(c,),1s,s七且,#i(213)以上即为朴素贝叶斯分类模型的工作步骤.从理论上讲,朴素贝叶斯分类模型较之其它分类算法有最小的分错率[41][421.除了具体的分类应用,朴素贝叶斯分类模型还可以用来为其它分类算法提供理论上的判定,例如许多神经网络和曲线拟合算法也以最大后验概率为分类判定指标.2.4本章小结本章重点介绍了数据挖掘技术的两个算法,分别是SOM(自组织映射网络)聚类算法及朴素贝叶斯分类模型.这两种算法在各白的应用领域独具优点:S0M网络在高维到低维的映射过程中尽可能保持原始样本空间的拓扑结构,并且有很好的计算性能:朴素贝叶斯分类器(NaiveBayesianclassifier)舞同班翁普图前概率分类方法.正是基于两者的优点,本文在构建权证升跌趋势分类预测模型中对两者加以结合应用.
16第三章AdaBoost算法本章将重点介绍AdaBoost算法,它是机器学习qoBoosting系列学表算也方/耨“oost算法用于提高学习算法的精确度,它以弱分类器为基础,通过多轮针对训练集的循环学习训练,构造一个预测函数系列,然后以一定的方式将它们组合成一个预测函数,从而得到分类性能更优的强分类器.下面将首先介绍Boosting学习方法的主要思想,在此基础上再详细介绍AdaBoost算法.2.1Boosting学习方法Boosting算法的主要思想是通过连接一些简单分类器构建一个性能较之所有这些简单分类器更优的组合分类器.设啊,也,…,-都是一些简单分类器,我们通过结合所有这些简单分类器得到一个组合分类器:,o)2)人。)(3—1)上式中,q表示对应的简单分类器'f在组合分类器中的权重系数.上式中的q,鬼0)0宣fsf)都是通过Boosting算法的训练过程得到.Boosting算法的组合分类器构造过程如图3—1所示:玩忽;忽图3—IBoosting算法的训练过程Boosting算法思想来源于PAC(Probab1yApproximatelycolled)学习理论YL十年代,va1iant在PAC学习模型中提出了强学习算法与弱学习算法的概念[431:
17强学习算法:样本集合S包含n个数据点“,y1),(b,Y2),…,阮,儿),其中而(f=1,2,…弹)是按照某种固定但未知的分布D@)随机独立抽取的,儿=,领).其中,属于某个已知的布尔函数集,,即弘G{-1,+q,f=l'2,...»1.若对任意的xED,任意的,EF,任意的IOss,6s专,根据学习算法生成的估计函数丘满足肿or(h,,)皇盛('。)#,o))的概率大于1一6,并且学习算法的运彳珊嬲豆凝成多项式关系,则我们称该F0弱学习算法:其定义与强学习算法定义相似,只需把上面s,6的任意性改为存在性即可.随后,Kearns和Va1iant提出了弱学习算法与强学习算法的等价性问题,能否盘PAC模型中的一个弱学习算法提升为一个具有任意精度的强学习算法.若两者的确等价,那么只要找到一个比随机猜测略好的弱学习算法就可以直接将其提升为强学习算法,而不必直接去找很难获得的强学习算法.1990年,Schapire通过构造一个多项式级的算法对上述等价性问题给出了肯定的证明,其证明中的构造算法就是最初的Boosting算法.该算法可以将弱分类器转化为强分类器.其后Freund提出了一种效率更高的通过重取样或过滤运作的Boost.By-Majority算法.但早期的B。osting算法在解决实际问题时存在较多的不足:组合分类器厂0)的进一步改善需要Boosting过程更多的迭代:需要事先知道弱学习算法学习正确率的下限,这在实际中往往很难实现.1995年,Freund和Schapire提出了通过调整权重而运作的Boosting算法:AdaBoost(AdaptiveBoosting)算法[44].该算法的效率与原来的Boosting算法相同,但不需要任何关于弱学习算法性能的先验知识,因此可以很好的应用到实际问题中.Boosting是提高预测学习系统预测能力的有效工具,是组合学习中最具代表性的方法.实际应用中,Boost—By—Majority和AdaBoost是Bo球点南两和•系肆解雯的应用需要,下面具体介绍AdaBoost算法.3.2AdaBoost算法3.2.1AdaBoost算法的基本原理AdaBoost算法的主要思想是给定一个弱学习算法与一个训练集合(_,y1),
18(x2,y2),...»阮,n),其中而(f;1,2,…n)属于某个域或实例空问x,而MW{—L+q,(i=1z2,…,n)可以理解为分类问题的类别标志.算法开始时先给每个训练样本赋以相同的权值!,然后调用弱分类器对训练集进行训练后脚爽将解的借果更新各样本的权值,对训练失败的样本赋以更大的权值,实质是让学习算法在后续的学习中更偏重对较难分类的训练样本的学习.更新样本分布后继续进行训练.反复迭代丁轮,最终得到一个分类器序列睡,恕岛,其中每个分类函数也具有一定的权值:检测效果较好的分类函数的权值较大,检测效果不好的分类函数的权值较小.最终的分类函数日采用有权重的投票方式获得.AdaBoost,算法的伪代码表示如下:1、输入:(1)训练集s={(墨,_),1),(x2,丫2),…,阮,心)),其中量Gz0=1,2,1),YfE{-1,+q,f=1,2,…厅:(2)弱学习算法.2、对训练集初始化权值:(3—2)Dx(i)=i1,f=1,2,3、执行算法:11;,Drt=1,2,...»T(1)对己指定权重的训练样本进行学习,得到一个预测函数:鬼:薯一{一1,1},f=1,2n(3—3)(2)统计预测函数旭的训练错误率:'一z皿。)肛(弓)一丫iJ,(3—4)
19若Et=0或〉1/2,则令T=f一1并终止循环(3)令:q;,n[斟(4)根据啊的训练错误率更新样本的权重:当啊@)丰Yi时,%胪蜘螂㈣=喇<等')当岛@)=丫。时,2;疗:.q=q—aq=疗二,q(5)更新t的值为t+1,返回(1)4、输出:...2s枷偿q对于上述训练算法,Schapir所得踊静螂f训练误差满足以卜.条件:nger和Freund从理论上推导出定义,。)2荟q啊。),则上述H(力可以表而H小的练误曷礴»4:J咖(,@)),昙t{i:H(xi)舌ijs表藁ex其中:p(w“))=HT互(39)互=£口|o)懈p(—a,yi—@))(3—10)从上式我们可以看到:通过对a。和"的适当选择,zf将被最小化.相应地,训
20练误差也迅速减小.在二值情况下,设S是最终的预测函数H0)的最大错误率,Schapire与Freund分析并证明8满足[46]:ss立[Z厕习。亦厢5其中Et是啊归训线港差猜想稍好,匕x约束n离0较远,则训练错误将以指数级速度下降.AdaBoost以前的Boosting算法也有相似的性质.G而3小帝那法茬匹前,—得到L知@下界n.实践中关于这样的边界的知识是很难得到的.而AdaB。。st可以调整单个弱分类器的错误率,所以说是自适应的.3.2.3AdaBoost算法的特点及其应用AdaBOOSt算法的优点表现在:有很好的算法效率,易于编程实现.它除了迭代次数T外不需要调整参数.它不需要弱分类器的先验知识,因此可以灵活地和任意方法结合寻找弱分类器.给定足够数据和一个能够可靠地仅仅提供中等精度的弱学习及,它可以提供学习的•套理论保证.这是学习系统设计思想的一个转变:不是试图设计一个在整个空间都精确的学习算法,而是集中于寻找仅比随机好的弱学习算法.同时,AdaB0ost对噪音不敏感,各轮训练集并不独立,它的选择与前轮的学习结果有关;AdaBoost的预测函数有权重,最后的强分类器由弱分类器顺序生成.目前,AdaBoost组合学习方法已在不同的领域取得广泛的应用:1)文本分类和检索:大多数文本分类研究集中于二值问题,其中文档被分类成与某预定义的主题相关或不相关;2)图象识别和检索:现有识别算法准确度都不理想,且易受数据扰动干扰.通过组合能提高性能;31语音识别和理解:语音识别问题可以用与文本分类问题类似的方法加以解决;笆网络导航:为用户行为和偏好排序;5)手写字符识别:Schwenk和Bengio将AdaBoost与神经网络于手靠褊哥用
213.3本章小结本章在概要介绍Boosting系列学习算法发展过程的基础上,重点介绍其中的代表算法:AdaBoost算法.该算法以弱分类器为基础,通过多轮针对训练集的循环学习训练,构造一个预测函数系列,通过加权组合得到分类性能更优的强分类器.AdaBoost算法在数据挖掘的众多领域得到了很好的应用,本文将以朴素贝叶斯分类模型为弱分类器,通过AdaBoost算法对其训练加强,得到最终的用于预测权证升跌趋势的强分类器模型.
22第四章权证分类预测模型本文的第二,三章已经完成了对相关数据挖掘,机器学习算法的介绍,在此基础上,本章将首先介绍权证升跌趋势预测问题的相关背景知识,然后重点介绍本文提出的股票权证升跌趋势分类预测模型的理论基础及其建模步骤.3.1问题的描述与挑战4.1.1问题的描述本文的主要目标是根据股票权证产品任一个交易日的相关市场交易信息,预测该权证下一个交易日的升跌趋势.本文尝试把权证的升,跌分别用正,负两种状态来记录,把权证产品价格的上升记为,+1,,对应的把权证产品价格的下跌记为t一1•.通过这样的处理,股票权证在下一个交易日的升跌趋势预测就转化为数据挖掘方面的两类数据的分类问题.本实验处理的股票权证数据是分别来源于上海证券交易所和深圳证券交易所的股票权证产品的真实历史交易数据.每个股票权证产品独立以一个数据集记录,具体的数据样本如表4—1所示:表4—1数据样本成交名称口期时间开盘前收成交量【股】成交金额【元】均价笔粉&高最低收盘宝钢J'rB12005.12_79:301.6831.6781.6891.6831.6853849,75064813631.6834年辆J'IB12005.12.710:301.6891.6851.8061.6531.8053000177385271484291.757650宝钢JTBI2005.12.711:301.8111.8051.861.7831.8472999634245454384961.818607宝钢JTB12005.12-714:0a1.8481.8471.851.7921.8281968517763591011841.824691宝钢]TBI2005.12.715:0(31.8281.8281.8311.6861.7442680701444687710721.748571宝钢JTB12005.12-89;301.761.'7421.7651.7531.762517798291170771.764宝钢JTB12005.12-810:3f11.761.7621.7931.6861.7041801140343121109551.732550宝钢JTB12005.12_811:3131.7031.7041.7241.6541.7051205175522045555841.697664嚎钢J'rB120[)5.12-814:0C1.7061.7051.7431.681.681190702402041295361.714611至钢JTB12005.12-815:0(31.6811.681.7051.666L71005133121694668161.686605每条记录表示该股票权证产品在特定的一个交易目的一定时间段的价格,交易量等波动情况.每个交易日分为五个时间段记录,如上表所示.对应的各列屈性主要是反应权证价格波动,交易量波动的相关指标.
23本文最后建立的预测模型所用的每个样本数据将以天为单位,为此建模过程中需要把各交易日对应的五个时间段的相关信息通过一定的算法处理整合,合成一条记录,该记录以天为单位.经处理后的数据集中的每个交易日对应的记录其类别标志将由下一个交易日的信息决定:若该权证产品的平均价格在下一个交易日上升,则该交易日对应记录属于正类,类标为,+1,;若该权证产品的平均价格在下一个交易日下跌,则该交易日对应记录属于负类,类标为‘一1'.本文希望通过对正负两类样本具体行为特征的分析,构造用于预测股票权证升跌趋势的分类模型:当输入某股票权证产品任一交易日的相关交易信息,通过本文构建的分类模型,我们可以预测该股票权证在下一交易日的升跌趋势.3.1.2建模的挑战性本文的任务是对股票权证产品的真实历史交易数据,建立一个数据挖掘的分类模型,挖掘能反映股票权证产品升跌趋势的行为特征,进而能够对输入的股票权证任一交易日的相关交易信息,预测其在下一交易日的升跌趋势.但数据挖掘只是一个概念,对不同的数据集,会遇到不同程度的困难,必须根据实际情况选用不同的数据挖掘方法,并作出适当的修改才能有效地解决实际问题.针对上述问题的建模过程中,主要面临以下的三大挑战:(1)由表4—1我们可以看到,数据集各列属性都是连续值属性,对于分类问题,我们一般的处理方法是:各属性列对应有一个状态集合States—{So,S:,...»S),每条记录上各个属性对应状态集合中的一种状态.针对数据集属性列出现连续值的情况,我们必须用一定的算法对连续值作离散化处理,同时,该离散化过程能尽量的保持原来属性列的相关信息.(2)本文最终建立的分类预测模型每个样本数据将以天为单位,即对输入的股票权证任一交易日的相关交易信息,预测其在下一交易日的升跌趋势.相应的,我们在构建分类预测模型的训练过程中,所用到的数据样本也需要以天为单位,即每个训练集样本表示的是权证产品一个交易日的相关市场信息.而原始数据集中,每个数据样本表示权证产品在特定的一个交易日的一定时间段的价格,交易量等波动情况,每个交易Et被分为五个记录.对此问题,也需要把每个交易日对应的五条记录通过一定的处理方式,转换为以一个交易日为单位的一条记录(一个数据样本).
24(3)由于证券产品的市场交易受一定的交易规则约束,如权证产品的涨停,跌停,原数据集合的某些样本出现特殊情况.若涨停,跌停等时间较长,则样本的某些属性出现方差为0的情况,如下表4-2所示.这使得以统计量为基础的算法无法应用,因为很多的统计量以方差为基础.表4—2权证出现涨停情况成交名称日期时间开盘前收成交量【股】成交金额【兀】均价笔编高最低收盘宝钢JTBI2005.8.229:301.2630.6881.2631.2631.26346662288589344681.26212宝钢JTB12005—8—2210:301.2631.2631.2631.261.26374077632935151481.262531宝钢JTB12005.8.2211:301.2631.2631.2631.2631.263686686486728481.262485宝钢JTB12005.8.2214:001.2631.2631.2631.2631.263296552837454561.262495宝钢JTB12005.8-2215:001.2631.2631.2631.2631.2638584360108420641.2634654.2数据预处理对于两类数据的分类问题,用数学语言可以表述为:已知k维训练样本集合*={五Ii=l,2,...»n)—{@o,Xiz,,x,j1i=1,2,...»n);对应的类标集合为咒G{+1,-U.求分类函数,O)满足fCX,)=咒.一旦分类模型建立,即分类函数确立,对任意测试样本j=R,夏,…,五),代入分类模型,O),若,(j);+1,则j被分为正例;反之,若,(j)=一1,Nx被分为负例.若把分类函数,0)写成概率函数形式,以墨(z)表示样本x属于正类。+1,的概率,则上述模型可以表示如下:砸,=f其中f是固定的阈值.下面先介绍实验的主要思想:如何将连续的属性值离散化;用何种算法构造最后的分类模型..在数据集合经过预处理的基础上,各属性列单独应用s0M聚类算法处理:对于每个属性列,以交易日为单位将该属性列分成等长链群的集合(每条链的长度为5),对这个等长链群应用S0M聚类算法聚类,聚类结果是把每条链和一个状态值对应起来.通过这样的处理,一个交易日对应的该属性列的五个时间段的值变成了一个状态点.这很好的解决了上述建模中的挑战问题(1),(2)一—新生成的样本以一个交易日为单位,而且
25每个属性列对应的是一个状态值,成功的离散化.经过S0M算法离散化后的样本集合,我们可以选用一定的分类模型进行训练学习,本文选用了朴素贝叶斯作为基本分类器,并使用AdaBoost算法对朴素贝叶斯模型进行加强学习,最终构造出强分类器,股票权证升跌波动趋势分类预测模型即构造成功.整个分类预测模型的构造过程如下图4—3所示:图4—3分类预测模型构造过程下面将具体介绍上述模型的构建过程.4.2.1数据预处理现实世界中的数据一般不完整,含噪音或者数据不一致.数据预处理技术可以改进数据的质量,从而有助提高其后的数据挖掘模型的精度和性能.高质量的决策模型必然依赖于高质量的数据,因此,数据预处理是数据挖掘过程中的重要步骤.检测数据的某些异常情况,合理的调整,规范化数据,这是模型构建的初始阶段的必要工作.本文的数据预处理主要包括:属性列的筛选,属性列的规范化,各交易日真实类标的确立.(1)属性列的筛选原数据样本集中各属性列主要是反映权证价格,交易量波动的相关指标.其中属性列“成交笔数”反映的是在对应的时间段内交易权证的总次数,但对权证产品更具影响的应该是权证的交易量,在“成交量【股】”,“成交金额【元】”两属性列中有更具体的反映,所有该属性列将不被考虑.另据引言中对股票权证的介
26绍,其实质是股票期权,所以权证价格的变化受标的股票价格变化的影响.所以加入属性列“标的股票均价”,该列数据反映的是对应时间段内标的股票的平均价格.根据该属性列的筛选标准,数据集由表4-1转化为以下表4-4的形式:表4—4经筛选后的属性列标的名称日期时间开盘前收最高最低收盘成交量I股】成交金额【司均价股票价格宝钢J'1'B12005—12.79:301.6831.6781.6891.6831.685384975064董询J?BI,2005—'12,2710:301.6891.6851.8061.6531.8053000177385会钢摒¥2七V2.711:301.8111.8051.861.7晶43Tbj2872.9❷9oG1384必48544413赖419$21卜9&118演.359)11841.8243.97宝钢J—/'BI2005,12,715:001.8281.8281.8311.6861.7442680701444687710721.7483.96宝钢JTBI2005.12_89:301.761.7421.7651.7531.762517798291170771.763.97宝钢/'I'B12005.12.810:301.761.7621.7931.6861.7041801140343121109551.7323.96萤血.rrBI2005.12_'811:301.7031.7041.7241.6541.7051205175522B45555841.6973.94生钢JTB12005.12-814:0131.7061.7051.7431.681.681190702402041295361.7143.92宝钢JTB12005.12.815:0C1*6811.681.7051.6661.71005133121694668161.6863.95(2)属性列的规范化数值型属性的规范化,就是将属性按比例缩放,使之落入一个小的特定区域,它可以改进涉及距离度量的挖掘算法的精度和有效性.本模型将属性列规范化的主要作用包括:对属性列的分析,我们更关注的是权证价格,交易量波动的趋势,而不是绝对量的变化,规范化更能反映各指标的变化趋势:经规范化处理后,属性列的值落入一个小的特定区域,减少原数值的数量级数,有助于加快模型训练过程中的效率.本文采用的规范化方法具体是:每一属性列内,对应同一交易日的五个数值
27(a。,n:值的平均值:n,"在邛泄处理,首先是求得(亥五个数然后以该五个数值与平个值分别是:匕窄雪作为(J属,即规范化、2向五)(面a1如下图4—5所示.9名称Fl期时间成交金额1元】乙,.宝钢JTB12005—12—289:302222587.,匍030574902宝钢JTB12005.12.2810:3011381565654092宝钢JTB12005.12.2811:3012469宝钢JTB12005.12.2814:0058545568726931840.8Q5379057宝钢.ITB12005.12.2815:0064186592宝钢JTB12005.12.299:3011024022910:30124976054均值为宝钢JTB12005—12.2911:30943779120.0148356391.6818724961.270096225宝钢JTB12005.12.2914:006866062474307686.40.92400433宝钢JTBI2005.2915:00824214401.10919131Wfflna):原数值规范化后的值图4一一5规范化过程(3)交易日真实类标的确立属性列“均价”表示对应的时间段内交易权证的平均价格,原数据集合中每一个交易日对应五个等长的时间段,以这五个时间段的均价的平均值作为本交易日的日平均价格.求出原数据集合中各交易日的权证的平均价格,以price(i)表示第f个交易日的日平均价格,用Labe1(i)表示第i个交易日的真实类标,则有:砌嘶)=拦{;州pri鲍Jc即正类’+1’表示下一《交勺日,投哪『磔的彳/上千,警3b(I交易日该股票权证的价格下跌.若(44)
284.2.2数据的离散化各属性列的数值经过规范化处理后,本节利用S0M聚类算法分别在各属性列内以一个交易日为单位(对应该属性列的5个数值)进行聚类,通过该聚类处理,我们可以一次性解决4.1,2节关于建模的挑战性中的第一,第二两个难题,即各属性列的值我们以离散化的状态点表示;各交易口原来对应的五个时间段的记录被转化为代表该交易15t的一条记录.下面具体讲述该处理方法.对于要把每个交易日对应的五条记录通过一定的处理方式,转换为以一个交易日为单位的一条记录这个问题,传统上一般有两种策略:一种是每个交易日对应的所有记录(本文处理的数据每个交易日对应5条记录),分别统计各属性列的统计量,如均值,方差,期望,偏度,峰度等,作为该交易日对应于该属性列的值.但这样的处理存在不足:如上文所述,某些交易日因为涨停,跌停等原因,权证价格,交易量在各时间段没有变化,针对这样的情况提取统计特征,其意义不大:另外就是单纯的统计特征提取,很难全面的反映原属性列的相关信息.另外一种策略是通过一定的聚类算法,将原来的每条记录以一种状态表示,则每一个交易日对应的五个记录以时间的先后顺序变成一个长度为5的状态链,对应于这样的状态链群,应用马尔科夫模型(MarkovMode1)进行分类预测f45,461.但应用马尔科夫模型,上述的状态链需要符合马尔科夫理论的无后效性,即某一时刻的状态变化只受前一时刻状态的影响,不受其它时刻状态的影响.这是一个比较强的假设条件,应用在上述聚类所得的每个交易日对应的状态链,即假设同一个交易日,某时间段内权证的相关波动变化只受前一时间段相关因素的影响,与更前面的时间段无关,这对于股票权证这一实际问题具有一定的不合理性.本文所采取解决该问题的方法是:分别对各属性列独立处理,对于每个属性列,以交易H为单位,各交易日对应的五个属性值构成长度为5的数据链,对这些数据链应用S0M聚类算法进行聚类处理,聚类的结果:每条链和一个状态值对应起来.这就代表对应交易日在该属性列上的状态取值.通过这样的处理,将原来每个交易日对应的五个记录转换为对应交易口的一条记录,同时也将属性列的取值离散化:以该属性列的S0M网络其中一个状态值表示.因为是构建分类预测模型,对于每个属性列,我们关注的是在一个交易日,股票权证产品对应该指标的数量上的波动变化趋势.而S0M聚类算法有很好的保持原来样本问拓扑结构的性质,应用在以交易口为单位属性列的数据链群聚类上,表现出来的就是聚类的结果能很好的反映数据链之间波动变化趋势的相似程度.实验过程中具体的s0M处理如下图4—6所示:交易日属性1属性2属性n
29坪堵‘前’甥嚼,瑞,Dayi碟‘谡堵’瑙瑶,罐1增〜xk(22)榔Dayk嘏璞《:,/ii\I属性列1内属性列2内属性Nn内I用s。M聚类用S0M聚类用SOM聚类1\Jr1/交易日属性1属性2属性”Dayig”IE2,sj4'Dayk掣碰2,s〃注其中{S(iJ,掣}esoo,拇",掣}ES圆,…",{沪,掣门”,其降,R。,Sn,分别为各属性列的类标集合图4一一6S0M离散化过程通过S0M对各属性列的分别聚类处理,新生成的股票权证数据集合每条记录以一个交易日为单位,对应的各属性列上的值为该属性列有限类标集合中的一个类标.这样的样本集合已经可以直接应用于构建朴素贝叶斯分类器S0M算法离散化过程的伪代码如下表4—7所示:
30表4—7SOM算法过程各属性列的S0M离散化过程输入:取连续值的各属性列*输出:以状态值表示的各属性列算法:Step]:指定各属性列的聚类类数,各列聚类数目可以相同或不同:Step2:Forattribute=l:n(所有属性列都分别作SOM处理)Step3:对应于当前的属性列,同一交易H的对应该属性列的五个值按时间顺序排列构成一个长度为5的链;所有的这些链构成的链群记为:Chainset(attribute);Step4.SOM(Chain—set(attribute)):Step5:对应上述SOM网络,确定各交易日属性值序列链对应的类别,以此类标为该交易日对应此属性的状态值:Step6.—End.4.3分类器的构造通过对样本数据的预处理和SOM对各属性列的离散化处理,新生成的数据集合每条记录以一个交易日为单位,各属性列上的值为该属性列有限类标集合中的一个类标.这样的样本集合已经可以直接应用于构建朴素贝叶斯分类器.本文的分类器构造是以朴素贝叶斯(NaiveBayesModel)分类器为弱分类器,用AdaBoost算法来训练加强,以构造最终的强分离器,作为股票权证升跌趋势的分类预测模型.
314.3.1朴素贝叶斯分类器的构造对于一个给定的数据样本集合,我们根据第二章对朴素贝叶斯模型的原理介绍,可以清晰的构造一个朴素贝叶斯模型.假设类别集合为c=镌,C:,…,ck),属性列集合x={墨,X:,…,以},对于本文的数据样本,1至过_s0M对各属性列的离散化处理,各属性列五(1sfsn)的取值范围是有限的状态集合.若每个属性列对应的状态数目相同,设为m,则有:置=饥,,玉2,・・.,%°}0sfsn).为了确定任意样去rm才力I,干7r矗巾勺所破胁狗内需要*祚验概率:酬耻警儿因为P(盖)对于所有k类都有相同的值,所以可以看作常数,我们只要考虑5」):)别计算卜列概率值:占(4—7)于是,为了构造6套坟叶厮分快(抵j只需要对给定的数据样本集合分其中5,表示训练集中属于c」类样本的个数,s表示训练集中总样本的个数P%oh)5詈,1小心k妇础h其中5,表h川的创嘱4类样本的个数,&加属性墨上其值为嘲G墨,并且属于C』类的样本个数在(4—6)式所有的概率值都得以确定的情况下,我们可以根据最大后验概率原则,为样本j=",屯,…,’)确定类标.基于该数据样本集合的朴素贝叶斯模型即告完成.
324.3.2贝叶斯分类器的AdaBoost训练在具体的实验过程中,我们需要把总数据集合随机的划分成两个独立的集合:训练集(Trainset)和测试集(Testset).其中训练集用于导出分类模型,测试集用于对分类模型性能的评估.构造朴素贝叶斯(NaiveBayesianMode1)弱分类器,继而用AdaBoost算法训练加强,得到强分离器的构造过程将在训练集中完成,训练集中各样本的真实类标是已知的.AdaBoost算法是对弱分类器一个循环训练的过程,其实质是让弱分类器在训练中更偏重对较难分类的训练样本的学习,通过学习更新弱分类器的相关参数.在每次的训练过程中,我们需要从训练集中抽取〜定比例的样本作该轮训练的内部训练集.但由于训练过程中对各样本权重的不断调整:上一轮训练中被错分的样本权重会相应加大,不同样本被抽取到的概率各不相同,被错分的样本更容易被选为下轮训练的内部训练集.本文实验中AdaBoost训练过程由以下步骤构成:第一步:从训练集中随机选取本轮的内部训练集,各样本被选取的概率根据其权重的不同而变化;第二步:对于给定的内部训1练集合,根据4.3.1节的步骤构造朴素贝叶斯模型:第三步:利用该朴素贝叶斯模型对训练集中所有交易日的权证数据样本进行升跌趋势预测,根据该次分类预测结果决定是否结束整个AdaBoosting训练过程(或者训练的次数已经超过指定的最大训练次数,也要结束训练).若要结束训练,则转至第五步:若训练还要继续,则继续第四步.第四步:根据第三步的该轮弱分类器的分类结果,调整训练集中所有样本的权重,对本轮被错分的样本加大其权重.记录下本轮弱分类器的相关信息,继续转至第一步进行下一轮的训练.第五步:若训练过程结束,输出各次训练得到的弱分类器,根据其不同的分类效果,分不同的权重比例加和输出,得到最终的强分类器,即本文的股票权证升跌波动趋势分类模型.NaiveBayesMode1-FAdaBoosting模型其算法过程如F:Input:TrainSetS;{(■,y1),(x2,Y2),...»k,咒))andmaximaliterativenumberT.1.Initia1izeweightsforeachsampie:Defau1t-weight(i)=一JI.,i=1,2,订;n2./ori=1♦2*...»T(l)Se1ectsamp1esfromthetrainsettoformtheinnertrainsetforthistime.Theprobabi1itytobeselected^Ufeachsampleintrainsetisrelatedtothekownweights.
33(2)Accordingtotheinnertrainsetthistime,wecouldconstructthenaive1),i=L2,n(3)ApplytheClassifier啊toclassallsamplesintrainset,andthencalculatetheerrorrate:'=gDt(f)限@)―1弘I:breaktheAdaBoostingprocessandturnOtherwise,goonfor(4).sM酥eq2「tc、i]tsfore础sa卿k:f啊“dmdf+1(f)册l]mx一旦;:啊吁YL娜删蒯峨普咖励小rnbackto(1)3..End删=叫耄q㈣)应用由NaiveBayesMode1+AdaBoosting过程训练得到的强分类器H@),对于任意输入的对应一个交易日的股票权证新样本Xffi(x1,x2,O,我们应用分类器确定其类标:嘲=倦"卜1,陋卜e伽(,一撕即H0)能实现预可下」交易日1股啾正引升跌趋色.410)对于分类器H0)的性能,我们将用测试集(Testset)中的样本对其进行评估分析.具体的评估分析过程在下一章具体讲述.4.4本章小结
34本章首先介绍了本文所需解决问题的相关背景及其挑战性.在此基础上,按模型的构造过程,具体介绍了数据集的预处理,数据合理离散化,最终分类模型构造等核心步骤.至此,股票权证升跌波动趋势分类预测模型得以建立.
35第五章实验设计与结果分析本章应用本文提出的股票权证升跌趋势分类预测模型,对我国证券市场的三个权证产品的真实交易数据,进行升跌预测,通过具体的实验结果检验模型的相关性能.3.1数据集简介用于本文模型测试的三个数据集是来源于我国证券市场的三个股票权证产品的相关交易数据,这三个股票权证产品分别是:宝钢权证,万科权证和武钢权证.三个数据集合的格式相同,每条记录表示该股票权证产品在特定的一个交易目的一定时间段的价格,交易量等波动情况.每个交易日分为等长的五个时间段r以记录.宝钢权证数据集合包含的记录由该权证上市的第一个交易日(2005.08.22)到2006.03.24日,其中包括141个交易日的交易信息.原始数据集合的每日以固定的时间段划分为5条记录.即原宝钢权证数据集包括:141x5=705条记录.其中57个交易日对应的样本属于正类(即其下一个交易日该权证产品的平均价格上升),占所有交易日总数的40.71%.83个交易日对应的样本属于负类(即其下一个交易口该权证产品的平均价格下跌),负类比例59.29%.万科权证数据样本集合与之相类似,数据集合中起始交易H是万科权证的上市时间(2005.12.05),截止交易日是2006.03.23日.每个交易日也对应5条记录.该数据集正类比例36.23%,负类比例63.77%.武钢权证数据样本集合起始交易日是武钢权证的上市时间(2005.11.23),止交唾口2006.03.27日.每个交易日也对应5条记录.该数据集正类比例37.97%,负类比例62.03%.5.2实验设计方案5.2.1实验评价指标本文采用的分类性能评价指标是分准率和AUC,这两个评价指标简单介绍如下:
36分准率一AUC是AreaUnderROCCurve的缩写,其中R0CCurve指受试者工作特征曲线(ReceiverOp性能测试,我们定义以下四个指标eiott^^kch才"risticCurve).对于分类器的属y中负例预测为正例TP预测为负例FN(ThereJ禺』(F'aIsePositive)(FaiseNegative)TN(TrueNegative)根据上述四个指标,我们将正类中的样本被正确预测为正例类的比例(TPRate)称为灵敏度(Sensitivity)负类中的样本被正确预测为负例类的比例称为特异度(Specificity).而FPRate=1Sp6cificity'对于同一个分类器的分类效果,TPRate和FPRate互相影响,通过改变一定的阈值,我们可以同时得到不同的TPRate和FPRate.R0C曲线就是反映分类器的TPRate和FPRate随阈值的变化,同时改变的情况.R0C曲线一定通过(0,0)和(1,1)两点,这两点分别相当于灵敏度为0而特异度为1和灵敏度为1而算度为0.若ROC曲线是一条从原点到右上角(1,1)点的对角线,则表示该分类器的性能与随机决策一样.理想的情况是希望使(TPRate,FPRate)对应(1,0),即ROC曲线越靠近左上角(曲线下面包围的面积越大),相应的分类器性能更优.ROC曲线如图5—1所示:图5—1ROC曲线示例图(图中有4条ROC曲线)AUC值等于单位正方形中,ROC曲线下面包含的面积的值.由上面对ROC
37曲线的介绍可知,AUC的取值范围是10,1].AUC的值越大表示相应的分类器性能越好,当AUC;0.5时,即在单位正方形中,对应的ROC曲线包围的面积为0.5时,则分类器的性能与随机决策的效果一样.因为朴素贝叶斯分类模型能分别预测样本属于正类,负类的两个概率值(后验概率),性能评价指标“分准率”只从最后的分类结果(样本的预测类标是否正确)考虑分类器的性能,忽略了上述分类器更细化的性能信息:对于每个测试样本给出的正类概率,负类概率.AUC评价指标则考虑到分类器此类的性能信息,能更好的评价分类器的分类性能.本文同时选用分准率,AUC两个指标来评价分类模型的性能.实验的过程中,本文采用随机子选样方法进行实验评估,它是评估分类器性能技术“保持”方法中的一种变形."保持”算法将整个数据样本集合随机的划分为两个独立的集合:训练集和测试集.通过对训练集的学习,导出分类器,然后用测试集对分类器的性能进行评估.而随机子选样是“保持”方法的一种变形,它将“保持”方法重复k次,分类器的性能以这k次的指标值的平均值表示.本文应用随机子选样方法,每次随机选取总样本的80%作为训练样本,训练导出权证的升跌分类预测模型,剩下的20%作为测试样本,将分类器应用于测试样本作分类预测,计算分准率及AUC值.上述过程重复10次,把10次的分准率,AUC的平均值作为该分类预测模型在整个数据集中的分准率和AUC值.5.2.2soM和AdaBoost算法的实现由第四章对分类预测模型的介绍可知,实验过程中需要应用s0M算法和Na'veBayesianMode1+AdaBoost算法建立权证分类预测模型.下面对实验过程中两个算法的实现作简单的介绍.在完成了对股票权证数据集合各属性列规范化的基础上,利用sOM算法给出每个交易日对应的各属性列的状态值.在实现S0M算法的过程中,本文利用芬兰赫尔辛基技术大学计算机与信息科学实验室(LaboratoryofComputerandInformationScience,HeisinkiUniversityofTechnology,Finland)提供的公开程序包:SOM
38ToolboxforMath铲,在数学编程软件Mat1ab中编程实现对数据的处理.在对各属性列分别应用S0M聚类的过程中,为了处理上的方便,本文统一指定各属性列的具体聚类类数.对于每一个权证数据样本集合,试验过程中分别尝试了对各属性列统一聚十类,八类,六类和四类,然后通过后面的分类预测效果检测这几个聚类数目的优劣.通过具体的试验发现,将各属性列统一聚六类的效果从三个权证产品数据集合最后的分类预测效果来看,都非常一致的表现得比其它三种聚类数目好.在完成权证数据样本集合预处理后,本文采用上面已介绍的随机子选样方法进行实验测试.每次随机选取总样本的80%作为训练样本,剩下的20%作为测试样本,计算分类预测模型应用在测试样本上的正分率和AUC值.为避免划分的偶然性,对数据集有放回地做10次划分,把10次的正分率和AUC值的平均值作为该算法最终的性能指标.利用上述训练样本构造Na-veBayesianMode1,然后用AdaBoo强训联由他停期邵文作者独立编写实现的.下面给出NaNeBayesianC1assifier+AdaBoost构造出的最终分类预测模型在三个权证数据样本集合中的分类性能指标.下面各表给出的正分率和AUC都是应用随机子选样方法,对数据集有放回地做10次处理,求得的10次正分率和AUC值的平均值.-1分类预测模型的正分率.证万科权证武钢权10.70000.7125每列SOM聚八类0.739每列SOM聚六类O.725每列SOM聚四类0.71430.71110.700000.77780.731230.68330.7000hut.fi/projects/somtoolbex\权,、正名^新“分类预测模型的AUC值
39颦了泵亭监嘤不;目正弋权证每列SOM聚十类0.77350.68020.7030每列SOM聚八类0.76380.74480.7242每列SOM聚六类0.82260.77780.7372每列SOM聚四类0.79880.77560.7081由表5—1和表5—2可以看出,除了宝钢权证数据集合在正分率指标上,SOM对各属性列聚十类的效果优于其它聚类数目外,其它的指标都表现出SOM对各属性列聚六类所得的分类效果最好.另外需要说明的一点是:由上述两表我们可以看到,本文构造的权证升跌分类预测模型应用在宝钢权证上的各项分类性能指标均优于其它两个权证产品的分类性能指标.对于这个情况,可能的解释是:宝钢权证是我国证券市场恢复权证交易的第一个权证产品,它于2005年8月22口上市交易,而其它两个权证产品:武钢权证在2005年11月23日上市交易,万科权证在2005年12月5日上市交易,因此本文获取的三个权证数据样本集合以宝钢权证的样本数据量最大,这应该有利于分类预测模型在训练构造过程中获取更全面的权证产品升跌波动的规律信息.在此情况下,宝钢权证对应的分类预测模型的分类性能应该优于其它两个权证产品对应的分类预测模型.下面再给出分类预测模型对应各权证产品的ROC曲线特征.位髓Q瑚丘£B£&oo傩H眦图5—3宝钢权证对应的ROC曲线瞻髓。珊缸van1娃硅8砒
40图5—4万科权证对应的R0C曲线%FO=QmnH蜘Koom图5—5武钢权证对应的R0C曲线由上面三个R0C图可以大致看出,利用SOM聚类算法对各属性列聚六类所得的数据集合进行分类预测模型的构造,得到的分类器性能对于三个股票权证升跌趋势的分类预测能力都是最好的.而综合分准率,AUC两个指标,我们可以看到,本文提出的应用SOM聚类算法对样本数据预处理,以状态值表示各属性列的值,然后用NaiveBayesianC1asssifier构造简单分类器,进而用AdaBoost学习算法对弱分类器学功羹鬻髓票权证升跌趋势分类预测模型在三个不同的股票权证相关数据集合上都体现出令人满意的分类预测性能.这很好的说明了本文提出的模型的可行性和稳定性.5.4本章小结本章详细的介绍了本文相关的实验过程:针对三个股票权证产品的真实数据集合,应用第四章介绍的权证升跌分类预测模型对其进行分类预测.通过对各项分类性能指标的分析可知,本文提出的分类预测模型在不同的权证产品数据样本集合上都取得了令人满意的结果,这很好的体现了本文提出的分类预测模型的可行性和稳定性.
41第六章结束语6.1本文总结本文应用数据挖掘相关的理论知识,构造股票权证升跌趋势的分类预测模型.本文首先具体介绍“股票权证”相关的金融背景知识,然后根据应用的需要对数据挖掘这一知识体系作简要的介绍,其中主要突出S0M聚类算法,朴素贝叶斯分类模型和AdaBoost学习算法的介绍.在此基础上,本文针对股票权证升跌趋势分类预测这一具体目标,详细的介绍本文构建分类模型的相关思想:对权证样本数据集合的预处理主要应用S0M算法,很好的将各属性列的值以相应的状态值给出;完成了数据预处理这一步骤后,首先构造朴素贝叶斯分类器,以此作为弱分类器,然后应用AdaB。。st学习算法对弱分类器训练加强得到最终的股票权证升跌趋势分类预测模型.为了证明上述NaiveBayesianC1assifier—I—AdaBo文将陶触竟日令矍留京第带场葡三个股票权证真实数据集合上,通过试验获取不同的分类性能指标.通过对具体试验结果的分析可知,本文提出的分类预测模型在三个不同的股票权证相关数据集合上都体现出令人满意的分类预测性能.这很好的说明了本文提出的模型的可行性和稳定性.6.2相关工作展望上述实验获得了比较理想的结果,但仍有相关的工作需要继续探讨:(1)如何能在模型的构造过程中更好的利用相关的金融背景知识,以求更好的优化分类预测模型.(2)本文构建的模型只是对股票权证的升跌趋势作分类预测,虽然该问题已经具有很好的应用意义,但能否在对权证产品作出升跌趋势预测的基础上更深入的分析权证产品的市场价格波动趋势:在预测了升跌趋势的基础上,预测升跌的幅度,或者更进一步,尝试对权证产品具体的市场价格作预测.参考文献[1]EBIackandM.Scholes.4,ThepricingofoptionPaRindecaQErcppom妇,ti史7k.i8a:b6hdities'J.——654.[2]Tsitsiklis,J.N.,VanRoy,B.:<4RegressionmethodSs0tryRfJpcth9sc,.°FfeftefeV?§ftHco?i§onNeura1Networks,Preprin
42十PWrYk22Vlmi[311曲.Ba11y,V,Pages,G:"Aquantizationa1g0。用iitjia印ftO°E台PnlgBri(A5gWsItpIdpir理i?tnSiona1[41电cg6!111^^ 43Arflo$fe♦占aAJ(P1,nPe9PigentEngineeringSystemsandAl1ied千看—20[22j-D.Peramuneti11ekeandR.KWong,44CurrenCy电exv©ltie44ilgi®ers'atreefeonjteed0&tShtli3fthgAfsrto'mlasianDatabaseConf.(ADC2002),Me1bourne,Austra1ia,[23Y^^dnchi,EGiannoti,GMainetto,D.Pedreschi."AC晨PmpfAningAuditStrategyinFraudDet6?S48Ver广@1?/t】aeN^i^rPin999,August15•18,【2'号和”牛%%91'dR.Srikant.“Fasta1gorithmsformining®9S4S0C.ic%hli.ovrfeFMLlaer电%Dk用PBTaOs0.S,pages487-499,Santiago,Chi1e.[25]J.Pei,J.Han,andR.Mao・"CLOSET:AnefficientalgOIcilihJHiftQd'riTlsieni'PVgofrReIfloUp©ningandKnowledgeDiscovery,pages11—20,DaUas»TX,May2000.[26]J.HanandY.Fu・"Discoveryofmultiple一1e&aet1电a$wsO.ddPar&ci.®骑90UnIt.ecs>fm1ariggDataBases,pages420—431,Zurich,Switzerland,Sept,fZ?1]9旨?SrikantandR.Agrawa1."Mininggenera1medass°c!Iarit9ncr(yAefsjvienF^ataBases,pages407a_9_5j.i9,Zurich,Switzerland,Sept,[28]M.KambeqJ.Han,andJ.YChiang.*4Metaru1e—guidedminHii11ig-Qifmensionalassociationru1esusingdatacubes**.InProc.1997Int.Con£KnowledgeDiscoveryandDataMiningB(eKcDYu>*,1p9g-ges207—210,Newport[29]C.—S.Perng,H.Wang,S.R.Zhang,andD.S.Parker,"LandfFQ)*互K南hAaP2iWt40-4)gJedpatternqueryingintimeseriesda18力1a.sDqSieVWE2gY?rPg°,0plsl*s33-42,SanDiego,CA,F[35j?°duha,R.Rasto•gi,andkShim.44Rock:Ar。byaS(£oI-Me%J-a^tr』i®QJ”.glQ式r必X.h用9f99rft.Conf.DataEngineering,pages512—5211Sydney,Australia,Mar,[311J9J9.9R.Ouin1an.44C4.5«ProgramsforMachineLearning”・营跖4凶由0q,9mMorgan[32]T.M.Mitche11.4tMachineLearningz,.NewYorY:3N『«胡甲下UAII4}9n71ntroductiontoGeneticA1gorithmsz\Cambridge,MA:MITPress,1996.[341J.MacQueen.*4Somemethodsforclassificationanda03sleYr与A6i°oG国国l^foicY1eySymp.Math.Statist,Prob.。1:281.297,1967.1351L.KaufmanandP.J.Rousseeuw.**FindingGroupsinDaEauAtOel•凡itedUsp',tNleQv¥JQk:JohnWikv&Sons,1.99.0.[36]M.Ester,H.—P.Kriege1,J.SanderandX.XU•b'As&@\^e$"ngyl_ubt%?sei40aV^eQfahtah)aftQtfasesM.InProe.1996Int.Con£KnowledgeDiscoveryandDataMininVNiKDD'SG),pages226—231,Portland.OR.Aug,1996.[37]wWang,J,Yang,andR.Muntz.<4STING:Astatifptpio,@h】tI)PpCQi以甲d&ta^mQiPiSil4iProc.1997Int.Conf.VDryLargeDataBases,pages186—195,Athens.Greece,Au吕1997.[38]D.E.RumelhartandD.Zipser.^Featuredisc©o\feeirtyvbe(Ciomcptje9tistiM2elearning”.[3b9]8十.Kohonen,“Se1f—0rganizingMapsBer1ii9rv/.Heii.d(e.1berg,Germany:Springer,[40]T.Kohonen,“Seif-Organizedformationoftg>iR)OolgQcgaiCy%Jrin¥tQ。Hf:Gi—featuremaps”,【㈠9)卜9r8fedN,GeigerD,GoldszmidtM,etal.tfcBaye 44siM缉^由&氏6很©rknd丹盼§§9i7f4为(?$3pj]3.[4^]1L'a,ngleyP,IbaWThompsonE4tAnana1ysisofBayefSrb@04◎iIn@sSo$dh&eQiFh5M【AiJz7«haIConferenceonArtificia1In由$blJogFJF£JoiA:AAAIPress,1992.223〜[432hIiantLGA"TheoryofLeamab1e”.CommunicationofAC1M,3Z.9/14:2.27:f441YoavFreundandRobertE.Schapire.嗡decision-the01b5上di。昆&0声「珀@A3azn^lkA求p%Qfeationtoboosting,\InProceedingsoftheSecondEuropeanConferenceonComputationaILearningTheory,page[4S^3S'c3li,a'pV're,R.E.andYoramSinger,44ImprovedbeQ>0rsiteinaalt^ 45论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式表明。本人完全意识到本声明的法律结果由本人承担。
此文档下载收益归作者所有