基于互信息和贝叶斯最优化的两种特征选择算法

基于互信息和贝叶斯最优化的两种特征选择算法

ID:34917481

大小:1.11 MB

页数:49页

时间:2019-03-14

基于互信息和贝叶斯最优化的两种特征选择算法_第1页
基于互信息和贝叶斯最优化的两种特征选择算法_第2页
基于互信息和贝叶斯最优化的两种特征选择算法_第3页
基于互信息和贝叶斯最优化的两种特征选择算法_第4页
基于互信息和贝叶斯最优化的两种特征选择算法_第5页
资源描述:

《基于互信息和贝叶斯最优化的两种特征选择算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、广东工业大学硕士学位论文(理学硕士)基于互信息和贝叶斯最优化的两种特征选择算法李叶紫二○一八年六月分类号:学校代号:11845UDC:密级:学号:2111514014广东工业大学硕士学位论文(理学硕士)基于互信息和贝叶斯最优化的两种特征选择算法李叶紫指导教师姓名、职称:王振友教授学科(专业)或领域名称:数学学生所属学院:应用数学学院论文答辩日期:2018年6月1日ADissertationSubmittedtoGuangdongUniversityofTechnologyfortheDegreeofMaster(MasterofScience)TwoFeatureSelect

2、ionAlgorithmsBasedonMutualInformationandBayesianOptimizationCandidate:YeziLiSupervisor:Prof.ZhenyouWangJune2018SchoolofAppliedMathematicsGuangdongUniversityofTechnologyGuangzhou,Guangdong,P.R.China,510520摘要摘要随着机器学习和大数据的兴起,传统的数据挖掘方法,存在学习率相对偏低和算法准确率相对不高的问题,其中的一个重要原因是因为数据特征维度过高.特征选择是目前机器学习领域内比

3、较常见的数据降维方法.特征选择指的是从原始的特征集合中选择部分特征,通过某种评价标准使得机器学习中的分类或者回归算法达到最优结果的方法.现有的特征选择方法大多数是基于单一目标T的依赖性或特征与特征之间对Y影响的关联性,互补性和冗余性进行特征选择.然而这些方法几乎都没有考虑到组合特征,同时传统的机器学习算法的参数寻优方法,通常先有一个惩罚函数,然后运用经验或者穷举法调整参数来最大化或最小化这个惩罚函数,但是经常会遇到参数多、数据量大、特征多的情况,此时就需要有一种行之有效的参数寻优办法.本文主要从两个方法对特征选择算法进行改进.一、基于互信息的一种组合特征选择算法由于现有的方法

4、都没有考虑到组合特征,如属性A,B仅包含Y中的极少量信息,甚至与Y完全独立,但A&B能提供关于Y的大量信息,甚至完全决定Y.基于此,提出了一种能够从特征集合中挖掘到组合特征与单一特征的特征选择算法,首先对不显著特征进行组合并按照条件概率分布表生成新的候选特征;然后,对单一特征和组合特征利用基于最大相关性和最小冗余度的准则进行选择;最后分别在虚拟和真实数据集上进行实验,实验结果表明该特征选择算法能够较好的挖掘数据集的组合特征信息,一定程度上提高了相应的机器学习算法的准确率.二、一种新的基于贝叶斯最优化的Xgboost算法在使用Xgboost框架时,经常涉及各种参数的调整,并且参

5、数组合的选取对模型的分类性能影响较大.传统的参数寻优方法,是先有一个惩罚函数,然后运用经验或者穷举法调整参数值来最大化或最小化这个惩罚函数,但是经常会遇到某个模型没有一个显式的表达式的情况,比如“黑盒”问题.这类模型的参数寻优就非常麻烦,同时又会给算法带来一定的不确定性和随机性.本文基于高斯法(GP)的贝叶斯最优化算法对Xgboost框架进行参数寻优,提出了一种新的算法GP_Xgboost,并通过在多种数据维度情况下进行了实验.结果表明,本文改进的算法分类效果要优于人工调优和穷举法,从而证明了该算法的可行性和有效性.I广东工业大学硕士学位论文关键词:特征选择;互信息;组合特征

6、;贝叶斯最优化;XgboostIIABSTRACTABSTRACTWiththeevolutionofmachinelearningandbigdata,thedatainthisfieldhasshownanexponentialgrowthyearbyyear,whichismainlyreflectedinthedatavolumeanddatadimension.Basedonthetraditionaldataminingmethod,notonlythelearningrateislowbutalsotheaccuracyofthealgorithm.Featur

7、eselectionisacommondatadimensionreductionmethodinthefieldofmachinelearning.Inrecentyears,duetotheriseofbigdata,featureselectionhasbeenunanimouslysoughtintheindustry.Featureselectionreferstotheselectionofsomefeaturesfromtheoriginalfeatureset,theevaluation

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。