欢迎来到天天文库
浏览记录
ID:35102334
大小:6.97 MB
页数:75页
时间:2019-03-17
《面向稀疏数据的在线学习特征选择方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、.?.寺讀;f^乂李Sou化ChinaUniversitofTechnoloygy,心记.辩工程硕±学位论文..、:.、..%面向稀疏数据的在线学习特征选择方法研究'''.:;.■-:.作者姓名谭蕴根.,—工程领域软件工程校内指导教师朱金辉副教授—校外指导教师韩俊高级工程师所在学院软件学院论文提交日期2016年3月’.‘V'。,;.
2、.''"':\'::>;;‘一一二出庶组一OnlineFeatureSelectionforSparseDataADissertationSubmittedfortheDegreeofMasterCandidate:TanYunkunSupervisor:A.P.ZhuJinhuiS.E.HanJunSouthChinaUniversityofTechnologyGuangzhou,China分类号:TP3学校代号:10561学号:201321033436华南理工大学硕士学位论文面向稀疏数据的在线学习特征选择方法研究作者姓名:谭蕴琨申请
3、学位级别:工程硕士工程领域名称:软件工程校内指导教师姓名、职称:朱金辉副教授校外指导教师姓名、职称:韩俊高级工程师论文形式:ꇶ产品研发ꇶ工程设计√应用研究ꇶ工程/项目管理ꇶ调研报告研究方向:商务智能论文提交日期:2015年3月1日论文答辩日期:2015年3月25日学位授予单位:华南理工大学学位授予日期:年月日答辩委员会成员:主席:闵华清委员:董守斌、袁峰、蔡毅、朱金辉华南理工大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进斤研究所。取得的研究成果除了文中特别加W标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰
4、写的成果作品。对本文的研究做出重要贡。献的个人和集体,均已在文中明确方式标明本人完全意识到本声明的I法律后果由本人承担。/^0■2,作者签名:厮曰期佑礎:方5令月曰学位论文版权使用授权书、艮:本学位论文作者完全了解学校有关保留使用学位论文的规定,P研究生在校攻读学位期间论文工作的知识产权单位属华南理工大学。学校有权保存并向国家有关部口或机构送交论文的复印件和电子版,允许学位论文被查阅(除在保密期内的保密论文外);学校可公布学位论文的全、、部或部分内容,可W允许采用影印缩印或其它复制手段保存汇编学位一论文。本人电子文
5、档的内容和纸质论文的内容相致。本学位论文属于:□保密,在年解密后适用本授权书。同意在校园网上发布,供校内师生和与学校有共享协议巧^保密,的单位浏览;同意将本人学位论文提交中国学术期刊(光盘版)电子杂志社全文出版和编入CNKI《中国知识资源总库》,传播学位论文的全部或部分内容。""(请在上相应方框内打V):作者签名日期:签.:,指导教师名日期2^7I(yV摘要在大数据时代的今天,各行业都积累了海量数据,这些数据有数量大、维度高、速度快、稀疏和类别不平衡等特点。批量学习方法需要提前获得全部特征,保存所有样本和模型,
6、计算量庞大,更新模型参数需要重新学习所有样本、代价高。本文研究的在线学习算法以迭代的方式学习,每次迭代选择一个样本更新模型参数,只需要保存模型参数和当前样本、节省存储空间,不需要重复学习训练样本,更适合解决海量高维数据的学习问题。传统的在线学习算法每个特征都有一个值,容易受存储空间和测试时间的限制。在线特征选择是在迭代地学习预测模型的同时选择一个特征子集,即让模型只包括小部分特征,由此可以简化模型、减少计算、消除噪声和冗余数据,提高模型的泛化能力。本文主要研究在线特征选择问题,提出PA截断梯度算法。这个算法利用PassiveAggressive思想学习线性模型,
7、在模型迭代更新的同时增加截断梯度使它稀疏,然后用截断算法选择出最重要的一部分特征。针对多任务数据集情况,本文提出一种协同的在线特征选择算法。同时学习多个互相独立且有关系的任务,每个任务综合全局模型和单任务模型学习一个协同模型,在协同模型更新的同时选择特征子集。针对不平衡数据情况,本文从算法和数据两个角度对PA截断梯度算法修改,提出两种算法:一、不平衡间隔PA截断梯度算法:要求多数类、少数类样本满足不同的分类间隔,以使分类超平面接近理想位置;二、过采样PA截断梯度算法:通过人工合成少数类样本提高少数类样本在特征空间的密度。测试结果表明本文提出的算法在多个数据集上可
8、以得到更好的学习效果。关
此文档下载收益归作者所有