基于聚类技术支持向量机的数据挖掘研究

基于聚类技术支持向量机的数据挖掘研究

ID:33396305

大小:2.48 MB

页数:68页

时间:2019-02-25

基于聚类技术支持向量机的数据挖掘研究_第1页
基于聚类技术支持向量机的数据挖掘研究_第2页
基于聚类技术支持向量机的数据挖掘研究_第3页
基于聚类技术支持向量机的数据挖掘研究_第4页
基于聚类技术支持向量机的数据挖掘研究_第5页
资源描述:

《基于聚类技术支持向量机的数据挖掘研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、南京邮电大学工程硕士学位论文摘要学科、专业:工学软件工程研究方向:数据挖掘技术作者:指导老师:纪伟秦军教授题目:基于聚类技术支持向量机的数据挖掘研究英文题目:InVestigateforDataMiningWithTechnologyofC1usteringandFCM关键词:数据挖掘,聚类,支持向量机,快速支持向量机Keywords:DataMining,Clustering,FCM,FSVM京邮电大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下,进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发

2、表或撰写过的研究成果,也不包含为获得南京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。研究生签名:南京邮电大学学位论文使用授权说明南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许被查阅和借阅,可以公布(包括刊登)论文的全部或部分内容。论文的公布(包括刊登)授权南京邮电大学研究生部办理。研究生签名:雌导师签名:狂一日期:业Il文摘

3、要数据挖掘就是从大量的、不完全的、杂乱的、模糊的、随机的数据中,提取隐含在其中的、不能被人们事先预知的、但又是潜在有用的信息和知识的过程,被信息产业界认为是数据库系统最重要的前沿之一,是信息产业最有前途的交叉学科。支持向量机(SVM)是近年来在统计学习理论的基础上发展起来的一种新的模式识别方法,在解决小样本、非线性以及高维模式识别问题中表现出许多特有的优势,然而,在处理海量数据的时候,支持向量机方法存在运行速度缓慢的不足。为了解决样本点过多导致训练速度太慢的问题,本文做了如下创新性工作:(1)从减小训练集规模的角度出发,使用聚类技术来保持整个数据的分布特性,同时大幅减

4、小训练数据集规模;(2)对聚类结果进行边缘提取,保留分类边界附近的支持向量;(3)使用边缘提取和聚类算法选择的样本点重构训练数据集,对新的数据集使用支持向量机方法进行分类。由于重建的训练数据集规模较小,训练程序运行速度有较大的提高,同时也保证了分类的精确度。本文提出了基于聚类技术的快速支持向量机算法(FSVM),该算法在保证了分类精度的情况下,大大缩减了训练数据的规模,从而减少了训练时间,确保了支持向量机在数据挖掘这种大数据集情况下的有效应用。本文对FSVM算法进行了仿真,通过和传统支持向量机算法进行对比,证实了FSvM算法在保证了分类精度的情况下,大大缩减了训练数据

5、的规模,从而减少了训练时间,从而确保了支持向量机在数据挖掘大数据集情况下的实用性。关键词:数据挖掘,聚类,支持向量机,快速支持向量机AbstraCtDataminingisaprocessthatpeoplecaIlex仃acthidden,infb肌ationorkIlowledge仃omm觞sive,incomplete,noisy,觎觋andstochastic纰·IthaSbeenreco鲥zedaS。ne0fthem。stinlp。rt锄tareaSint11ed龇abasesystcmbytheinfo肌ati。nindus咄Itis。nc。fmcmoSt

6、promisingimerdisciplinarysubjectsiIl舭幽rrnationindus略IIlsolvingthesm2Lllsalllple,nollline2ur锄dhi曲-dimensionalpattemrecogmtlonproblem,SVMhaSShownam盯nberof砌queadv锄协ges,howeVer,№miningisoRenfaced州tllVaSt锄。吼tsofdata.Inordertosolvingnleproblemtllat恤s锄plepointsistoolargetoleadtoslowthetraillin

7、g,tmsarticlemadesomeimloVatiVewordaLs士ollows:(1)Fromtheviewofreducingmesizeoftrainingset,theclusteringtecllllology骶euSedtosubst枷allyreducethe仃ainingdatasctsize,whilemaintaintlleentiredi咖butlon(山aracteriSticsofthedata;(2)KceptheSVSnearmeborderoftheclassiflcatlon:.(3)111es撇plepoi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。