基于支持向量机的孤立点检测方法研究

基于支持向量机的孤立点检测方法研究

ID:33661937

大小:7.17 MB

页数:114页

时间:2019-02-28

基于支持向量机的孤立点检测方法研究_第1页
基于支持向量机的孤立点检测方法研究_第2页
基于支持向量机的孤立点检测方法研究_第3页
基于支持向量机的孤立点检测方法研究_第4页
基于支持向量机的孤立点检测方法研究_第5页
资源描述:

《基于支持向量机的孤立点检测方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大连理工大学博士学位论文摘要孤立点检测是数据挖掘领域的重要内容之一。孤立点检测可以发现不具备一般数据特性的数据,进而发现潜在的有用信息。孤立点检测可以应用到很多实际领域,如信用卡欺’诈检测、故障诊断、医学诊断、网络入侵检测和信息检索等。近年来很多国内外学者着力于结合支持向量机技术进行孤立点检测应用,其成果颇丰。然而随着研究的不断深入和应用范围的不断扩大,现存方法遇到了一些障碍,检测模型的泛化能力和稳定性能也存在诸多问题。由于上述原因,本文以基于支持向量机的孤立点检测为题进行研究,以期提供更加高效稳定的孤立点检测方法,主要研究内容

2、如下:1、一类支持向量机及其改进算法进行孤立点检测问题研究。实际应用中训练集通常包含大量的有标签正常样本,但只包含少量或者根本不存在有标签孤立点样本,这种情况下一类支持向量机表现出优势,但是由于算法对坐标原点依赖性强、参数不易选择等原因造成孤立点检测的误报率较高。针对这些问题本文首先利用受试者工作特征分析技术作为性能评价标准,使用两种参数搜索方法对模型进行优化,进而获得最佳决策函数。其次,设计了“局部密度一类支持向量机”算法,为每个样本测量数据局部密度并加到对应的松弛变量上,在训练过程中包含这些信息将有助于获得更理想的决策函数。

3、此外,提出了“孤立点一类支持向量机”算法,通过综合距离和概率输出两种标准在无标签训练集中探测可疑孤立点,然后在特征空间刻画与可疑孤立点保持最大间隔的分类超平面,并在此基础上提出了一种根据数据异常程度动态更新数据样本的方法,提供了稳定高效的检测性能。2、数据预处理技术改善孤立点检测中支持向量分类器性能问题研究。支持向量机进行分类操作的时候,决策超平面会受到数据库中孤立点干扰而发生偏移;其原因在于孤立点在训练过程中易于成为边界支持向量,从而对最后的决策函数做出较大贡献:另外数据维数过高也会降低分类效率和性能。为此本文提出使用数据预处

4、理方法改善分类器性能,通过主成分分析处理训练数据,为远离聚簇中心孤立点设置较小的权值,这样孤立点对最终决策函数起到的作用将大大降低,从而缓解决策超平面被偏移的问题,提出的方法被成功地应用到蛋白质亚细胞定位预测领域。针对高维数据会影响分类器性能的问题,利用高斯过程潜变量模型来抽取特征,并且设计了阶梯跳跃式降维方法,为获得良好分类性能提供了保障。3、使用混合策略的孤立点检测研究。孤立点检测应用中数据存在不平衡的特点,两类样本数量比例失调,将支持向量机的分类超平面向预测大类正常样本的方向倾斜,进而能够将孤立点样本全部识别为正常样本。本

5、文首先结合两种支持向量机算法提出了一个两阶段的孤立点检测方法;集成不同权值改进半监督的一类支持向量机对数据集进行重采样,执行过程中通过设定较低权值降低孤立点的信息量,除去部分正基于支持向量机的孤立点检测方法研究常样本从而平衡两类样本的比例:使用代价敏感支持向量机执行孤立点检测操作,以两种误分类代价线性和最小为目标,实现了代价敏感孤立点挖掘。其次结合集成学习方法改进支持向量分类器的性能,利用聚类算法分解正常样本与孤立点样本作为单个分类器的输入,综合不同分类模型的输出结果改善孤立点检测性能。对于大类正常样本,使用聚类算法分解成多个部

6、分,并分别计算与小类样本之间的距离,通过综合打分系统排除最远和最近的聚类;对于小类孤立点样本,使用一类支持向量机进行训练,在对应的支持向量样本上进行过采样操作;两种数据重采样方法的目的均在于平衡样本集以获得更理想的分类超平面。本文提出的混合策略方法能够提高检测率,降低误报率,同时将误分类代价降到最低。关键词:支持向量机;孤立点检测;一类分类;不平衡分类;核方法一II—大连理工大学博士学位论文ResearchonOutlierDetectionBasedonSupportVectorMachinesAbstractOutlierd

7、etectionreferstotheproblemoffindingpatternsindatathatdonotcon-formtoexpectedbehavior.Thesenonconformingpatternsoftenimplypotentiallyusefulinformation.Outlierdetectionisoneofthemostimportantcontentsinthedatamimngcommunity.Outlierdetectionfindsextensiveuseinawidevariet

8、yofapplicationssuchauscreditfrauddetection,faultdetection,healthcare,intrusiondetectionfornetworksecurity,imageretrieval.Inrecentye

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。