欢迎来到天天文库
浏览记录
ID:26924223
大小:51.00 KB
页数:5页
时间:2018-11-30
《基于pca的svm算法在网络欺诈行为中的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于PCA的SVM算法在网络欺诈行为中的研究与应用摘要:随着信息时代的蓬勃发展,网络订单无序的爆炸式膨胀,交易数据可能出现的信息失真使得快速交易的风险呈指数增长,导致越来越多的网络欺诈行为被推向了风口浪尖。本文通过分析网络机票订单的历史数据,采用主成分分析(PrincipalponentAnalysis,PCA)的方法对其特征空间进行降维,运用支持向量机(SupportVectorMachine,SVM)算法进行模型训练,从数据和模型层面得到分类预测模型,从而实现对网�j订单欺诈行为的风险预测和监控。中国8/vie 关键词:主成分分析;支持向量机;特征空间;风险控制
2、中图分类号:TP311文献标识码:A:1009-3044(2016)35-0046-02 TheResearchandApplicationofSVMAlgorithmBasedonPCAinNetalUniversity,Guizhou550025,China) Abstract:es,theinflationit’snoarrangementstoonlineorderingandtheinformationdistortionthatthetransactiondatamayappearmakestheriskoftherapidgrootemoreandmor
3、eonlinefraudtothetop.Theassignment,accordingtoanalysisthehistoricdataofonlineflightandthefeaturespaceisreducedbythemethodofprincipalponentanalysis,andusemodeltrainingtosupportvectormachinealgorithm.Andodel,thustorealizethepredictionandmonitoringoftheonlinefraud. Keyanagement 1前言 在大数据时代
4、,随着互联网、物联网、云计算等技术如火如荼的运用于世界的各个领域,渗透到医疗、科技、教育、经济等社会的各个层面,信息技术将“大数据”推向了一个新的高度,由于网络订单的日益流行,其行为方式在强大的高频交易和程序化交易中凸显出强烈的反差。网络欺诈行为频频发生,使得数据的真实性和有效性屡见报端。因此,本文通过分析网络机票历史订单的交易记录,对海量的交易数据进行人工分类、数据预处理、主成分分析降维后,利用支持向量机算法建立诈骗行为的分类预测模型,对未知的订单数据进行预测,从而实现网络欺诈行为的监控服务。 2大数据风控的现状 全球知名咨询公司麦肯锡提出:“数据,已经渗透到当今每
5、一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”[1] 如今,在互联网技术和信息技术的推动下,海量数据已然摆在面前,是机遇必然伴随着挑战,[3]大数据风险控制的浪潮已然深深撼动了整个世界,成为发达国家互联网领域的标准配置。由于交易要求更快速的交易通道和更高效的策略模型,从而需要搭建风控平台,将风控与大数据相结合,通过分析海量的网络交易及行为数据,运用大量的指标构建能够对大量风险因子的相关性进行描述、估测和模拟的统计模型,力图探索灵活、准确、高效描述各高维风险因子之间的相依性,对其进行预测评估,进而
6、实时风险预测和交易监控。 3实验过程 3.1数据获取 本实验的实验环境来源于R3.2.3,实验语言为R语言,实验数据来源于某公司机票订购网站的真实交易信息,由于网站上线的产品变化,欺诈行为的特征随之变化,早期的数据可能成为噪声点。因此,本文只选择近两年的交易数据进行实验。 3.2人工选择 由于非外卡交易数据量非常庞大,这可能会带来预处理和模型训练过程的内存压力,因此需要消除相应的冗余数据,通过对机票业务的了解,人工从经验或直观上选择字段特征,直接过滤掉与欺诈行为无关的客观信息,如:订单编号、车票编码、供应商id等特征。 3.3数据预处理 由于原始数据的特征是
7、数据分析的重点,在大量的数据字典中需要对数据集做去重处理,对于缺失值的处理,本文使用已有值的平均值来填补缺失数据。 3.4特征抽取和选择 3.4.1量化选择 通过量化选择,采用信息熵的方法计算各特征字段给分类(欺诈/非欺诈)系统所带来的信息增益量,从而权衡和量化字段特征的重要性,信息增益越大,特征字段越重要。本文选用信息增益量前20的字段作为模型特征来进行实验。 3.4.2特征编码 从选出的特征字段中,对类别型特征进行编码。遍历整列数据,依次将特征重组成一组新的向量,每个不同的特征对应一个向量标号,改向量索引特征中的
此文档下载收益归作者所有