基于pca的svm算法在网络欺诈行为中的研究与应用

基于pca的svm算法在网络欺诈行为中的研究与应用

ID:26924223

大小:51.00 KB

页数:5页

时间:2018-11-30

基于pca的svm算法在网络欺诈行为中的研究与应用_第1页
基于pca的svm算法在网络欺诈行为中的研究与应用_第2页
基于pca的svm算法在网络欺诈行为中的研究与应用_第3页
基于pca的svm算法在网络欺诈行为中的研究与应用_第4页
基于pca的svm算法在网络欺诈行为中的研究与应用_第5页
资源描述:

《基于pca的svm算法在网络欺诈行为中的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于PCA的SVM算法在网络欺诈行为中的研究与应用摘要:随着信息时代的蓬勃发展,网络订单无序的爆炸式膨胀,交易数据可能出现的信息失真使得快速交易的风险呈指数增长,导致越来越多的网络欺诈行为被推向了风口浪尖。本文通过分析网络机票订单的历史数据,采用主成分分析(PrincipalponentAnalysis,PCA)的方法对其特征空间进行降维,运用支持向量机(SupportVectorMachine,SVM)算法进行模型训练,从数据和模型层面得到分类预测模型,从而实现对网�j订单欺诈行为的风险预测和监控。中国8/vie  关键词:主成分分析;支持向量机;特征空间;风险控制  

2、中图分类号:TP311文献标识码:A:1009-3044(2016)35-0046-02  TheResearchandApplicationofSVMAlgorithmBasedonPCAinNetalUniversity,Guizhou550025,China)  Abstract:es,theinflationit’snoarrangementstoonlineorderingandtheinformationdistortionthatthetransactiondatamayappearmakestheriskoftherapidgrootemoreandmor

3、eonlinefraudtothetop.Theassignment,accordingtoanalysisthehistoricdataofonlineflightandthefeaturespaceisreducedbythemethodofprincipalponentanalysis,andusemodeltrainingtosupportvectormachinealgorithm.Andodel,thustorealizethepredictionandmonitoringoftheonlinefraud.  Keyanagement  1前言  在大数据时代

4、,随着互联网、物联网、云计算等技术如火如荼的运用于世界的各个领域,渗透到医疗、科技、教育、经济等社会的各个层面,信息技术将“大数据”推向了一个新的高度,由于网络订单的日益流行,其行为方式在强大的高频交易和程序化交易中凸显出强烈的反差。网络欺诈行为频频发生,使得数据的真实性和有效性屡见报端。因此,本文通过分析网络机票历史订单的交易记录,对海量的交易数据进行人工分类、数据预处理、主成分分析降维后,利用支持向量机算法建立诈骗行为的分类预测模型,对未知的订单数据进行预测,从而实现网络欺诈行为的监控服务。  2大数据风控的现状  全球知名咨询公司麦肯锡提出:“数据,已经渗透到当今每

5、一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”[1]  如今,在互联网技术和信息技术的推动下,海量数据已然摆在面前,是机遇必然伴随着挑战,[3]大数据风险控制的浪潮已然深深撼动了整个世界,成为发达国家互联网领域的标准配置。由于交易要求更快速的交易通道和更高效的策略模型,从而需要搭建风控平台,将风控与大数据相结合,通过分析海量的网络交易及行为数据,运用大量的指标构建能够对大量风险因子的相关性进行描述、估测和模拟的统计模型,力图探索灵活、准确、高效描述各高维风险因子之间的相依性,对其进行预测评估,进而

6、实时风险预测和交易监控。  3实验过程  3.1数据获取  本实验的实验环境来源于R3.2.3,实验语言为R语言,实验数据来源于某公司机票订购网站的真实交易信息,由于网站上线的产品变化,欺诈行为的特征随之变化,早期的数据可能成为噪声点。因此,本文只选择近两年的交易数据进行实验。  3.2人工选择  由于非外卡交易数据量非常庞大,这可能会带来预处理和模型训练过程的内存压力,因此需要消除相应的冗余数据,通过对机票业务的了解,人工从经验或直观上选择字段特征,直接过滤掉与欺诈行为无关的客观信息,如:订单编号、车票编码、供应商id等特征。  3.3数据预处理  由于原始数据的特征是

7、数据分析的重点,在大量的数据字典中需要对数据集做去重处理,对于缺失值的处理,本文使用已有值的平均值来填补缺失数据。  3.4特征抽取和选择  3.4.1量化选择  通过量化选择,采用信息熵的方法计算各特征字段给分类(欺诈/非欺诈)系统所带来的信息增益量,从而权衡和量化字段特征的重要性,信息增益越大,特征字段越重要。本文选用信息增益量前20的字段作为模型特征来进行实验。  3.4.2特征编码  从选出的特征字段中,对类别型特征进行编码。遍历整列数据,依次将特征重组成一组新的向量,每个不同的特征对应一个向量标号,改向量索引特征中的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。