基于pca的svm算法在网络欺诈行为中的研究与应用

ID：26924223

大小：51.00 KB

页数：5页

时间：2018-11-30

资源描述：

《基于pca的svm算法在网络欺诈行为中的研究与应用》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、基于PCA的SVM算法在网络欺诈行为中的研究与应用摘要：随着信息时代的蓬勃发展，网络订单无序的爆炸式膨胀，交易数据可能出现的信息失真使得快速交易的风险呈指数增长，导致越来越多的网络欺诈行为被推向了风口浪尖。本文通过分析网络机票订单的历史数据，采用主成分分析（PrincipalponentAnalysis，PCA）的方法对其特征空间进行降维，运用支持向量机（SupportVectorMachine，SVM）算法进行模型训练，从数据和模型层面得到分类预测模型，从而实现对网�j订单欺诈行为的风险预测和监控。中国8/vie　　关键词：主成分分析；支持向量机；特征空间；风险控制　　

2、中图分类号：TP311文献标识码：A：1009-3044（2016）35-0046-02　　TheResearchandApplicationofSVMAlgorithmBasedonPCAinNetalUniversity，Guizhou550025，China）　　Abstract：es，theinflationit’snoarrangementstoonlineorderingandtheinformationdistortionthatthetransactiondatamayappearmakestheriskoftherapidgrootemoreandmor

3、eonlinefraudtothetop.Theassignment，accordingtoanalysisthehistoricdataofonlineflightandthefeaturespaceisreducedbythemethodofprincipalponentanalysis，andusemodeltrainingtosupportvectormachinealgorithm.Andodel，thustorealizethepredictionandmonitoringoftheonlinefraud.　　Keyanagement　　1前言　　在大数据时代

4、，随着互联网、物联网、云计算等技术如火如荼的运用于世界的各个领域，渗透到医疗、科技、教育、经济等社会的各个层面，信息技术将“大数据”推向了一个新的高度，由于网络订单的日益流行，其行为方式在强大的高频交易和程序化交易中凸显出强烈的反差。网络欺诈行为频频发生，使得数据的真实性和有效性屡见报端。因此，本文通过分析网络机票历史订单的交易记录，对海量的交易数据进行人工分类、数据预处理、主成分分析降维后，利用支持向量机算法建立诈骗行为的分类预测模型，对未知的订单数据进行预测，从而实现网络欺诈行为的监控服务。　　2大数据风控的现状　　全球知名咨询公司麦肯锡提出：“数据，已经渗透到当今每

5、一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。”[1]　　如今，在互联网技术和信息技术的推动下，海量数据已然摆在面前，是机遇必然伴随着挑战，[3]大数据风险控制的浪潮已然深深撼动了整个世界，成为发达国家互联网领域的标准配置。由于交易要求更快速的交易通道和更高效的策略模型，从而需要搭建风控平台，将风控与大数据相结合，通过分析海量的网络交易及行为数据，运用大量的指标构建能够对大量风险因子的相关性进行描述、估测和模拟的统计模型，力图探索灵活、准确、高效描述各高维风险因子之间的相依性，对其进行预测评估，进而

6、实时风险预测和交易监控。　　3实验过程　　3.1数据获取　　本实验的实验环境来源于R3.2.3，实验语言为R语言，实验数据来源于某公司机票订购网站的真实交易信息，由于网站上线的产品变化，欺诈行为的特征随之变化，早期的数据可能成为噪声点。因此，本文只选择近两年的交易数据进行实验。　　3.2人工选择　　由于非外卡交易数据量非常庞大，这可能会带来预处理和模型训练过程的内存压力，因此需要消除相应的冗余数据，通过对机票业务的了解，人工从经验或直观上选择字段特征，直接过滤掉与欺诈行为无关的客观信息，如：订单编号、车票编码、供应商id等特征。　　3.3数据预处理　　由于原始数据的特征是

7、数据分析的重点，在大量的数据字典中需要对数据集做去重处理，对于缺失值的处理，本文使用已有值的平均值来填补缺失数据。　　3.4特征抽取和选择　　3.4.1量化选择　　通过量化选择，采用信息熵的方法计算各特征字段给分类（欺诈/非欺诈）系统所带来的信息增益量，从而权衡和量化字段特征的重要性，信息增益越大，特征字段越重要。本文选用信息增益量前20的字段作为模型特征来进行实验。　　3.4.2特征编码　　从选出的特征字段中，对类别型特征进行编码。遍历整列数据，依次将特征重组成一组新的向量，每个不同的特征对应一个向量标号，改向量索引特征中的

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 5



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于pca的svm算法在网络欺诈行为中的研究与应用

基于pca的svm算法在网络欺诈行为中的研究与应用

相关文章

相关标签