《侦查欺诈交易》PPT课件

《侦查欺诈交易》PPT课件

ID:38644147

大小:297.70 KB

页数:58页

时间:2019-06-16

《侦查欺诈交易》PPT课件_第1页
《侦查欺诈交易》PPT课件_第2页
《侦查欺诈交易》PPT课件_第3页
《侦查欺诈交易》PPT课件_第4页
《侦查欺诈交易》PPT课件_第5页
资源描述:

《《侦查欺诈交易》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、侦查欺诈交易郝召马骁为什么研究欺诈交易数据挖掘的结果有助于公司的事后检查活动数据挖掘过程能够提供某种欺诈概率排序作为输出结果,可以使公司以最佳方式来利用其事后检查资源应用方面:信用卡交易、税务申报检验等本章新的数据挖掘主题:离群值活异常值检验、聚类分析、办监督预测模型问题的描述与目标欺诈行为通常与异常的观测值相关联,因为这些欺诈行为是偏离常规的。在多个数据分析领域,这些偏离常规的行为经常称为离群值问题的描述与目标本案例使用的数据时某公司的销售员所报告的交易数据。这些销售员负责销售该公司的产品并定期报告销售情况。销售员可以按照自

2、己的策略和市场情况来自由设置销售价格。月末,向公司报告销售情况。数据挖掘应用的目的是根据公司过去发现的交易报告肿的错误和欺诈企图,帮助公司完成核实这些销售报告的真实性的工作。提供一份欺诈率排名报告,这个欺诈率排名将允许公司把有限的检验资源分配给系统提示的更“可疑”的那些报告可用的数据数据来自一个未公开的渠道共401146行,每一行包括来自销售员报告的信息。包括:ID:说明销售员ID的一个因子变量Prod:说明销售产品ID号的一个因子变量Quant:报告该产品销售的数量Val:报告销售记录的总价值Insp:有三个可能值的因子变量

3、——ok表示公司检查了该交易并认为该交易有效;fraud表示发现该交易为欺诈;unkn表示该交易未经过公司审核。加载数据library(DMwR)data(sales)head(sales)得到一个名为sales的数据框探索数据集Summary()函数可以使人们出不了解数据的统计特征summary(sales)数据中有大量的产品和销售人员信息探索数据集还可以用nlevels()来确认这一点nlevels(sales$ID)nlevels(sales$Prod)探索数据集如果在同一个交易中Quant列和Val列有大量的缺失值,就

4、会产生比较严重的问题,这回导致一条销售交易中的有关销售量的关键信息缺失。检验如下:length(which(is.na(sales$Quant)&is.na(sales$Val)))sum(is.na(sales$Quant)&is.na(sales$Val))探索数据集欺诈行为的比例对于总体而言是很低的table(sales$Insp)/nrow(sales)*100绘制每个交易人员的交易数量和每个产品的交易数量图形totS<-table(sales$ID)totP<-table(sales$Prod)barplot(tot

5、S,main='Transactionspersalespeople',names.arg='',xlab='Salespeople',ylab='Amount')barplot(totP,main='Transactionsperproduct',names.arg='',xlab='Products',ylab='Amount')探索数据集探索数据集检查产品单位价格的分布:sales$Uprice<-sales$Val/sales$Quantsummary(sales$Uprice)Min.1stQu.MedianMean

6、3rdQu.Max.NA's0.008.4611.8920.3019.1126460.0014136探索数据集检查最贵的和最便宜的产品用单位价格的中位数来代表已经销售的产品的标准价格attach(sales)upp<-aggregate(Uprice,list(Prod),median,na.rm=T)topP<-sapply(c(T,F),function(o)upp[order(upp[,2],decreasing=o)[1:5],1])colnames(topP)<-c('Expensive','Cheap')topP探

7、索数据集用上述5个产品的单位价格的箱图来确认它们完全不同的价格分布:tops<-sales[Prod%in%topP[1,],c('Prod','Uprice')]tops$Prod<-factor(tops$Prod)boxplot(Uprice~Prod,data=tops,ylab='Uprice',log="y")探索数据集找出那些给公司带来更多(少)资金的销售人员:vs<-aggregate(Val,list(ID),sum,na.rm=T)scoresSs<-sapply(c(T,F),function(o)vs[

8、order(vs$x,decreasing=o)[1:5],1])colnames(scoresSs)<-c('Most','Least')scoresSs探索数据集给公司带来更多资金的前100名销售人员的资金收入几乎占公司资金收入的40%,而底部的2000人的总收入不足公司

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。