基于决策树的海量时序不均衡数据下预测系统的研究

基于决策树的海量时序不均衡数据下预测系统的研究

ID:33088056

大小:7.91 MB

页数:231页

时间:2019-02-20

基于决策树的海量时序不均衡数据下预测系统的研究_第1页
基于决策树的海量时序不均衡数据下预测系统的研究_第2页
基于决策树的海量时序不均衡数据下预测系统的研究_第3页
基于决策树的海量时序不均衡数据下预测系统的研究_第4页
基于决策树的海量时序不均衡数据下预测系统的研究_第5页
资源描述:

《基于决策树的海量时序不均衡数据下预测系统的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、东北大学博士学位论文基于决策树的海量时序不均衡数据下预测系统的研究姓名:邵华申请学位级别:博士专业:计算机应用技术指导教师:赵宏20041101东北大学博士学位论文摘要摘要从上世纪末开始,随着数据挖掘技术的逐渐成熟,在欺诈识别中应用数据挖掘技术的研究成为一个重要研究领域。其中海量、时序和不均衡是这类应用的基本特点。对此本文从数据预处理中的属性构造技术、决策树分支测度理论、分支测度的试验方法、数据挖掘预测模型的应用方法论等四个方面对基于决策树的海量时序不均衡预测问题进行了系统和深入的研究工作,提出了一个海量时序不均衡的预测系

2、统。其中,本文作者的创造性工作主要体现在如下儿个方面:了数据预处理中的属性构造技术(1)提出了属性构造中的属性关系一致等原则。由于无限制属性构造会产生属性关系不一致问题,产生具有欺骗性的数据。属性构造中的属性关系一致等原则规范了数据挖掘应用中属性构造的使用条件,避免了产生的预测模型在实际应用中失效。cz)提出了时序计数算子及其增量算法。时序计数算子可以避免时序数据下的属性关系不一致问题。针对该算法过大的计算代价,作者又提出了时序计数算子的增量算法。对于可以提供增量数据的应用系统,由于其源数据的处理周期通常可以满足增量算法的

3、要求,增量算法只需处理少量的增量数据,因此该算法具有很高的应用价值。r决策树分支测度理论(3)提出了分支测度的线性距离准则和广义距离准则。首先提出了研究决策树算法和分支测度的应用目的。然后定义了决策树的等价关系并指出了分支测度的可转化性,指出了分支测度的主要参数形式:简化参数矩阵以及不纯度理论在东北大学博士学位论文摘要参数定义上的重要问题,提出了一种理想形式下的测度准则,线性距离测度准则。通过分析测度的兴趣与分支钡9度相结合的形式及其影响,并以保证分支测度(决策树)可以具有多种兴趣偏好为目的,提出了一个具有应用更广泛、描述

4、更深刻的表现测度数学共性的广义距离测度准则。随后在证明核函数为泛半纯函数的测度满足广义距离准则的基础上,证明了现有的几种测度族(理论)均符合广义距离测度理论,并逐个指出现有“针对连续数据”的测度在分析以离散数据为主的数据时具有的自身问题。r决策树分支测度的试验方法<4)提出了一个更能完整揭示分支测度特性的遍历式试验方法,并通过试验既部分地验证了广义距离理论,也找到适合海量不均衡数据的分支测度。在目前对分支测度最完整的试验里,提出了基于简化参数矩阵和列联表两种数据构造算法。然后通过比较在不同分布下的分支测度值来更进一步地分析

5、测度值曲面、验证测度遵守广义距离准则的最小值和最大值子准则、评估测度的计算复杂度、验证是否存在多分支偏、验证是否具有凹函数性以及测度是否具有优势类偏等测度的计算特性。从试验结果看对于海量不均衡的预测问题,卡方统计量要比其他测度明显要好,而且所有测度均满足广义距离准则的最小值和最大值子准则。r数据挖掘预测模型的应用方法论(5)提出了一种海量时序不均衡预测系统的多策略应用框架。它针对一般性的海量时序不均衡的预测问题以及提高数据挖掘应用系统的有效性,结合前面章节的研究结果,并采用与神经元网络杂交的决策树算法、全面支持两段式的数据

6、挖掘过程、面向多级别用户、过程可视化、在线欺诈识别和计划审计相结合的欺诈识别策略、审计收益代价平衡策略、“委任专家”的多分类器预测模型和分布式多任务处理模式等多种策略和特性。最后,以海关报关欺诈识别项目为背景并结合前面章节的研究结果,作者设-III-东北大学博士学位论文摘要计并实现了一个基于决策树的海量时序不均衡预测系统;对数据处理的流程和各个构成模块的功能进行了介绍;并给出了这个系统的最终模拟试验结果。一方面,应用的模拟试验结果说明了这个欺诈识别可以满足项月所需的要求。另一方面,在这个系统里所应用的研究成果,包括数据分析

7、处理各过程的流程、策略、方法、算法、理论和技术等通过了实际的检验,并起了卜分显著甚至决定性的作用。尽管这些内容只是在这个欺诈识别应用里使用,但是由于这些技术和方法等针对的是海量时序不均衡预测系统,因此它们可以被看成为数据挖掘理论和应用技术里一个组成部分。关键词:数据挖掘知识发现决策树欺诈识别属性构造计数算子海量时序不均衡预测系统-ro-东北大学博士学位论文ABSTRACTAbstractFromtheendoflastcentury,withtheDataMiningtechnologymaturinggradually,

8、theresearchonapplyingDataMiningtechnologyintofrauddetectionbecomesoneimportantresearchfield.Here,thedatainsuchtypeapplicationshavethesamebasicatributes:

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。