异常点挖掘在证券业的应用研究

异常点挖掘在证券业的应用研究

ID:8430416

大小:34.31 KB

页数:5页

时间:2018-03-27

异常点挖掘在证券业的应用研究_第1页
异常点挖掘在证券业的应用研究_第2页
异常点挖掘在证券业的应用研究_第3页
异常点挖掘在证券业的应用研究_第4页
异常点挖掘在证券业的应用研究_第5页
资源描述:

《异常点挖掘在证券业的应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、___________________________________________________________________________________________异常点挖掘在证券业的应用研究   内容摘要:异常点挖掘是数据挖掘的一项功能,现有的文献较多关注于算法及其改进方面,而对于异常点挖掘过程以及如何将异常点挖掘应用于证券业缺乏深入研究。本文针对上述两个问题展开探讨,提出异常点挖掘的生命周期模型并给出该模型在证券业的应用案例,为应用的研究提供参考。   关键词:证券业异常点数据挖掘应用      证券业是一个数据密集型的行业,经过多年的发展,许多券商积累了海量的客户

2、数据。如何挖掘这些宝贵的数据资源以发现证券交易过程中隐含的不良操作,是数据挖掘在证券行业应用的重要课题。对于异常点,Hawkwins认为:一个异常点是这样一个测量值,它过分地偏离其他测量值,从而使人们对它产生怀疑,怀疑它是由不同的机理产生的。作为数据挖掘的一项功能,异常点挖掘受到众多学者的重视,但大部分的研究重点均放在算法、算法优化和改进等方面,而对异常点挖掘过程以及如何结合具体的问题域、行业背景知识进行挖掘则探讨不多。   异常点有着较强主观性,在进行异常点挖掘研究时应定义特定的挖掘背景。在证券业,异常点挖掘可以发现客户数据中的异常点或者孤立点,而这些特殊数据恰恰包含了非正常的交易。当

3、然,并不是所有的异常点都是不良操作或者违规交易,其中,有一部分异常点可能是噪音数据,有些则是真实的并且有利于券商的交易信息,例如,发现大客户或者潜在的优质客户等。基于此,本文将重点探讨完整的异常点挖掘流程及其在证券业的应用。      异常点挖掘的生命周期过程      异常点挖掘的生命周期应该包括定义目标、选择数据源、选择挖掘算法、设置初始维(组合)及域值、计算验证、迭代以及后期分析7个步骤(如图1)。   定义挖掘目标。从数据挖掘的七个步骤来看,定义目标应该是一张宽泛的、粗线条的需求定义列表,例如:对客户交易记录进行异常点挖掘,找到异常交易和可疑记录;发现不同类型客户分组中的特例,等

4、等。5_____________________________________________________________________________________________________________________________________________________________________________________   选择数据源。异常点挖掘和数据挖掘的数据源一般来说是一致的,并在其基础上根据挖掘目标进行选择和预处理。此外,为了获得更佳的挖掘效果,需要对进行异常点挖掘的数据源做预处理。大部分情况下,这类数据源的预处理将在任务开始时完成,

5、并且可以直接运用到异常点挖掘中。   选择算法。涉及异常点挖掘的算法较多,比较常用的有基于统计的算法、基于距离的算法、基于偏差的算法,每种算法都有不同的实现。在实践中需要针对不同的挖掘目标,不同的数据源,不同的资源条件,对算法做出选择和优化。   维和初始参数的选择。在异常点挖掘时,证券客户不同的维(属性)组合得到的异常点可能完全不同。有些记录在某些维度上的偏差较大,当计算包括这些维度时,往往会覆盖其他维对异常点判断的影响,而不考虑这些维时,这些点并不表现得多么“异常”。因此,需要单独考察某些维度组合上的异常情况;同时,也需要在过滤掉那些过于“异常”的维度和记录之后,考察其余维度上的异常

6、情况。除了维度的选择,在开始计算时,也要考虑域值的初始值设置。对于基于距离的异常点挖掘算法,邻域阀值k的取值非常关键,尤其对于局部异常点挖掘,k的不同取值可能产生完全不同的结果。   计算并验证异常点。挖掘算法的实现可以借助一些统计分析工具,例如SAS、SPSS等,或者是自己实现挖掘算法。相比计算,验证异常点就要困难得多,首先必须保证算法的实现是正确的,其次即使使用一个可靠的程序进行挖掘时,仍然可能会有误差和噪音干扰挖掘结果。一个办法是通过迭代计算比较多次结果后剔除,而迭代是整个异常点挖掘过程的一个必须环节;另一个办法是观察异常点数据的特征,当数据是低维(小于3维)时可以使用散点图观察样

7、本分布,通过直观比对挖掘得到的异常点位置来判断有效性。   5_____________________________________________________________________________________________________________________________________________________________________________________  迭代计算

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。