犯罪网络中的数据挖掘

犯罪网络中的数据挖掘

ID:22075822

大小:640.00 KB

页数:13页

时间:2018-10-19

犯罪网络中的数据挖掘_第1页
犯罪网络中的数据挖掘_第2页
犯罪网络中的数据挖掘_第3页
犯罪网络中的数据挖掘_第4页
犯罪网络中的数据挖掘_第5页
资源描述:

《犯罪网络中的数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、犯罪网络中的数据挖掘技术研究姓名:杨德品学号:1200901892专业:计算机软件与理论引言数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。数据挖掘使用一定的算法从实际应用数据中挖掘出未知、有价值的模式或规律等知识,整个过程由数据准备、数据挖掘、模式评估、巩固知识和运用知识等步骤组成。引言互联网的不断发展和网民数量的不断增加,使犯罪分子利用网络犯罪与日俱

2、增。网络信息传播的便捷与迅速使得网络成为犯罪分子犯罪的重要手段。面向社会网络分析的数据挖掘方法是社会网络分析中的基本而重要的功能,这一功能对于犯罪网络分析同样基本而重要。犯罪网络分析主要是研究组织犯罪的,例如恐怖活动,毒品交易,欺诈行为,团体犯罪等。引言电子证据:电子证据是以数字的形式保存在计算机存储器或外部存储介要质中,能够证明案件真实情况的数据或信息,包括电子合同、电子信件、电子签名、聊天记录等。实体:主要是文本中的专有名称,例如人名、地名、机构名、网号、网址、邮箱、IP以及时间表达式和数字表达式。实体识别方法:基于规则的方法、基于语料库的方法、

3、基于统计语言模型、最大熵模型以及多种模型相结合的方法。本文采用基于规则和语料库的方法。引言实体关系:需要预先定义,如亲属关系、师生关系等。实体关系抽取:是信息抽取的重要组成部分,目的在于发现用户需要的信息。抽取方法有知识库的方法和机器学习的方法。本文用CNCD算法来挖掘犯罪子网和核心人物。算法思想:构建带有边权重的人物关系图,利用层次聚类的方法分析得到犯罪子网,根据人物的联系度、中介度和紧密度来计算核心度,识别出核心人物。关键技术一、实体识别识别出文本中出现的专有名词和有意义的数量短语,并加以归类。基于规则的方法:需要人工定义规则,费时费力,一方面规

4、则的完备性受到质疑,另一方面规则之间的差异性很难界定,不适用于信息量庞大的关系抽取领域。基于语料库和统计语言模型:是经典的机器学习的方法,特殊领域准确率和召回率达到90%以上。遇到的问题:不规范的人名很难识别、特殊的人名和地名很难区分、复合名词很难准确确定范围。关键技术二、实体关系模型根据网络犯罪的特点,拓展了实体类型定义,包括人物特征属性、银行帐号等信息,然后考虑实体之间的位置关系,构建关系树,并利用关系指示词确定具体的关系类型。实体关系分类:个人的关系和组织的关系关键技术三、实体关系抽取基于特征向量的方法:将分类对象表示成所有特征构成的高维空间中

5、的一个向量,该向量表示这个对象的所有性质,避免了传统方法构建知识库的过程,提高了效率。基于核的学习算法:最早在支持向量机方法中被使用。关系树:是一种二叉树树形结构,叶子是具体的实体,中间结点是关系的类型。关键技术四、犯罪网络识别(一)犯罪子网发现矩阵置换法:NP困难问题层次聚类法:能有效的找出用相同方法作案的嫌疑犯或识别出不同的犯罪组织。包括自顶向下和自底向上两种方法。聚类依据:两点之间的关系强度,关系强度(共现次数)越大,两点之间的距离越小。关键技术(二)、六度分割定理和最短路径六度分割定理描述了社会网络的联通性质,社会中任何两个人之间只需要四个中

6、介即可建立联系。监视任意两个犯罪嫌疑人之间的联系过程,等同于网络中任意两个节点(嫌疑人)之间的最短距离,故采用Floyd算法计算最短距离,该算法的时间复杂度为O(N³)。关键技术(三)、关系分析关系分析重点在于发现网络节点之间的关系和交互行为,常被用来识别网络核心人物和子网。关键技术(四)、核心人物识别方法CNCDA)赋权值,两个犯罪实体节点之间的共现频率表示链接权重;B)求最短路径,通过Floyd算法找到任意两个节点间的最短路径,并保留距离小于等于5的最短路径。算法过程:A)根据收集的电子数据建立犯罪网络;B)采用层次聚类发掘犯罪网络子图即犯罪子团

7、伙;C)用最短路径和核心度挖掘犯罪子团伙中的核心人物。结束语本文研究的重点是定义并抽取实体关系以及挖掘关系网络中的犯罪子网和核心人物,利用六度分割理论、层次聚类和Floyd算法提出识别犯罪子网和核心人物的CNCD算法。目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。