基于邮件挖掘社会网络核心层的新方法

基于邮件挖掘社会网络核心层的新方法

ID:15479012

大小:35.00 KB

页数:13页

时间:2018-08-03

基于邮件挖掘社会网络核心层的新方法_第1页
基于邮件挖掘社会网络核心层的新方法_第2页
基于邮件挖掘社会网络核心层的新方法_第3页
基于邮件挖掘社会网络核心层的新方法_第4页
基于邮件挖掘社会网络核心层的新方法_第5页
资源描述:

《基于邮件挖掘社会网络核心层的新方法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于邮件挖掘社会网络核心层的新方法第31卷第3期2010年6月大连交通JOURNALOFDAUAN大学JI.AOTONGUNIVERSITYV01.31N0.3Jun.2010文章编号:1673—9590(2010)03-0092-05基于邮件挖掘社会网络核心层的新方法田宏,马朝阳(大连交通大学软件学院,辽宁大连116028)摘要:社会网络分析应用于挖掘各组织及组织内部成员之间通信行为,是一种新的研究方法,在分析基于邮件构成的网络基础上,提出一种挖掘社会网络核心层的新方法MCCY.该方法首先删除结点度小于一定阈值的结点,再运用社团结构及中心度分

2、析找出部分网络核心成员,最后结合已删除的结点得出完整的网络核心层.实验结果显示,该方法可以找出全部的网络核心成员,且在一定程度上解决了大型网络不容易计算的问题.关键词:社会网络;社团结构;结点度;核心成员;核心层中图分类号:TP311.11文献标识码iA0引言互联网给人们带来了很多方便和好处,通过浏览和搜索可以访问到很多需要的信息,但这也意味着在电脑保护系统中打开了一些"通道".电子邮件不仅仅成为了人们工作中的必需工具,也是人与人之间通信的重要方法.连通的迅速,使用的便利,成本的低廉使电子邮件成为了继语音通信后第二大流行的通信手段….通信过程中

3、潜伏着巨大的安全隐患,对于某些专门的安全部门,邮件截获效率与处理效率不成比例,在海量邮件数据中漫无目的的搜寻目标为安全工作带来了极大的困难.针对已截获可疑邮箱中存在的海量电子邮件,研究了如何对海量邮件数据进行分析处理,如何有效准确的挖掘出面向安全部门的敏感社团,并在此基础上挖掘网络核心成员.1相关工作作为社会网络分析的新的分支,犯罪网络(CrimeNetwork)的研究受到各国政府和相关机构的特别关注,已经研究了通过分析相关事件消息,将犯罪组织社会网络可视化的技术].文献[3]从相关报道中挖掘出911恐怖袭击事件的19个参与者的社会网络.文献[

4、4]开发出了一种基于层次贝叶斯推理构建恐怖组织网络结构的工具NETEST,可预测犯罪网络规模,确定成员关系.目前,国内在利用社会网络对犯罪组织的研究工作多集中于社团结构(社会网络子集)挖掘和核心人物查找方面,挖掘素材主要针对电子邮件,BBS和聊天室等.如:文献[5]在聊天室数据时序性的基础上利用启发式规则推断出聊天室用户的网络关系;文献[6]结合时序性和内容相似性挖掘聊天室的社会网络关系;文献[7]在电子邮件数据中对时间属性,内容信息和地址数据进行逐层分析和筛选过滤之后挖掘原始邮件数据背后隐含的社团结构;文献[8]用中介度来挖掘邮件网络中的社团

5、结构;文献[9]设计了一种基于个性特征的仿真邮件分析系统MEP,提出一种利用个性特征判别矩阵计算个性特征矢量各个维度权重的新方法,借助符合用户个性特征的正态分布模型模拟真实的邮件通信行为,为了挖掘犯罪网络的核心,提出了一种基于社会网络分析挖掘犯罪组织核心的算法.收稿日期:2009.10—19基金项目:辽宁省教育厅高等学校科学研究计划资助项目(2008093)作者简介:田宏(1968一),女,副教授,博士,主要从事人工智能,数据挖掘等工作的研究E?mail:mcy8214@126.com.第3期田宏,等:基于部件挖掘社会网络核心层的新方法932社

6、会网络的建立及挖掘核心层分析2.1对于设置阈值构建的社会网络分析首先说明一些相关概念:定义1结点度的概念J.结点的度定义为与此结点具有连接关系的结点的数量.定义2社团结构的概念J.如果网络图中的子集满足以下条件,便可以称该子集具有社团结构:每个子集各自的顶点之间有许多连线,而该子集与其它子集之间几乎没有连线.寻找一个网络图中的社会关系是识别相关结点群组的一种有效方法.定义3图的中心势¨.用中心势刻画网络图的整体中心性,以达到比较不同图的中心趋势的目的.在邮件头,邮件体的解析和提取工作已经完成,并将按特定格式取出的邮件信息存储到数据库对应的表中之

7、后就可以构建社会网络了.文献[8]的做法是:根据电子邮件地址数据直接构造出一个网络图,图中顶点代表联系人,顶点之间的连线表示某两个联系人具有相互关系.通过设定阈值,选取收(发)件数量(即结点的度)大于阈值的邮件地址,以符合条件的邮件地址为基本地址集合,构造出网络联系图.阈值的设置可以排除掉认为是偶然事件产生的噪声数据,阈值的改变会影响网络图的构成情况.按照设定的阈值构造出初始网络图,将邮件信息进行了初步,粗略的筛选,并通过邻接矩阵对网络图进行描述和存储.设置阈值虽然消除了一定的噪声,但也可能删除了一些对整个网络来说重要的结点,因为有些结点处于网

8、络中的重要位置但是结点度比较小,阈值(结点的度)小的结点不一定是不重要的结点.如附图所示A结点明显处于网络的重要位置,是联结两个社团结构的关键,但结点

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。