社会网络中的数据挖掘方法

社会网络中的数据挖掘方法

ID:6346861

大小:24.50 KB

页数:4页

时间:2018-01-10

社会网络中的数据挖掘方法_第1页
社会网络中的数据挖掘方法_第2页
社会网络中的数据挖掘方法_第3页
社会网络中的数据挖掘方法_第4页
资源描述:

《社会网络中的数据挖掘方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、社会网络中的数据挖掘方法摘要:随着Web2.0技术的发展,社交网络在人们生活中所起的作用越来越大,社会网络分析越来越多得受到人们的重视,将数据挖掘的方法应用于社会网络分析成为数据挖掘研究的一个新的方向。如何从庞大冗杂的社会网络数据中挖掘出有用的信息成为广大学者研究的问题,并且当前关于社区挖掘的绝大多数方法都假定社会网络中只存在一种关系,挖掘结果并不完全符合用户的真实需求。因此,本文将从节点依赖性着手分析社会网络中数据之间的联系,从链接挖掘入手,分析得出关联分析和聚类分析这两种数据挖掘方法,并在此基础上简要探讨了多关系社会网络的数据挖掘方法。关键字:社会网络;数据挖掘;关联

2、分析;聚类分析;多关系传统的机器学习和数据挖掘任务处理的对象是单独的数据实例,这些数据实例往往可以用一个包含多个属性值的向量来表示,同时这些数据实例之间假设是统计上独立的。然而在社会里,人与人不是简单的统计上独立的采样点,他们之间必然存在着联系和影响。忽视了这种联系会对数据挖掘效果带来很大的影响。为了解决这个问题,必须将数据实例之间的关系同时考虑进来,从而人们提出了社会网络的概念,试图用图结构来刻画这种社会结构。将数据挖掘的方法应用于社会网络分析是数据挖掘研究的一个新的方向。社会网络分析又称为链接挖掘(linkmining),节点代表社会网络中个体或团体,链接表示了个体之

3、间存在的各种关系(relation),如朋友关系、亲属关系、贸易关系、性关系等。通过对链接的挖掘我们可以获得关于实例更丰富(如某个实例在整个网络中的重要性)、更准确(如预测某个实例所属的类别)的信息。近年来,社会网络的个体影响力分析和关键成员挖掘在研究上获得了广泛的关注。通常认为,节点的社会地位可以用一种打分函数进行衡量,而这个打分函数的取值就可以被理解为节点在社会网络上的影响力或权威性。通常权威性函数值大的节点可以被理解为是网络中的重要个体,或关键成员。根据网络的不同,关键成员挖掘技术具有不同的应用背景。例如,Web搜索服务提供者期望通过分析链接结构,计算网页的重要性,

4、从而为用户提供最贴近需求的搜索结果;在学术合作网络中,人们期望通过对合作结构和主题进行层次分析,从而发现合作模式和重要学者;在线社交网站中,通过主题对个体进行重要程度和个人兴趣进行分类,从而发现关键成员和意见领袖。类似的研究在学术研究、舆情分析、商业推广等领域上都有很好的应用。在社会网络中,每个个体都在网络结构中体现出了不同的社会影响力。例如,在微博网络中,同样的话题由不同的成员转载,受到的关注度往往会大不相同。是什么原因造成了这种影响力的差异呢?我们认为,个体的结构上下文,即个体在网络的链接结构中所处的位置,是造成个体在网络中受关注程度差异的重要因素。这种结构带来的差异

5、性体现了网络中个体的社会特征,这也是社会网络中节点重要性排名算法与一般检索系统不同的重要原因。社会网络中的成员间往往在信息交换中体现出一种相互依存的特点。例如,微博中部分ID走红的原因其支持者的关注和评论,而某些ID的受到的关注则来源其自身发表内容的吸引力。相比起来,前者对网络表现出一种强烈依赖的特征,即如果将其支持者与其关系断开,其受关注程度必然会有大幅下降;由于后者依靠其自身内容吸引读者,网络结构对其的影响力则相对较小。这一现象是由社会成员在网络中体现出的社会性造成的。假设网络发生某种特定结构的变化,如果一个个体在结构变化时,其自身影响力也发生改变,则这种改变可以被理

6、解成个体对其网络结构的依赖。分析节点对网络结构的依赖性和支持力在实际中拥有广泛的应用前景。社会网络中的每个成员有着或大或小的关联度,他们相互依存,但由于个体在网络的链接结构中所处的位置的不同,使得个体间关联度大小及影响力不同,通过对关联规则的分析可根据客户需求有效地进行数据挖掘。关联规则分析首先由GovindP.AGRAWAL等人提出,用来发现购物篮数据事务中各项之间的有趣联系。从那以后,进行了广泛的研究,以解决关联分析的概念,实现和应用问题。关联规则是形如X→Y的蕴含表达式,其中X和Y是不相交的项集,即X∩Y=φ。关联规则的强度可以用它的支持度和置信度度量。支持度确定规

7、则可以用于给定数据集的频繁程度,而置信度确定Y和在包含X的事务中出现的频繁程度。关联规则的挖掘问题就是生成所有满足指定的最小支持度和最小置信度的关联规则。满足最小支持度和最小置信度的关联规则称为强关联规则。关联规则的挖掘是一个两部的过程:①找出所有的频繁项集:这些项集出现的频繁性至少和与定义的最小支持计数一样。②由频繁项集产生强关联规则:这些规则必须满足最小支持度和最小置信度。在关联规则中有涉及到的数据维度,可以分为单维关联规则和多维关联规则,比如:“啤酒→尿布”就是单维关联规则,“性别=‘女’→职业=‘秘书’”就是多维关联规

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。