面向web的社会网络挖掘与信息传播分析关键技术研究(可编辑)

面向web的社会网络挖掘与信息传播分析关键技术研究(可编辑)

ID:15941321

大小:102.00 KB

页数:76页

时间:2018-08-06

面向web的社会网络挖掘与信息传播分析关键技术研究(可编辑)_第1页
面向web的社会网络挖掘与信息传播分析关键技术研究(可编辑)_第2页
面向web的社会网络挖掘与信息传播分析关键技术研究(可编辑)_第3页
面向web的社会网络挖掘与信息传播分析关键技术研究(可编辑)_第4页
面向web的社会网络挖掘与信息传播分析关键技术研究(可编辑)_第5页
资源描述:

《面向web的社会网络挖掘与信息传播分析关键技术研究(可编辑)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、面向Web的社会网络挖掘与信息传播分析关键技术研究国防科学技术大学博士学位论文面向Web的社会网络挖掘与信息传播分析关键技术研究姓名:唐晋韬申请学位级别:博士专业:计算机科学与技术指导教师:王挺2011-04国防科学技术大学研究生院博士学位论文摘要Web2.0时代,各种类型的社会媒体不断涌现,深刻地改变了人们工作、生活和交流的方式。在此背景下,研究Web2.0时代的社会网络结构和信息传播规律、理解现代社会中人们获取信息的方式成为一个迫切的任务。本文针对Web2.0社会媒体的新特点,围绕面向互联网的社

2、会网络挖掘和信息传播分析两个方面展开了如下四个关键问题的研究:1面向社会媒体的社会网络挖掘问题,2Web2.0时代社会网络分析的效率问题,3面向社会媒体的信息流挖掘问题,4以及社会媒体中社会网络结构信息传播的影响。首先,本文研究了面向社会媒体的社会网络挖掘及重名用户消歧问题。在社会关系挖掘方面,针对Web2.0中社会交往隐藏在网页文本和链接中的特点,本文结合链接结构特征、文本语义特征以及Web2.0特征,综合计算社会媒体中用户显式的在线交往行为和潜在的相似兴趣,有效地挖掘了社会媒体中用户之间的社会关

3、系。在行动者用户节点抽取方面,针对社会媒体中的用户重名问题,本文基于社会关系特征构建了重名用户身份消歧算法。该算法抽取不同网页中重名用户的社会关系组成社会网络的二部子图,并对二部图聚类从而有效地区分重名用户节点。在此基础上,本文还构建了一个基于两阶段聚类的消歧方法,分别对社会关系特征和文本特征建模,既利用社会关系特征区分了社会网络中的重名用户,又结合文本特征区分了属于不同用户的述信息、文章等网页文本。其次,针对从社会媒体中抽取的社会网络规模较大的问题,本文基于复杂网络理论研究了优化社会网络分析性能的

4、方法。本文统计分析了从Web2.0社会媒体中抽取的社会网络结构特征,验证了Web2.0社会网络是一种典型的复杂网络。根据无标度特征和小世界特征,本文出了复杂网络中最短路径分布不均衡的假设,认为最短路径通过少量度数较高的活跃节点的可能性更大。基于该假设,本文优化了最短路径近似方法在社会网络中的效率及准确率,并出了一种适用于复杂网络的CDZ最短路径近似算法。该算法利用通过活跃节点的一条路径近似最短路径,在具有无标度特征的社会网络最短路径近似计算上,有着很高的近似准确性和较低的计算复杂度。在CDZ最短路径

5、近似算法的基础上,本文出了结合CDZ算法近似计算介数中心性、接近中心性的方法,以及优化K-Medoids、Girvan-Newman等聚类算法性能的方法,使得上述社会网络分析方法在面向Web2.0社会媒体的应用中能取得更好的性能与准确率。同时,本文利用复杂网络特征指导聚类算法选择参数,为面向缺乏先验知识的现实世界社会网络中的社区发现供了一种可行的方法。然后,本文研究了在社会媒体中挖掘信息流的相关问题。针对Web2.0社会媒第i页国防科学技术大学研究生院博士学位论文体中用户生成内容偏短、质量不高等问题

6、,本文结合维基百科资源出了一种基于语义图的话题表示模型。该模型使用实体、概念及其语义关联表示文本的主要信息,能较好地解决用户生成内容较短造成的语义信息不足等问题,对语义关联关系的建模使得该模型可以有效地过滤用户生成内容中的噪声。结合维基百科语义关联信息的图编辑距离算法,能够度量短文本间隐含的真实语义关系,更好地处理在社会媒体中话题演变迅速等问题。为了应对社会媒体信息流挖掘任务中的信息过载等问题,本文出了基于社会网络的话题发现和信息流跟踪新方法。通过将社会网络上的话题发现问题述为一个多目标优化问题进行

7、求解,有针对性地挖掘社会网络中最有可能参与话题传播的部分用户发布的内容,实现了以较小的数据处理代价发现社会媒体中热点话题的目标。在此基础上,本文利用参与话题传播用户的社会关系,出了基于社会关系在相邻节点之间跟踪/回溯信息流的方法,减少了需要处理的数据量,更好地跟踪信息传播过程。而且,该方法通过结合社会网络特征度量文章和话题相似性,增强了应对话题演变问题的能力。在上述工作的基础上,本文研究了社会网络结构对信息传播范围的影响,分析了Web2.0时代信息传播的内在规律。为量化评价社区结构是否会影响信息传播

8、,本文基于图的相似性计算出了一种影响力度量方法。该方法通过计算由社区组成的社会网络子图与信息传播网络的相似性,评测社会网络结构对信息传播范围的影响。基于该方法的评测结果,本文分析了几种有代表性的信息传播模式,发现了社会媒体中信息传播的一些内在规律,如信息所属领域对信息传播模式的影响等。关键词:社会网络分析;复杂网络;信息传播;话题发现与跟踪;最短路径近似第ii页国防科学技术大学研究生院博士学位论文AbstractIntheWeb2.0era,variousSocial

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。