欢迎来到天天文库
浏览记录
ID:33345769
大小:4.98 MB
页数:60页
时间:2019-02-25
《分布式图聚类及其在电子商务数据挖掘中应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、东华大学学位论文原创性声明嬲本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中己明确注明和引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写过的作品及成果的内容。论文为本人亲自撰写,我对所写的内容负责,并完全意识到本声明的法律结果由本人承担。学位论文作者签名:解继日期:≯口f一年/月/牛IEt东华大学学位论文版权使用授权书学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅或借阅。本人授权东华大学可以将本学位论文的全部或部分内容编入有关数据
2、库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密口,在——年解密后适用本版权书。本学位论文属于不保密《学位论文作者签名:解维日期:如f弓年1月/中日指导教师签名昂氯偬哗日期:训.;年/月/r日分布式图聚类及其在电子商务数据挖掘中的应用摘要图作为一种常用的数据结构,由结点及其之间的连接边组成,目前己成为各种复杂对象及其之间联系的建模工具。在电子商务网站中,客户登录网站并进行物品交易,都会在网站的后台数据库里生成相关的交易数据。利用这些交易数据,可以构建出各种各样的客户关系网络图。以购买同种物品的客户关系为例,图的结点表示不同的客户,而图中的一条边则表示两个客户在该网站上
3、购买了相同的物品。与其他类型数据类似,这种客户关系网络图蕴藏着丰富的信息与知识,在电子商务网站的客户关系管理中具有实际的应用价值。图聚类是利用聚类技术在图中分析出那些内部联系紧密、外部联系松散的聚簇。图聚类已在社会网络的社区发现、蛋白质的复合物检测等应用得到实际的运用。在上述电子商务网站的客户关系网络图中,可以利用图聚类的方法,挖掘出不同的客户群体簇。所挖掘出来的客户群体簇,可能代表了该群体簇里的客户具有相似的兴趣、偏好,也可能代表了这些客户具有相似的家庭结构、年龄段等。这类信息对于电子商务网站进行个性化商品推荐,制定更有针对性的营销策略,提升网站的运营具有指导意义。一些主流的电子商务网站,
4、例如淘宝、一号店等,其拥有的客户数量相当庞大,由这些客户所形成的关系图也会非常巨大。面对庞大的数据量,单个工作站不管是在CPU计算能力还是在内存消耗上均l无法满足需求,从而导致聚类分析无法正常执行。在大规模的客户关系图中,如何有效地挖掘出客户群体簇,己成为业界共同关注的问题。MapReduce作为一种并行编程模型,可实现上百乃至上千台计算机的互联,将巨大的系统资源池连接在一起,形成庞大的机器集群,特别适用于大规模数据的并行处理。本文考虑MapReduce在大数据处理上所具有的优势,试图将MapReduce与传统的图聚类方法相结合,提出一种分布式的图聚类方法,并将之运用于客户关系发现的实际应用
5、中。本文以作者参与的“钢贸网站交易数据分析”实际项目为应用实例,利用某钢贸公司2006年至2011年积累下来的5年交易数据,通过图聚类的方法,分析得到钢贸客户群体,为该公司制定有效的钢材销售策略提供了决策支持。具体而言,本文的研究内容主要包括:1)论文首先介绍相关技术,包括数据挖掘、图聚类、MapReduce并行框架及其开源实现Hadoop。2)接着以钢贸电子商务网站为具体实例,结合钢贸交易数据的实际特点,阐述了钢贸交易数据仓库构建过程,并对钢贸客户关系图建模进行了详细论述。3)论文以MapReduce框架为基础,提出了一种基于MapReduce的分布式图聚类算法,即MR—LSH算法,以解决
6、在分布式环境下如何利用LSH、实现大规模图数据的可扩展并行聚类问题。该算法将MapReduce并行框架与位置敏感哈希(LocalitySensitiveHashing,简称LSH)相结合,从而在MapReduce并行框架中实现一种基于位置Tl敏感哈希的分布式图聚类算法即MR—LSH算法。论文将详细论述MR.LSH算法的具体思路及其实现框架,并详细介绍了框架中的各个步骤的实现方法。在此基础上,论文运用某钢贸公司2006年至2011年的交易数据生成的客户关系图,通过实例证明本文所提到的分布式图聚类在电子商务数据挖掘领域里的可行性与实用性。实验结果表明,该系统安全可靠、易维护、具有良好的可扩展性。
7、一关键词:分布式聚类;图聚类;电子商务挖掘;Hadoop;MR.LSH算法DISTRIBUTEDCLUSTERINGGRAPHDATAANDAPPLICATIONT0DATAMININGFORE—C0入心僵ERCEABSTRACTAsacommondatas仃ucture,graphisthecompositionofnodeandtheconnectionsbetweenthesenodes.Ithasbe
此文档下载收益归作者所有