欢迎来到天天文库
浏览记录
ID:35055627
大小:3.54 MB
页数:60页
时间:2019-03-17
《基于apriori算法的大数据相关性分析研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、:-;;絮r托_?彰知!-r鮮:;4寶'等苗t.衫.鶴二4U和rV嶺.寺議赫vv域'-键与i-^r.霉'vf"v,.戶声.,:’.‘,浸.‘:,-得:識魚:v塗tf?7舊:‘..;"..氏;^Vr奠护咳钟地质大^学u北;.¥‘^;;;v;k.'r,:三v.心.‘一苗頭学适%文巧rYv‘.:襄.每w尚V.".讀.裝气;.人;..;f童巧;于卸0去的識別相臭7";:、.;.'-_:M^;n7<..f衍研究q細壽.某i驗某i謂拓中、.r;邱膠,‘|马:義.抓..獲鸭:;凌.扣.;、涼山^s2誦24續V申,.悼^'駕.作C陈
2、东>E\-'-心禱%^计算城术.’.>J養餐i濤v研方^数娜龍巧;.k公'琴>啼教^王味朝I授,!告;‘企教^周忠良教授某護:>.攀:.識。:.苗:苗--r.|年5.兰^舅讀/^;V^,气.二嶺V;吞^;.f.群.句,側...巧?乾皆:;'::./;.苗.,..若矜,;店;i!.^..裝容蘇、声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研^究成果,^^人。尽我所知除了文中特别加^4注和致谢的地方外,论文中不包含其他己经发表或撰写过的研究成果,也不包含为获得中国地质大学或其它教育机构
3、。一工的学位论或化书而使用过的材料与我同作的同志对本研究所做的任何贡献均己在文中作了明确的说明并表示了谢意。■签名=赛.日期:茲立巧关于论文使用授权的说明,旨保本人完全了解中国地质大学有关保留、使用学位论文的规定P:学校有权留送交论文的复印件,允许论文被查阅和借阅;学校可W公布论文的全部或部分内容,可W采用影印、缩印或其他复制手段保存论文。开□保密(年)(保密的论文在解密后应遵守此规定)、..2^:nSr签名:C导师签名:期pU、分类号密级中国地质大学(北京)硕士学位论文基于Apriori算法的大数据相关性分析研究学号:2119130001研究生
4、:陈东专业:计算机技术研究方向:数据分析指导教师:王祖朝教授周忠良教授2016年5月ADissertationSubmittedtoChinaUniversityofGeosciencesforMasterDegreeCorrelationAnalysisIsBasedOnLargeDataAprioriAlgorithmMasterCandidate:ChenDongMajor:ComputerTechnologyStudyOrientation:DataAnalysisDissertationSupervisor:Prof.WangZuchaoProf.ZhouZhongliangCh
5、inaUniversityofGeosciences(Beijing)摘要随着网络的普及,通信网络的发达,互联网每天产生的数据成爆炸性增长。而这些数据中越来越多来源于移动端产生的数据。这些数据包括声音、文字、图片、视频等结构化和非结构化数据。然而对于结构化数据的分析已经有很多技术方法。对于非结构化数据的处理仍处于研究阶段,尤其是面对海量的非结构化数据,如何来分析这些数据,从中挖掘出有价值的信息也一直是大数据研究者的目标。那么,就会面对两个问题,第一,如何将这些海量的非结构化数据转化为结构化数据;第二,利用什么样的分析方法来分析数据,挖掘有价值的信息。本文主要针对京东网客户在移动端购买商品时
6、产生的非结构化数据图片为数据源,利用Apriori算法来研究这些数据的关联规则,从而对数据之间的相关性做合理的分析。从而挖掘出相应用户个性的商品兴趣集合。实现单个商品推荐、捆绑商品推荐的准确性,提升客户端的影响力,刺激消费者购买欲望,实现利润最大化。主要分析工作包括一下几方面:(1)通过对京东用户客户端浏览商品的信息进行分析,总共抽取出1353张图片,并对这些图片进行分类整理出13个大类。对于这些非结构化图片数据进行处理,写入到XML文件中得到结构化数据,存入到数据库中。(2)建立相关性分析模型,详细研究Apriori算法,分析数据得到关联规则,然后做相关性分析。发现算法针对数据分析存在两
7、个问题:1)数据处理速度比较慢;2)得到的关联规则并不一定符合用户兴趣度。针对这两个问题,对数据进行阶段性的细分,减少每次分析的数据量来提升数据处理速度,同时也做了内外两层数据分析的关联规则,提出了InOut-Apriori算法。并对改进得到新的关联关系做了相关性分析,同时对改进前后的算法数据分析做了比较,新方法能够很大程度上提高的数据结果的质量,缩小与预期的差距。关键词:Apriori算法,相关性分析,非结构化数据,兴
此文档下载收益归作者所有