基于大数据的用户行为分析研究

基于大数据的用户行为分析研究

ID:24713089

大小:63.12 KB

页数:6页

时间:2018-11-16

基于大数据的用户行为分析研究_第1页
基于大数据的用户行为分析研究_第2页
基于大数据的用户行为分析研究_第3页
基于大数据的用户行为分析研究_第4页
基于大数据的用户行为分析研究_第5页
资源描述:

《基于大数据的用户行为分析研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于大数据的用户行为分析研究摘要社交网络媒体发展备受关注,微信、微博以及博客等社交媒体不断使人们生活方式发生改变。微信、QQ>微博、大众点评、美团、淘宝、京东以及亚马逊等用户日益增加,用户通过朋友圏或主动发出评论的数量逐渐递增。在信息化多元化的时代,用户已经成为各个行业的代言人,为品牌推广起到不可替代的作用。如何更好地获取用户真实的购买意愿,并精准的为用户提供购物渠道和优惠信息,将成为提升品牌荣誉、改善用户体验以及获取最大效益的新型渠道。当前存在许多营销手段和推送方式,但准确度还不够,并且时常出现错误推送。本文通过利用

2、销售的案例并结合数据分析来阐述中文舆情的可行性,利用Hadoop平台的文本分析和数据存储数据库(DB2BLU),提高分析的准确程度。【关键词】信息化大数据Hadoop文本分析1背景21世纪是数据信息迅速膨胀的时代,互联网的应用范围和边界不断延伸,如移动互联、社交网络、电子商务等。现今,用户可以借助互联网平台表达社情民意,体现用户的意愿,评论和态度。例如京东的用户对某商品的评论信息,商家通过用户的评论和反馈分析,从而进行优化改善,为用户提供定制性的服务,甚至可以预测用户的需求,从而达到更加准确的销售目的;看似庞大无规则的

3、数据,包含着大量的用户标签及潜在的用户肖像。存储与分析中文文本数据是技术上的关键,如何能够存储并分析海量数据,生成精确的用户标签,依赖于数据存储系统和文本分析系统的技术。本文的数据存储运用DB2BLUAcceleration,利用DB2BLU速度快、与Cognos无缝结合的特性来存储和分析数据。中文文本分析基于Hadoop的文本分析平台,快速进行中文分词和建立标签词典,本文将在后面章节进行具体介绍。2中文微博数据分析逻辑微博是现代网络社会沟通的重要工具,以新浪微博为例,很多大型零售商会建立自己主页,发布近期的打折、新品

4、信息。但是,这些信息往往不能针对每个用户的喜好来发布,类似于广播一样,每一条微博是否对每个粉丝(用户)有意义,需要用户自己来过滤。但实际上,粉丝自身发布的微博含有大量的数据信息,这些信息包含用户的个人爱好,自己年龄阶段,近期的想购买的款式,甚至是自己希望有的款式与功能等。这些数据大多数为非结构数据。如图1,显示了整个营销分析流程的逻辑。从客户发布微博开始,到商家向用户发布商品目录和优惠信息,整个流程分为五个步骤:(1)客户发布微博,从微博上初步获取的数据为“粗数据”,掌握用户自定义的标签,作为用户肖像的一部分。(2)获

5、取商家的粉丝。(3)将用户的微博进行语义分析,基于Hadoop的文本分析平台将对中文进行分词,分词后将与字典进行比较和分类,总结出该用户的兴趣爱好所在。(4)指定相关营销策略,根据微博内容实时或定时更新客户肖像,向用户推送相应的商品折扣和新上架产品信息。(5)消费者使用消费券或根据打折信息购买相关产品。3方案架构整个系统架构,如图2所示,主要由文本分析系统、DB2BLU数据库以及Cognos数据分析工具组成。首先从互联网上获取数据以后,将原始数据送入文本分析平台进行分析,主要做中文分词、情感分析等工作;然后将文本分析结

6、果整合后输出送入DB2BLU数据库中,进行存储、建表,建表包括客户肖像表、商品目录表、促销策略表等;最后,利用DB2BLU与Cognos无缝集成的优势,用Cognos对数据进行分析。根据Cognos分析出的结果,生成促销的报表,继而将优惠信息分别推送给每个用户如图3所示,为基于Hadoop平台的文本分析架构图,整个架构主要由三部分组成:引擎部分:用户发布的微博中获取的数据生成文本格式送入文本分析引擎,在输入之前,由于客户的ID、性别、地点己经提取出来,可以作为客户肖像的一部分,但并不送入文本分析系统。引擎部分主要处理中

7、文分词、将分词与词汇库中的字典进行匹配、分类。分词的作用主要将动词,以及动词后的名词分开,情感词,以及表达情感的对象分开等。词汇库部分,主要负责存储客户合作模型的词汇词典,这一部分的词典部分有手工添加,部分由系统根据词汇库聚类生成,词汇库存于HBase上;最后是负责输入输出文本的部分,这一部分利用JAQL来拼接“原始标签”与分词后的标签,一起构成客户肖像表。本文用于存储客户肖像的为DB2BLUAcceleration。BLUAcceleration的架构如图4所示。使用DB2BLU具有的性能优势,采用列式存储,只对需要

8、的数据列进行读取,可以减少I/O。采用霍夫曼编码对数据进行压缩,降低内存消耗。SQL采用并行运行方式,利用CPU寄存器,避免并列干涉。使用列存储算法,便于更多的缓存数据,提供内存利用率,有效减少I/O。4结束语本文介绍了基于大数据的中文舆情分析系统,采用基于Hadoop平台的文本分析,以及IBMCognos无缝集成DB2BLU加速

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。