基于spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

基于spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

ID:13132471

大小:66.00 KB

页数:11页

时间:2018-07-20

基于spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘_第1页
基于spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘_第2页
基于spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘_第3页
基于spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘_第4页
基于spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘_第5页
资源描述:

《基于spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘近期参加了CCF举办的“大数据精准营销中搜狗用户画像挖掘”竞赛,最终得到复赛第32名。正好这学期《机器学习与数据挖掘》课程需要一个实验报告的大作业,于是就那它来写了。本博文会在这几周不断的完善更新ing1.选题背景与意义1.1用户画像与精准营销“用户画像”是近几年诞生的名词。很多营销项目或很多广告主,在打算投放广告前,都要求媒体提供其用户画像。在以前,大多媒体会针对自身用户做一个分类,但是有了大数据后,企业及消费者行为带来一系列改变与重塑,通过用户画像可以更加拟人化的描述用户特点。用户画像,即用户信息标签化,就是企业通过收集与分析消

2、费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌,可以看作是企业应用大数据技术的基本方式。用户画像为企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。消费方式的改变促使用户迫切希望尽快获取自己想要了解的信息,所以说,基于用户画像上的精准营销不管对企业还是对用户来说,都是有需求的,这会给双方交易带来极大便捷,也为双方平等沟通搭建了一个畅通平台。1.2搜索引擎下用户画像的挑战在搜索引擎下,由于搜索引擎本身使用方式的特殊性、用户的流动性、查询的实时性等,带来了与企业传统的对用户信息进行收集与分析有着巨大的不同、更加艰巨

3、的挑战。例如,我们实时获取到的是用户的查询语句,而由于用户的流动性,并不能直接获取到如年龄、性别、学历等用户的标签信息。这么一来,也就无法根据用户属性对用户进行分群处理,而后再通过推荐系统进行产品上的优化1.3本文内容概要本文内容概要如下:第1章:简介用户画像与搜索引擎下用户画像的精准营销的挑战。第2章:说明实验集群、数据与课题研究目标。第3章:介绍使用分词工具对用户的搜索词列进行分词,以及相关的优化方案。第4章:介绍在分词的基础上,对文本进行特征的抽取与转换,以及相关的优化方案。第5章:介绍在原始特征向量上,进行聚类与降维。第6章:介绍实验中试验过各分类模型第7章:介绍模型参数调优第8章

4、:总结本课题研究中不足与展望后续的优化方案第9章:参考文献2.课题实验准备2.1Spark集群节点备注cdh018核,32G内存,角色:SparkMaster,HDFSNameNode,SparkWorker,HDFSDataNodecdh028核,12G内存,角色:SparkWorker,HDFSDataNodecdh038核,12G内存,角色:SparkWorker,HDFSDataNodecdh048核,12G内存,角色:SparkWorker,HDFSDataNode2.2数据集数据文件备注Train.csv带标注的训练集Test.csv测试集2.3数据介绍本数据来源于搜狗搜索数据

5、,ID经过加密,训练集中人口属性数据存在部分未知的情况(需要解决方案能够考虑数据缺失对算法性能的影响)。数据所有字段如下表所示:字段说明ID加密后的IDage0:未知年龄;1:0-18岁;2:19-23岁;3:24-30岁;4:31-40岁;5:41-50岁;6:51-999岁Gender0:未知1:男性2:女性Education0:未知学历;1:博士;2:硕士;3:大学生;4:高中;5:初中;6:小学QueryList搜索词列表2.4数据示例对于train.csv中的数据记录:00627779E16E7C09B975B2CE13C088CB420钢琴曲欣赏100首一个月的宝宝眼睫毛那么是

6、黄色宝宝右眼有眼屎小儿抽搐怎么办剖腹产后刀口上有线头属羊和属鸡的配吗2.5课题任务描述根据提供的用户历史一个月的查询词与用户的人口属性标签(包括性别、年龄、学历)做为训练数据,通过机器学习、数据挖掘技术构建分类算法来对新增用户的人口属性进行判定。3.查询词分词3.1NLPIRNLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。全球用户突破20万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,20

7、03年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。我们传入每个用户的搜索词列,表经过NLPIR分词工具得到的分词。之后,我们做个进一步的优化策略:3.1.1去停用词我们根据分词后词语所带的词性,对一些特征代表性不够强的词语进行过滤:for(inti=0;i

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。