欢迎来到天天文库
浏览记录
ID:17690792
大小:4.00 MB
页数:73页
时间:2018-09-04
《基于搜索引擎的用户画像构建方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校代码10125专业代码1201000硕士学位论文题目基于搜索引擎的用户画像构建方法研究姓名李雅坤专业管理科学与工程研究方向商务智能所属学院信息管理学院指导教师石洪波二〇一八年五月十日学校代码10125专业代码120100硕士学位论文题目基于搜索引擎的用户画像构建方法研究姓名李雅坤专业管理科学与工程研究方向商务智能所属学院信息管理学院指导教师石洪波二〇一八年五月十日UniversityCode10125MajorCode120100ShanxiUniversityofFinance&EconomicsTh
2、esisforMaster’sDegreeTitleResearchontheMethodofUserProfilingConstructionBasedonSearchEngineNameLiYakunMajorManagementScienceandEngineeringResearchOrientationBusinessIntelligentSchoolInformationManagementofSchoolTutorShiHongboMay10th,2018山西财经大学硕士学位论文摘要搜索引擎是最具有商业价值的互联网基础应用之一。对网
3、站建设者而言,搜索引擎平台为网站用户提供便利的同时,也是研究网站用户行为的有效工具。对企业而言,如何利用搜索引擎平台进行营销,提高营销转化率、增加客户忠诚度与客户粘性,是至关生死的问题。而用户画像技术可以帮助企业精准定位用户群体,以及根据反馈信息不断调整营销策略。但是搜索引擎本身使用方式具有特殊性,使得用户不需要登陆就可以进行搜索,因此对于获取用户的基本属性都是困难的。基于此利用数据挖掘技术与机器学习等相关方法对可收集到的用户搜索数据进行分析,预测得出用户的基本属性,构建基于搜索引擎的用户画像,有利于搜索平台客户细分,精准定位消费群体,节约平台经
4、营成本等。本文主要工作如下:(1)针对质量差的搜索引擎用户数据进行预处理。在分词处理中选取了效果较好的jieba分词,并且在分词过程中有选择的保留部分词性。文本信息特征表示则选择在学术界与工业界均有不错表现的基于TF-IDF(词频-逆文本频率)的向量空间模型。(2)针对稀疏高维的特征向量利用安全特征筛选的方法,对没有起到任何作用的特征词进行筛选,在不降低精度的前提下,减少特征维数,提高效率。(3)将既包含单词信息又包含上下文语义关系的词向量与经过特征筛选的空间向量模型表示的向量特征进行拼接,共同作为搜索引擎短文本的特征表示,弥补向量空间模型不能很
5、好表示文本特征词的上下文语义与句法信息的缺点。(4)利用灵活性与性能较好的两层Stacking模型构建搜索引擎用户画像,在保证分类速度与精度的条件下,选取合适的分类器。实验结果可知Stacking模型预测用户基本属性具有较好的效果。本文得出的结论为:(1)利用安全特征筛选的方法进行特征筛选,可以将某些不活跃特征进行删除,提高文本分类效率;(2)将词向量作为补充的语义信息引入,可以提高分类正确率;(3)利用Stacking模型预测搜索引擎用户基本属性具有较好效果,并且通过实验结果可知,在训练数据较少的情况下,模型仍然具有不错的分类精度,且随着训练数
6、据增多,分类正确率也在不断上升,因此模型具有稳定性。关键词:搜索引擎,用户画像,词向量,Stacking模型1山西财经大学硕士学位论文ABSTRACTSearchengineisoneofthemostvaluableInternetapplications.Forthewebsitebuilder,searchengineplatformisnotonlyconvenientforwebsiteusers,butalsoaneffectivetooltostudythebehaviorofwebsiteusers.Forenterprises,
7、howtousesearchengineplatformformarketing,improvemarketingconversionrate,increasecustomerloyaltyandcustomerstickiness,isthekeytothesurvivalofenterprises.Userprofilingtechnologycanhelptheenterprisepinpointtheusergroupandadjustthemarketingstrategyaccordingtothefeedbackinformatio
8、n.Butsearchenginehasitsownparticularity,userscansearchwithoutlogin,s
此文档下载收益归作者所有