欢迎来到天天文库
浏览记录
ID:35181508
大小:6.12 MB
页数:67页
时间:2019-03-21
《基于用户选购及在线点评行为的门店画像研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文基于用户选购及在线点评行为的门店画像研究作者姓名谢慧志学科专业概率论与数理统计指导教师杨立洪教授所在学院数学学院论文提交日期2016年5月ResearchonStorePortraitBasedontheBehaviorofUserChooseandOnlineReviewsADissertationSubmittedfortheDegreeofMasterCandidate:XieHuizhiSupervisor:Prof.YangLihongSouthChinaUniversityofTechnologyG
2、uangzhou,China分类号:021学校代号:10561学号:201320120984/华南理工大学硕±学位论文基于用户选购及在线点评行为的口店画像研究I作者姓名:谢慧志指导教师姓名、职称:杨立洪教授申请学位级别:理学硕±学科专业名弥:概率论与数理统计_研巧方向:数据分析与挖掘论文提交日期:2016年日月论文答辩日期:年月日;学位援予单位:华南理工大学学位授予日期:年月日答辩委员^华南理工大学学位论女原创性声明本人郑重声明:所呈交的论文是本人在导
3、师的指导下独立进行研究所取得的研巧成果。除了文中特别加W标注引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中明满方式标明。本人完全意识到本声明的'法律后果由本人承担。 ̄々/作者签名:日期//;如年巧月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,居P;研究生在校攻读学位期间论文工作的知识产权单位属华南理王大学。学校有权保存并向国家有关部n或机构送交论文的复印件和电子版,允许学位论
4、文被查阅(除在保密期内的保密论文外);学校可料公布学位论文的全部或部分内容,可允许采用影印、缩印或其它复制手段、保存汇编学位…论文。本人电文档的内容。子和纸质论文的内容相致于:本学位论文属□,。保密在年解密后适用本授权书巧上不保密同意在校园网发布,供校内生与师和学校有共享协议/的单位浏览;同意将本人学位论文提交中国学术期刊光盘版电子杂志社()全CNKI《文出版和编入中国知识资总库》,传播源学位论文的全部或部分;内容。""V相应方框内巧惟在上)^:>/作者签名/日;期年月日。
5、指导师签名:曰教期;如曰作月iA巧6於^作者联系电话::电子邮箱联(系地址含邮编);摘要随着依托于互联网的O2O电子商务快速发展,使的O2O企业能够收集到的相关数据呈井喷式增长。为有效挖掘此类数据,本文重点研究在线点评文本的情感分类和主题聚类,并以此为基础结合用户选购行为数据提出一套门店画像构建及应用的完整思路。本文的主要工作包括:设计并开发爬虫系统抓取实验数据。动态Web信息获取是目前爬虫的一个技术难点。本文为获取实验数据,依据Scrapy开源爬虫系统设计逻辑,在浏览器测试框架Selenium中嵌入基于P
6、hantomJS的GhostDriver驱动,设计并开发出一个可抓取动态Web信息的网络爬虫系统:nlp-dynamic-spider。并基于此抓取了大众点评一线城市服装行业的门店、用户在线点评以及用户数据作为本文的实验数据。通过在词库中添加新词和领域词提高分词准确度。由于评论文本中包含大量网络流行词、领域词,导致分词不准确。本文依据候选词词内凝固度、边界自由度、出现次数、文档频率等特征引入大规模语料的新词识别算法,有效识别出网络评论流行词,并在此基础上加入服装行业领域词进一步提高分词准确度。基于浅层深度学习算法Word2
7、Vec引入三种文本表示算法。本文通过将传统的BOOL、TF、TF-IDF文本表示法结合浅层深度学习词向量Word2Vec算法,通过线性加权求和的方式引入BOOL-W2V、TF-W2V、TF-IDF-W2V三种文本DR表示算法。并在四个不同的点评数据集上对这六种表示法进行情感倾向分类对比实验。实验结果表明:在语料库中文档较多但标注样本占比低、标注不平衡的情况下,TF-W2V文本表示法比另外五种文本表示法效果更好。构建基于Spark大数据平台的文本挖掘组件。为提高海量在线点评文本信息处理速度,采用分布式并行处理技术是目前的趋势
8、。本文基于目前最流行的大数据处理平台Spark,并在其提供的基础接口之上,设计了一系列中文处理的算法,包括:新词发现、多种中文文本表示、文本特征提取等,并构建出基于Spark大数据平台的文本挖掘组件:nlp-spark。基于用户选购和在线点评行为的门店画像。本文利用用户选购行为数据以及依据本文挖掘的在线
此文档下载收益归作者所有