基于词向量的在线评论话题及其特征抽取研究

基于词向量的在线评论话题及其特征抽取研究

ID:35070379

大小:6.79 MB

页数:67页

时间:2019-03-17

基于词向量的在线评论话题及其特征抽取研究_第1页
基于词向量的在线评论话题及其特征抽取研究_第2页
基于词向量的在线评论话题及其特征抽取研究_第3页
基于词向量的在线评论话题及其特征抽取研究_第4页
基于词向量的在线评论话题及其特征抽取研究_第5页
资源描述:

《基于词向量的在线评论话题及其特征抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、—^m*4去种故A香CFCHIHA"FEL亡CTIENCOLO巧YOI巳SEAN口TECHM由UKIVERSITYOftON3硕±学位论文MASTERTHESIS/與與V:一■-於伽H妒:。"t‘位Ji,,'\\'.:.''i:M.;\.13"'''^^:■^:.::::货毒巧;v;论文题n基干词向霉的化线评论话题化其特辄抽取讲究"学科专业嘗理科学与T程:i■古学与201321110520:'苗'化若姓名叶开-:?—_....*

2、?V--,■指替教师袁华副教授独创性声明本人声萌所呈交的学位论文是本人在导师指导下进行的研究工作义取得的研究成果。据我所知,除了文中特别加^^1标注和致谢的地方夕h论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。/作者签名:日期;年月—/永日斗—禾r知/^论支使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有保留并向国家有关部口或机构送交论

3、文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可W将学位论文的全或部部分内容编入有关数据库进行检索,可封采用影印、缩印或扫描等复制段保存、汇编学位论文。手(保密的学位论文在解密后应遵守此规定)作、者签名:签名:导师十寸>:=曰曰年月期厶^分类号密级注1UDC学位论文基于词向量的在线评论话题及其特征抽取研究(题名和副题名)叶开(作者姓名)指导教师袁华副教授电子科技大学成都(姓名、职称、单位名称)申请学位级别硕士学科专业管理科学与工程提交论文日期2016.04.28论文答辩日期2016.05.30学位授予单位和日期电子科技大学

4、2016.06答辩委员会主席评阅人注1:注明《国际十进分类法UDC》的类号。TopicandFeatureExtractioninOnlineReviewsBasedonWord2VecAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMajor:ManagementScienceandEngineeringAuthor:YeKaiAdvisor:A.Prof.YuanHuaSchool:SchoolofManagementandEconomics摘要摘要IT技术和互联网

5、对人类社会的信息交互带来了巨大的革新,同时也促使了新的交易方式——电子商务的出现,随着电子商务的发展成熟,人们越来越热衷于通过网络购买商品和服务,在研究领域,众多的学者对消费者行为的研究也从线下迁移到了线上。电子商务话题的研究是近几年的热门领域。Web2.0带来的交互便利、快捷使得用户能轻易的在网上留下自己的行为轨迹、发表自己的观点和意见,网络购物人群的快速增长使得电子商务网站积累了大量的购物数据,其中包括大量的非结构化的评论文本信息。对于消费者而言,这些评论信息有助于其做出更有效的购物决策,而对于商品的生产厂商而言,这些评论反映了消费者对其产品和公司服务的市场反馈

6、,相较于普通问卷、咨询等调研方式,在线商品评论数据更为庞大和直接。用户在电子商务网站上留下的在线评论是消费者自发、随意撰写的,这些评论往往结构散乱、内容简短,这种文本的稀疏特性使得学者们在研究评论时面临很大的困难;另一方面,电子商务网站上的商品成千上万,各自的评论更是从体量上超过了人类能够阅读、判断的极限;即大数据、稀疏性带来的问题使得研究难以进行。对于在线商品评论的研究,以前的学者多从文档层面对评论文本进行研究,考虑句子结构,语法特点、词频等特征,或者从概率模型的角度,研究潜语义层面的话题特征,这些研究虽然取得了一定的结果,不过在处理文本的过程中,忽视了作为一个整

7、体句子的语义信息。随着当今计算能力的提高,神经网络语言模型在语义层面解释了文本的产生和语义的表达。本文利用神经网络将在线评论文本从传统的文档空间转移到高维的向量语义空间,并对挖掘的评论特征种子词进行聚类,对于在线评论的话题和特征抽取达到了更好的效果。另外,对于大量数据的真实背景缺失问题,本文通过改进的困惑度指标,基于最大熵的原理,证明了本文所提方法的可靠性。同时,本文所改进的困惑度指标也可扩展为对大数据环境下聚类问题的统一评价指标,对大数据下的研究有一定贡献。为真实背景缺失的算法比较,提供了一个较好的评价方式。关键词:在线评论,特征抽取,词向量,聚类IABSTR

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。