基于情感分析的lda模型在在线评论中的运用

基于情感分析的lda模型在在线评论中的运用

ID:28136988

大小:19.30 KB

页数:6页

时间:2018-12-08

基于情感分析的lda模型在在线评论中的运用_第1页
基于情感分析的lda模型在在线评论中的运用_第2页
基于情感分析的lda模型在在线评论中的运用_第3页
基于情感分析的lda模型在在线评论中的运用_第4页
基于情感分析的lda模型在在线评论中的运用_第5页
资源描述:

《基于情感分析的lda模型在在线评论中的运用》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。基于情感分析的LDA模型在在线评论中的运用  摘要:随着互联网的快速发展,人们越来越多地在电商网站、论坛、社交网络等平台上,公开发表对商品的各种评价和意见,由此带来的文本数据呈现爆发性增长。本文就医疗器械领域的血糖仪作为研究对象,利用python在各电商平台上爬取数据,对数据进行数据清洗、中文分词、去除停用词等预处理,再利用基于情感分析的LDA改

2、进模型对数据进行分析,得到各主题下的词分布,以此获得对产品的建议。  关键词:文本分析;血糖仪;LDA模型;情感分析  1.引言  随着互联网和电子商务的快速发展,用户越来越偏向于线上消费,同时在各网络等平台上,随时分享自己的意见。大量的文本评论内容,隐藏着产品特性、用户需求以及使用反馈。如何从中进行挖掘来精细化定位产品或服务的不足,对商家来说,是个很重要的商机。  目前,文本挖掘技术是数据挖掘领域的研究热点,其中,产品评论挖掘技术又是辅助分析海量评论信息的一种有效手段。本文就选取血糖仪作为研究对象,获取其线上的评论数据

3、,经预处理之后,利用基于情感分析的LDA改进模型对数据进行分析,得到各主题下的词分布。  2.数据选取与预处理为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。  根据相关资料统计,我国拥有着世界上最大的糖尿病人

4、群,目前已达到亿。然而,血糖仪在中国糖尿病人群中的渗透率并不高,与发达国家相差很大。外资品牌首先抢占国内血糖仪市场,并且占有较大比例的份额,而国内品牌目前主要靠性价比占据一定份额。本次研究希望能够通过对血糖仪的相关评论进行分析,对国内相关品牌提供指导意见,力求改变我国高端产品靠进口的现状。  我们选取国内外比较有代表性的品牌下销量最佳的型号,同时利用python工具爬取相关评论数据。国内、国外血糖仪评论数据分别获得21025、10849条。  从获取的数据来看,不同于传统的文本,商品评论具有以下特点:文本短,较多为字数较

5、少的短评论;情感倾向明显,存在很多较明显的词汇;语言不规范,会出现一些网络用词、符号、数字等;存在重复记录或者重复的主题。所以处理流程如下:数据清洗、中文分词、此行标准、去除停用词。  3.模型运用  本文在LDA模型的三层结构的基础上,加入情感层,并且引入情感词典作为先验信息。在改进的模型中,情感的产生依赖于主题,而在每个主题下会得到不同情感下的词分布。  该模型的生成过程如下:  对于每一个主题和情感,抽取词分布,其中,。为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统

6、的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。  对于每一篇文档,。  从狄利克雷分布中,生成该文档的主题分布;  对于每个主题,分别从狄利克雷分布中,生成情感分布;  对于每个句子:选取主题;主题为时,选取情感;选取单词。  在求解过程中,可以使用Gibbs抽样算法对该模型进行参数估计和统计推理。  

7、建立词典  由于网络评论文本的特殊性,从已有情感词典的基础上展开扩展:通用基础词典。典型的中文词典:知网的“情感分析用词语集”、台湾大学情感词典、大连理工大学的情感词汇本体库;扩充词典,主要来源于搜狗拼音词库网络流巧新词;领域词典。针对医疗器械领域建立相关语料库,以此建立该领域的情感词典,语料从各大电商平台获取。  首先筛选并去除各词典中的许多情感极性相反的,或者情感意义比较多的词汇,然后对各词典中的正负面评价词语等进行去重,组合再分别建立积极、消极情感词典。  实验参数设定  在实例操作过程中,三个超参数分别取值为。此

8、外,主题个数设定为5,迭代次数选择10000次。  4.结果分析为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。