欢迎来到天天文库
浏览记录
ID:28075852
大小:17.07 KB
页数:3页
时间:2018-12-08
《基于改进lda模型的离群评论选择》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。基于改进LDA模型的离群评论选择 摘要:评论文本中的词符合幂律分布,使LDA模型词的分布偏向高频词,导致主题相似度大,表达能力下降。提出幂函数加权LDA模型以提高低频词的表达能力。使用iForest算法,选择出与众不同且具有价值的评论集合。实验结果表明,选择的评论子集特征覆盖率较高,且有较高的平均信息量。 关键词:LDA;iForest;特征覆盖率;平均信息量 DOIDOI:/ 中图分类号:TP301
2、文献标识码:A文章编号文章编号: Abstract:Thewordsinreviewtextconformtothepowerlawdistribution,whichmakesthedistributionofLDAmodeltendstohighfrequencywords.Topicssimilarityislargeandexpressionabilitydrops.Therefore,apowerlawfunctionweightedLDAmodelisproposedtoimprovetheexpressivepoweroflowfrequencywords.Finally
3、,iForestalgorithmisusedtoselectadifferentandvaluablesetofcomments.Experimentalresultsshowthatthefeaturecoverageofselectedcommentsubsetsishigherandithashigheraverageinformation.为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我
4、校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。 KeyWords:LDA;iForest;feature;coverage;averageinformation 0引言 �W络购物已成为人们生活不可或缺的一部分。用户在购买商品前,往往喜欢浏览商品评论,从而了解商品的具体信息。但随着评论数量的急剧增长,用户浏览并分析这些信息变得不现实[1],大量的评论造成信息过载[2]。因此,从大量的评论中选出一组具有代表性的评论子集展示给用户变得愈加重要,评论选择也成为学者的研究热点。Tsaparas等[3]把评论选择转化
5、为一个最大特征覆盖率问题,使用改进的贪心算法[4]选择评论子集,但容易选择出内容过长的评论。Ganesan等[5]提出基于ngram模型获取评论总结,从大量的评论中总结出具有代表性和可读性的短语,此种方式结果过于简洁,反映的信息较片面。有学者提出根据商品的特征评分和获得支持的得分对评论进行质量排名,取TopN个评论作为评论子集,确保其质量优良[6],但也不能完全排除选中长评论的可能。上述方法易受高频词的影响,忽视低频且重要的词,因此本文提出幂函数加权LDA模型的评论选择方法,提高低频词的表达能力,从而找出一组较特殊的且信息量较高的评论推送给用户。 1问题定义为了充分发挥“教学点数字教育
6、资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。 本文提出的幂函数加权LDA模型,将评论文本转化为空间向量,使用高效的IForest算法找出特殊的、有意义的、与众不同的评论子集。 定义R为评论集,R={r1,r2,…,rn},n为评论个数,这些评论涵盖了用户关注的全部商品特征A={a1,a2,…,am
7、},m为给定的特征词个数。评论选择的任务就是从R个评论中选择K个评论作为子集,S={r1,r2,…,rk},SR且kn。 图2中,AAI表示全部评论特征词的平均信息量。SAAI表示评论子集中特征词的平均信息量。引入幂函数特征词加权后,评论子集特征词的平均信息量高于SAAI,说明评论子集包含更多的低频特征词。在相同的 主题数下,随着σ增大,平均信息量不一定增加。未引入加权函数和扩充系数时,评论子集的平均信息量与主题个数无关。引入加
此文档下载收益归作者所有