欢迎来到天天文库
浏览记录
ID:22124500
大小:32.50 KB
页数:9页
时间:2018-10-27
《面向产品的虚假评论识别》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、面向产品的虚假评论识别 随着网上购物成为一种最重要的日常购物方式,产品评论成为了用户是否购买卖家产品的重要依据,因而对虚假评论的识别具有重要意义。本文基于虚假评论和真实评论在情感极性上的差异,定义了8个特征并利用随机初值的局部搜索法、模拟退火法两种启发式算法进行特征选择,再通过两种聚类算法对虚假评论进行识别。最后通过对构造出的数据集进行实验,验证了算法的有效性。 【?P键词】虚假评论情感极性启发式算法聚类 1引言 互联网的发展极大地影响了人们的生活方式和消费观念,网购越来越受到消费者的欢迎。由于人货分离,
2、消费者在消费前需要大量的信息作为参考,面向产品的评论是其中重要的一环。在现实利益的驱动下,垃圾评论快速“滋生”,特别是产品评论数量呈爆炸性趋势增长,人为地辨别垃圾评论已不切实际,因此,研究出一种能够识别和过滤垃圾评论的方法具有重要的现实意义。 2相关工作 国内外的研究者们在博客和邮件领域的垃圾评论方面做了大量工作,取得了一定的成果,但对于产品虚假评论的识别依然困难重重。 文献[1]首次定义了三种类型的垃圾评论以及基于产品、评论内容以及评论者三类评论特征,建立Logistic回归模型进行识别。但这种方法对于虚
3、假评论识别效果不佳。文献[2]开发了第一个识别虚假评论的“黄金”数据集,利用文本分类技术来对虚假评论进行识别。文献[3]提出通过用户所给的评价等级来识别垃圾评论制造者的方法,用计算机所得分值进行排名,从数据集中移除分值较高的评论者及其评论。文献[4]从互联网获取产品评论集,并进行手工标注的数据集训练分类器来识别虚假评论。以上方法由于人的主观因素难以确定合适的标准,使数据集中存在过多的错误标注。文献[5]现利用对评论文本进行上下文无关文法的特征建模有助于提高识别的正确率。文献[6]利用F统计量改进K均值算法,在实现
4、评论集的自适应聚类后计算每个簇偏离的程度,从而实现对虚假评论的识别。 本文创新性地提出采用评论文本的语言结构和情感极性上的差异来定义特征,使用随机初值的局部搜索法、模拟退火法进行特征选择,然后利用聚类算法来识别虚假评论。 3数据集 当前阻碍虚假评论研究发展的一个重要因素是缺少评估检测算法的标注数据集,为了获得可靠的已标注数据集,我们选择了西安市2家日化店,进行人工构造,具体构造方式如下: 3.1虚假评论 虚假评论是人工无法直接从评论集中有效识别出的,故我们进行人工构造虚假评论。在10天内,我们要求周边市
5、民(并未实际购买产品)写下正面积极、有利于产品售出的评价,共收集到300条虚假评价。 3.2真实评论 2个月内,我们共获得437条真实的用户评论。由于评价质量良莠不齐,我们制定了一些约束条件对这437条评论进行过滤处理,与虚假评论平衡,保持长度分布一致,最终保留300条真实评论。 我们将这300条真实评论与300条虚假评论构成本文所需的数据集。 4特征工程 根据现有对特征定义和构建的方法研究,并结合用户语言心理学知识、文本的语言结构及情感极性的分析,本文总结了以下8个特征。 4.1特征定义 4.1.
6、1词汇量 虚假评论者会大肆赞美产品,使评论冗长,而真实评论言简意赅。故词汇量越大,评论真实度越低,由此定义词汇量为评论中词汇的数量。 4.1.2修饰度 丰富的词汇种类可以用来表达用户的情感,虚假评论者使用的词汇种类少于真实评论者使用的词汇种类。为了便于统计,本文定义形容词与副词与总词汇量的比值为修饰度,修饰度越高,真实性越大。 4.1.3人称代词词频 第一人称代词可以增加评论的真实度以及亲切感,在无亲身体验的虚假评论中,它被更多地使用。本文定义第一人称代词数量占总词汇量的比值为人称代词词频。 4.1.
7、4产品提及度 定义产品提及度为产品各种属性相关的词汇量占总词汇量的比值。虚假评论会更多地提及产品的品牌以及相关属性以增加评论可信度,故产品提及度越高,该评论为虚假评论可能性越大。 4.1.5正面情感 为了强调产品的正面性,虚假评论中能表现正面情感的词汇较多。定义正面词汇(利用正面情感词典)数量占总词汇数的比值代表正面情感。 4.1.6负面情感 与正面情感相似,虚假评论者会为了赞美产品而尽量不使用负面情感词汇。定义负面词汇(利用负面情感词典)数量占总词汇数的比值代表负面情感。 4.1.7极端评分 虚假
8、评论者会为了提高产品的正面性而给出极端的评分(数据集中评分满分为5分),设定5分为极端评分赋值为1,其他评分为0。 4.1.8评分偏差 虚假评论者缺少真实的用户体验,所给出的评分常与平均评分有较大偏差,本文认为偏差越大,该评论为虚假评论的可能性越大。定义评分偏差为用户评分与均值的绝对值。 4.2基于启发式算法的特征选择 在机器学习与数据挖掘的实际应用中,特征的数量
此文档下载收益归作者所有