资源描述:
《产品评论垃圾识别研究综述》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、产品评论垃圾识别研究综述*聂卉王佳佳(中山大学资讯管理学院广州510006)摘要:【目的】对在线产品评论垃圾识别的研究工作进行梳理,总结研究现状,明确发展方向。【文献范围】从CNKI及GoogleScholar中以“评论垃圾”、“review/opinionspam”等为检索词筛选获得国内外近50篇相关文献。【方法】采用文献分析法。界定产品评论垃圾的概念,明晰评论垃圾所属的研究范畴;总结产品评论垃圾识别研究中的关键问题及研究进展。【结果】产品评论垃圾指故意过分吹捧或贬低某种产品的不真实评论以及不包
2、含任何有益成分的非相关在线网络评论。研究中存在虚假评论标注集难获取的问题,强调评论人行为特征的分析,提出融合评论人特征来解决评论垃圾识别的研究思路。【局限】应结合产品评论垃圾的识别对用户评论可信度进行更深入的分析。【结论】评论垃圾识别是评论可信性研究的应用体现。辩识评论内容的真伪要充分挖掘评论内容、评论人等多个维度的识别特征。同时,考虑到众多特征的相互独立性,应挖掘有显著影响作用的特征因素。关键词:评论垃圾分类号:TP391评论可信度评论有用性用性”及“reviewspam”“fakereview
3、”“reviewcredibi-lity”“reviewhelpfulness”等为主题在CNKI和GoogleScholar中检索,筛选出近50篇中外目标文献。文献显示,该主题从2007年开始被关注,国外研究成果较多。本文综合国内外已有研究成果,界定“评论垃圾”的概念,从评论可信度、评论有用性的角度梳理评论垃圾的识别研究,探讨可信度、有用性与评论垃圾问题的关联,明确评论垃圾所属的研究范畴。从实践角度,总结研究中的关键问题和实现方法,重申评论垃圾识别研究的重要意义,以期对相关工作的开展和研究提供借
4、鉴。1引言Web2.0的出现使人们由单纯的网络信息接受者转向信息贡献和创造者。截至2013年6月,至少5.91亿[1]网民在创造各种网络信息。尤其是电子商务的发展,促使在线用户评论数量急剧增长,成为人们上网购物寻求参考信息的重要渠道。购买商品或消费前,用户往往会查看相关评论信息,如果评价积极,消费者的购买意向可能就大。因而随着网络应用的不断深入,在线“网络口碑”对商品销量及商家名誉的影响力越来越大。某些组织或个人在各种利益的驱动下开始利用网络信息监管的缺失,弄虚作假,制造评论垃圾混淆视听误导用户。
5、清除网络垃圾,净化网络环境,为人们提供一个真实可信的信息获取平台的需求日益迫切。以“评论垃圾”“产品评论”“评论可信度”“评论有2评论垃圾的界定网页垃圾和邮件垃圾是先于“评论垃圾”的概念。网页垃圾源自搜索引擎优化(SearchEngine收稿日期:2013-11-15收修改稿日期:2013-12-18*本文系广东省哲学社会科学“十二五”规划2013年度项目“基于情境和用户感知的知识推荐机制研究”(项目编号:CD13CTS01)的研究成果之一。XIANDAITUSHUQINGBAOJISHU63Op
6、timization,SEO)。其目的是通过提供更多有效信息提高网站质量,提升网站排名。但有的SEO却在制造垃圾,以此为网页获得不公正的相关性和重要性[2,3]。垃圾邮件可以认为是一类“不请自来”、匿名、带有商业或宣传目的,且对收件人形成骚扰的E-mail形式的网络资讯[4,5]。包括网页和邮件在内的资讯垃圾,从信息价值的角度看,有违信息的真实有效性,甚至有恶意特质。现在,由于电子商务和Web2.0不断深入,用户生成内容充斥网络世界,一类新的“垃圾资讯”——“产品评论垃圾”逐渐涌现。据实验数据预测
7、[6],产品评论垃圾几乎可以占到评论总数的一半,可见其巨大的干扰力和误导力。“产品评论垃圾”有明显的恶性商业竞争特质。研究者从4个不同的视角界定概念,如表1所示:表1评论垃圾的界定此,邮件用户期待垃圾的高判准率,而评论阅读者期待高判全率。(2)特征选取的差异。网页和邮件垃圾直观传递垃圾信息,不忌讳被用户看穿其垃圾本质,因而内容上不会有大量掩盖和修饰。网页垃圾检测中多选取词量、词长、锚文本比例等[16]浅层文体特征,较少考虑语义层面。但评论垃圾具有乱真的目的性,评论内容常被精心掩饰。此时,浅层的文体
8、特征不足以辨别评论的信用本质,辨别评论垃圾性的特征的选取更具多元化,不仅考虑语言层面的特点,更要深入到评论的语义内容,甚至需要探讨评论人信用等外部特征因素。同属垃圾资讯,网页、邮件和评论有相通之处,网页和邮件垃圾的识别开展较早,为评论垃圾识别提供较多可借鉴的成果。但评论垃圾的独特性,又使其识别研究有别于前两者。提升自家产品和服务或者分散竞争对手顾客的在线评论[7-10]3评论可信度和效用可信度源自大众传播领域,指信息被信任的程度。相应地,评论可信度被认为是评论人提供的信息被接收者认