面向应用比较的用户评论挖掘工具的设计与实现

面向应用比较的用户评论挖掘工具的设计与实现

ID:21484597

大小:30.00 KB

页数:7页

时间:2018-10-22

面向应用比较的用户评论挖掘工具的设计与实现_第1页
面向应用比较的用户评论挖掘工具的设计与实现_第2页
面向应用比较的用户评论挖掘工具的设计与实现_第3页
面向应用比较的用户评论挖掘工具的设计与实现_第4页
面向应用比较的用户评论挖掘工具的设计与实现_第5页
资源描述:

《面向应用比较的用户评论挖掘工具的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、面向应用比较的用户评论挖掘工具的设计与实现  摘要随着智能手机的迅速发展,移动应用市场的规模也越来越大,市场上涌现出数百万移动应用。对于用户来说,面对海量的应用软件,会纠结于如何选择自己想要的应用。虽然GooglePlay市场上提供了移动应用的分类,可是对于同样的功能,每个类别下仍旧包含大量的应用,GooglePlay中虽然对每个应用提供评分和下载量供用户参考,但是仅通过这些信息不足以帮用户找到自己满意的应用。因此设计一个相似应用比较工具是有意义的。本文先对现有的用户评论和情感分析的相关研究做了总结,并在此基础上,设计与实现了一个相似

2、应用比较的用户评论挖掘工具。通过挖掘用户评论,提取了相似应用的对比信息,从而能够为用户提供更快捷的途径来找到自己想要的应用。工具的实现包括爬取应用评论信息、应用名称的简称提取、用户评论的方向分析、用户评论的情感分析等几个部分。最终本文通过一些实例测?,验证了抽取包含应用比较信息的评论的有效性。  【关键词】用户评论移动应用情感分析  1研究背景  随着信息技术的迅速发展,智能手机很快占据了手机市场。智能手机的功能变得越来越全面,不同功能的移动应用也越来越多。甚至在近几年,功能相似的移动应用在应用市场上都不计其数。当然,功能相同相似的每

3、个应用也有着各自的特点,有些在用户界面上给用户更好的体验,有些更省电给用户带来更多的方便,有些在功能上更强大。而不同的用户可能也有着不同的需求,因此用户想要某种功能的应用的时候,总会面临不知如何选择的烦恼。  应用下的用户评论是很有研究价值的数据。因此,可以考虑从用户评论下手,很多手机应用市场如GooglePlay的应用下都有用户的评论,用户会把自己的体验和感受写下来,如果能够挖掘出所有这样的信息,并将他们中包含的相似应用之间的关系提取出来处理并分析,那么可以很好的解决用户不知如何选择应用的问题。  2工具的设计  2.1应用简称提取

4、  可以发现许多应用被大家认为的名字,可能只是他在应用市场上官方全名的一部分,很多名字可能包含free,pro等后缀,例如CalculatorPlusFree,而这往往会被用户在评论时所忽略,可能用户在提到这个应用时就会CalculatorPlus来表示。因此,可以认为一个应用全名的任何一个子串,都是有可能被作为用户提到的名字出现的。那么可以考虑枚举每个名字的任何一个字串,例如上述应用CalculatorPlusFree,那么我们认为Calculator、Plus、Free、CalculatorPlus、PlusFree、Calcul

5、atorPlusFree这六种形式都是有可能作为该应用的别称。接下来,需要进一步的筛选。因为很明显,如果将Free、plus这种词作为一个应用的简称去在评论库中匹配,会发现无数的无用评论,因为这些词太过于常见。  本文用的方法是,如果发现一个有可能的别称有在不同的应用中出现太多,那么把它排除。因为数据库中有Googleplay应用市场的115万个应用,因此像free、plus这种词语,就能很轻松地排除了。那么剩下的虽然不那么热门,但是还是有些明显不会成为该应用的简称,例如plusfree。因此还需要进一步进行筛选。可以认为,在自己应用

6、下的评论,会有更多的提到自己应用名字的可能,因此可以在该应用自己的评论中去探索。下一步筛选的方法是,在该应用下的评论中去匹配,检查初步筛选剩下的这些词组,如果匹配到的词数超过一定值,那么认为这个词组是有可能成为该应用的别称或简称的。  2.2用户评论方向分类  在完成对应用名字简称的提取后,接下来还需对用户评论进行方向分析,即判断每条评论是在描述应用的哪个方向。将评论方向分成十个大类,那么这一节将描述如何将评论划入这些类别中。  先对每个方面找了一些非常具有代表性的词。例如有bug、fix的词语的评论肯定是bugreport。从这些精

7、确度极高的词出发,在用这些词语找到的评论中,再从这些评论中找那些十分近似的词语,例如在许多错误报告评论中出现会出现tap这个词,因为这个词出现的地方往往是在描述屏幕没反应后,怎么点击屏幕都没反应。还有类似slow、wait的看似常见的词,实际上出现在评论里一般是用来描述应用的运行性能的词。这些词虽然精确度可能没有百分之百,但是也是很高的,并且加上这些词,覆盖的可以判断出方向的评论就大大提高了。  总结出代表性的词语后,已经可以分析出很大一部分的评论的方向。不过应该注意的是,每个词都有不同的形式,不同的语境下会有不同的变化,如过去式,第

8、三人称等等变化。如果直接用完整的词去匹配,必然有很多词的变形的情况会导致漏掉。来自犹他州立大学的Phong等人发表的一篇文章里,总结了不同的类型的词的变形规则,他用一个很详细的表描述了这些规则,以处理词的不同形态。这里可

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。