欢迎来到天天文库
浏览记录
ID:5387749
大小:532.47 KB
页数:9页
时间:2017-12-08
《一种基于句法分析的情感标签抽取方法_李纲》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第58卷第14期2014年7月*一种基于句法分析的情感标签抽取方法■李纲刘广兴毛进叶光辉[摘要]指出情感标签由评价对象和情感词组成,包含评论的关键要素,能清楚地表达评价者的观点意见。提出一种针对产品网络评论的情感标签抽取模型,利用依存句法分析设计情感标签抽取算法,通过情感极性计算对抽取出的情感标签进行过滤。通过放宽的抽取规则与情感极性过滤相结合,以提高情感标签的召回率,实现潜在评价对象的抽取。最后用网络抓取的产品评论语料作为测试数据集对模型进行测试,获得较高的抽取准确率和召回率,并对模型中存在的问题进行总结,作为
2、模型改善的指导。[关键词]情感标签观点挖掘依存句法分析产品评论[分类号]TP391.3DOI:10.13266/j.issn.0252-3116.2014.14.0021引言点词关系的抽取。观点词的抽取有两种方式:一种[3]是基于词性的直接抽取,包括词组模式、情感词典随着电子商务的快速发展,商品或服务的交易越[4-5]构建等方法;另一种是基于观点词评论对象识别来越多地在互联网上发生。根据2014年1月中国互[2]的间接抽取,包括基于共现规则的抽取方法、基于联网信息中心(CNNIC)发布的第33次《中国互联网[6]
3、句法分析的抽取模型。两种抽取方式存在着一定络发展状况统计报告》,截至2013年12月,我国网民的性能差异,主要表现为:直接抽取不容易遗漏情感网络应用中网络购物用户规模达3.02亿,使用率达词汇,准确性也比较高,但是不容易得到观点词的评到48.9%。随着网络购物的不断发展和用户量的增论对象及相互之间的关系;间接抽取可以一步完成多,利用Web2.0的强交互性,顾客在互联网交易平“评论对象-观点词”意见对的抽取,但是在评价对台上发表产品或服务评论的行为越来越频繁,线上象隐含的情况下容易遗漏观点词,而且由于评论对产品或服
4、务的评论信息量急剧增加。这些评论包含象种类的不确定性,评论对象词库构建起来比情感顾客对产品的功能、性能等方面的观点,具有巨大的词典复杂很多。观点词情感极性的研究则集中关注价值。线上商家和顾客可以通过分析评论获取有用如何通过规则或方法的设计来量化情感倾向及其程[2]的信息以辅助决策,但是由于评论信息存在数量度,目前主要有3种方法:基于词典的语义距离计算[7-8][9-10]大、内容繁杂、非结构化等特点,对评论信息的分析方法、基于语料库的语义关联方法和基于机[11-12]需要运用自然语言处理技术中观点挖掘的相关理论器
5、学习的文本情感分类方法。及技术,抽取出关于产品的评价观点。目前在观点挖掘的研究中,对篇章和语句整体情观点挖掘的研究主要分为两个方面:①观点词感极性的计算方面已经取得了比较好的效果。然而,或观点句抽取方法及技术;②观点词或观点句情感对语句中各语义成分及其对应关系的识别方面,还没极性计算。观点词的抽取与情感极性的判定是观点有形成十分有效的解决方案。具体的问题在于:情感句抽取与情感极性计算的基础,在此本文重点关注。词和评价对象的识别精度和鲁棒性不高;情感的上下观点词抽取包括观点词本身的抽取和评价对象与观文极性研究不足;
6、隐式评价对象识别的研究欠缺*本文系国家自然科学基金项目“科研团队动态演化规律研究”(项目编号:71273196)、北京市财政项目“大数据环境下情报服务规范化体系建设”(项目编号:PXM2013_178214_000010)和武汉大学自主科研项目(人文社会科学)“网络视角下的应急情报体系建设主题研究”(项目编号:274014,得到“中央高校基本科研业务费专项资金”资助)的研究成果之一。[作者简介]李纲,武汉大学信息资源研究中心副主任,教授,博士生导师;刘广兴,武汉大学信息管理学院硕士研究生,通讯作者,E-mail:
7、lgx1431@126.com;毛进,武汉大学信息资源研究中心博士研究生;叶光辉,武汉大学信息管理学院博士研究生。收稿日期:2014-04-10修回日期:2014-05-12本文起止页码:12-20本文责任编辑:刘远颖12第58卷第14期2014年7月[13]等。相较于篇章和语句整体情感极性的计算,语句系细粒度地抽取出来。语义层面的挖掘有着更深远的价值,例如文章自动摘S.M.Kim等认为一个观点(opinion)由主题、意见要、新闻事件识别、本体构建自动化等方面都依赖于句持有者、情感描述项和褒贬倾向性4个部分来描
8、述,即子语义层面的挖掘。意见挖掘的最终目标是挖掘评论意见持有者针对某一特定主题表达出的具有某种褒贬[15]者对产品属性、功能的态度或评价,因此在句子粒度上倾向的情感描述。在产品评论的观点挖掘中,意见识别各语义成分及其相互关系是产品评论挖掘的一个持有者基本上是消费者,并且评论语句大多数不包含研究重点,但目前要自动处理文本并给出较为完整的意见持有者信息,所以本文不考虑意见持有
此文档下载收益归作者所有