意见挖掘是当前自然语言处理的研究热点new

意见挖掘是当前自然语言处理的研究热点new

ID:34459142

大小:238.93 KB

页数:6页

时间:2019-03-06

意见挖掘是当前自然语言处理的研究热点new_第1页
意见挖掘是当前自然语言处理的研究热点new_第2页
意见挖掘是当前自然语言处理的研究热点new_第3页
意见挖掘是当前自然语言处理的研究热点new_第4页
意见挖掘是当前自然语言处理的研究热点new_第5页
资源描述:

《意见挖掘是当前自然语言处理的研究热点new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、ISSN100020054清华大学学报(自然科学版)2009年第49卷第S1期17ö31CN1122223öNJTsinghuaUniv(Sci&Tech),2009,Vol.49,No.S1133321338基于泛化和繁殖的自举式意见目标抽取方法1,22222郝博一,夏云庆,邬晓钧,郑方,刘轶(1.清华大学计算机科学与技术系,北京100084;2.清华信息科学技术国家实验室,北京100084)摘要:意见目标抽取是自然语言处理领域中意见挖掘研究的重要环节。该文提出了一种基于泛化、繁殖和自举的意见目标抽取方法,在泛化过程中提炼原子意见目标和意见目标模式,在繁殖过程

2、中对复合意见目标进行扩展,并采取自举机制实现了意见目标的递增学习。实验结果显示,经过第一轮自举过程后,该方法的F21score指标超出基线方法0.078;自举过程完成后,F21score指标提高了0.112。这说明,泛化处理对意见目标充分繁殖意义重大,自举过程则有助于充分发挥泛化能力和繁殖能力。关键词:自然语言处理;意见挖掘;意见目标抽取;文本挖掘中图分类号:TP391文献标识码:A文章编号:100020054(2009)S121333206Bootstrappingopiniontargetextractionbasedongeneralizationandp

3、ropagation1,22222HAOBoyi,XIAYunqing,WUXiaojun,ZHENGFang,LIUYi(1.DepartmentofComputerScienceandTechnology,TsinghuaUniversity,Beijing100084,China;2.TsinghuaNationalLaboratoryforInformationScienceandTechnology,Beijing100084,China)Abstract:Opiniontargetextractionisakeystepinopinionmining

4、.Amethodwasdevelopedforopiniontargetextractionbasedongeneralization,propagationandbootstrapping.Thegeneralizationmoduleextractsatomopiniontargetsandopiniontargetpatternsfromthecompoundopiniontargets,thepropagationmodulesynthesizescompoundopiniontargetswithareasoningmechanism,andthebo

5、otstrappingmoduleprovidesmulti2cycleincrementallearning.TestsshowthattheF21scoreforthismethodoutperformsthebaselineby0.078inthefirstcycleandby0.112inthelastcycle.Thus,generalizationimprovesthepropagationandthebootstrappinghelpstomaximizethecontributionsofthegeneralizationandpropagati

6、on.Keywords:naturallanguageprocessing;opinionmining;opiniontargetextraction;textmining意见挖掘是当前自然语言处理的研究热点,其见目标词涉及范围有限,扩展性差,无法覆盖多数目标是从评价文本中自动抽取主观意见(简称意“种子”,导致大量意见目标无法通过现有的“种子”见)。意见是一个特定的信息单元,它涵盖了意见目扩展得到。本文针对意见目标识别问题,提出了一种标和意见情感表达,并蕴含了特定观点极性。意见目基于泛化(generalization)、繁殖(propagation)和自标抽取对

7、意见挖掘系统意义重大。只有恰当抽取意举(bootstrapping)的意见目标抽取方法。见目标,意见挖掘系统才会准确可信。以下观察是本文提出泛化、繁殖与自举方法的意见目标抽取研究最常用的方法,是以人工编理论依据:意见目标的表达虽纷繁复杂,但是它们辑的意见目标集为“种子”,通过规则或统计手段从多数是由数量有限、繁殖能力强的意见目标经过一[1-5]原始评价文本中抽取到更多的意见目标。存在的问题是:一方面,某些意见目标词粒度过大,灵活收稿日期:2009203219性弱,若直接将其视为“种子”,则无法在实际评价文基金项目:国家自然科学基金项目(60703051)作者简介

8、:郝博一(1984—),

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。