欢迎来到天天文库
浏览记录
ID:35101985
大小:4.67 MB
页数:131页
时间:2019-03-17
《面向产品评论的多文档观点文摘研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、博士学位论文面向产品评论的多文档观点文摘研究RESEARCHONMULTI-DOCUMENTOPINIONSUMMARIZATIONFORPRODUCTREVIEWS王巍哈尔滨工业大学2015年10月国内图书分类号:TP391.1学校代码:10213国际图书分类号:004.91密级:公开工学博士学位论文面向产品评论的多文档观点文摘研究博士研究生:王巍导师:赵铁军教授申请学位:工学博士学科:计算机应用技术所在单位:计算机科学与技术学院答辩日期:2015年10月授予学位单位:哈尔滨工业大学Classified
2、Index:TP391.1U.D.C:004.91DissertationfortheDoctoralDegreeinEngineeringRESEARCHONMULTI-DOCUMENTOPINIONSUMMARIZATIONFORPRODUCTREVIEWSCandidate:WeiWangSupervisor:Prof.TiejunZhaoAcademicDegreeAppliedfor:DoctorofEngineeringSpeciality:ComputerApplicationTechnol
3、ogyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:October,2015Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要观点文摘,又称情感文摘,是对含有情感信息的主观性文本集合进行文本分析、内容归纳和文摘生成的技术。随着互联网主观性评论文本数量的不断增加,观点文摘的应用需求也随之增加,这些需求为观点文摘的发展带来了动力,同时也为自然语言处理的研究带来了
4、新的机遇和挑战。近些年,观点文摘相关任务的研究受到一些研究者的关注,并取得了一定的成果,研究者们尝试将观点文摘技术应用于决策支持、舆情监测和信息预测等应用领域中。观点文摘主要包含三项研究内容:情感要素抽取、情感极性识别和情感信息归纳,这些内容均属于情感分析的范畴。本文针对观点文摘的三项关键内容进行研究,其中情感要素抽取和情感极性识别属于情感分析的基础性研究,目的在于从评论文本中识别出有效的评价单元(评价属性、评价词语等),并对这些评价单元的极性进行判断;情感信息归纳属于情感分析的应用级任务,目的在于对识别
5、出的重要评价信息进行归纳,从而形成一个简洁、精炼的摘要。本文还对产品的综合排序任务进行了研究。本研究的具体内容包括:基于条件随机域模型的比较要素抽取研究。在基于统计机器学习的比较要素抽取方法中,特征的选择对模型的建立至关重要。本文针对比较要素抽取任务,提出引入浅层句法特征、比较词候选特征和启发式位置特征等语言学相关特征,并将这些特征自动融合到条件随机域学习算法中。实验结果表明,浅层句法特征能够有效的识别短语级的比较要素,比较词候选特征不仅能够弥补比较词训练样本不足的问题,还可以对其他要素的位置进行初步定位
6、,启发式位置特征有助于区分词性相似的要素。该方法可以有效提高比较要素抽取的各项性能指标。基于观点内外部特征相结合的模糊评价词语极性识别。模糊评价词语是指情感极性随上下文的不同而发生改变的词语,以往的研究主要考察评价单元外部的极性特征,而较少关注评价单元内部的特征,因而带来了模糊评价词语极性识别率不高的问题。本文提出了一种将观点内部特征与观点外部特征相结合的无监督极性识别方法,该方法通过引入两种观点内部特征:修饰词语和高频评价搭配,有效解决了模糊评价词语极性识别准确率低的问题;同时结合两种观点外部特征进行极
7、性识别,有效解决了模糊评价词语极性识别召回率低的问题。基于层次分析模型的产品多属性综合排序。综合评价指的是运用多个评价指标对多个参评对象进行评价(排序或择优)。本文针对产品的综合评价问题,-I-哈尔滨工业大学工学博士学位论文提出了一种建模方法,该方法通过构建层次分析模型来完成产品的综合排序,模型首先将综合评价问题按目标层、准则层、子准则层直至具体的参评方案层分解为多个层次,在此基础上进行定量分析,通过计算每一层次各元素对上一层次某元素的优先权重,最终求得各个层次的组合权向量,实现了实体的多属性综合排序。该
8、方法在构建层次分析模型时还结合了图模型并充分考虑了用户的不同需求,有效解决了产品多属性综合排序问题。基于模板的生成式多文档观点文摘。多文档自动文摘任务一直是TAC(TextAnalysisConference)会议的重要评测内容,但是主观性评论文本的多文档自动文摘仍然是一个新颖且具有挑战性的任务。本文针对评论文本的多文档观点文摘任务,提出了一种基于模板的生成式多文档观点文摘方法。该方法首先从评论文档集中提取评价信息(评价实体、
此文档下载收益归作者所有