欢迎来到天天文库
浏览记录
ID:35040077
大小:5.98 MB
页数:134页
时间:2019-03-16
《主题事件挖掘及动态演化分析研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、博士学位论文主题事件挖掘及动态演化分析研究RESEARCHONTOPICEVENTMININGANDDYNAMICEVOLUTIONANALYSIS李风环哈尔滨工业大学2015年12月国内图书分类号:TP391.1学校代码:10213国际图书分类号:004.62密级:公开工学博士学位论文主题事件挖掘及动态演化分析研究博士研究生:李风环导师:赵铁军教授副导师:郑德权副教授申请学位:工学博士学科:计算机应用技术所在单位:计算机科学与技术答辩日期:2015年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.1U.D.C:004.62Dissertationforth
2、eDoctoralDegreeinEngineeringRESEARCHONTOPICEVENTMININGANDDYNAMICEVOLUTIONANALYSISCandidate:FenghuanLiSupervisor:Prof.TiejunZhaoAssociateSupervisor:AssociateProf.DequanZhengAcademicDegreeAppliedfor:DoctorofEngineeringSpecialty:ComputerApplicationTechnologyAffiliation:SchoolofComputerScienceandTech
3、nologyDateofDefence:December,2015Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要主题事件挖掘和演化分析是将人们感兴趣的事件以结构化的形式呈现出来,抽取事件发生的关键信息,如时间、地点、人物等,并进行整理和分析以发现事件之间的关联关系和发展形势,使关注者能够更明确和快速地了解事件。主题事件的挖掘主要包括时序分析、信息检索、自动文摘、话题检测与追踪、事件检测、突发检测、异常点检测等。前期基础工作需要进行数据采集,即获取事件的相关数据并进行结构化或半结构化的处理。本文将从句子到篇章,再到
4、多篇章展开研究,处理的对象是面向主题的事件,主要工作就是对主题事件进行深层次的理解,也就是面向多篇文档的主题事件抽取和事件分析。主题事件抽取包括面向句子或短语的事件信息识别,包括时间、地点、人物、浅层语义分析等;面向文档的事件信息识别,主要包括时间、关键动作、地点、人物等,以及面向多文档的主题事件的信息融合。事件分析包括子主题的动态演化分析、人物影响力分析和异常点检测等。本文涵盖了主题事件挖掘的四个要点,且在不同的研究问题中各有侧重。(1)研究主题事件的信息抽取和时序特征。单纯的以句子为单位的事件论元并不能反映主题事件的发生情况,本研究以主题事件为研究对象,同时具有动作意义的元事件又是组
5、成主题事件的必要单位,包含句子范围内的事件抽取,篇章内的事件抽取,多篇章的事件抽取。本文提出了一个面向主题事件的时间识别模型,将面向句子或短语的时间识别转化为面向篇章的时间识别,从而识别主题事件片段的时间。该模型采用参考时间动态选择机制对时间表达式进行规范化。通常事件元素与动词所支配的论元成分有一定的对应关系,因此本研究中结合事件抽取和浅层语义分析,将事件元素与语义角色标注相对应,改善了纯粹基于关键词或静态参考时间机制的主题事件片段的时间识别的性能。(2)基于动量表示和股票价格分析指标进行人物影响力分析。本研究将结合事件的要素以及突发检测理念来研究人物在整个事件发展过程中的影响力。运用物
6、理模型来定义和构造人物影响力的动态性,结合人物的社会要素,而不只是靠到达率来分析,避免了人物停用词出现频率过高的情况。利用股票分析指标来特征化和分析人物影响力的动量特征,同时考虑多个平滑异同移动平均线(MovingAverageConvergenceDivergence,MACD)技术指标的联合作用,避免了某个指标高而没有突发状况的突发检测技术。以此来分析事件中的要素,以及这些要素在主题事件发展过程的参与作用。-I-哈尔滨工业大学工学博士学位论文(3)研究动态增量式策略在主题事件的子主题演化分析中的运用。传统的主题探测与追踪是实现对新闻媒体信息流中新话题的自动识别以及对已知话题的动态跟踪
7、。这些话题可能是没有什么关联的独立话题,或者可能并不是对同一个事件的描述。本研究根据子主题演化作为动态数据流的特点,结合Single-Pass聚类方法、兼类思想以及动态增量思想,进行子主题的探测与追踪,以实时地跟踪事件发展的动态。并根据子主题的时序性和动态性,对算法在阈值选择,相似度平滑和时间要素方面进行了分析。(4)研究统计理论和模糊集理论协同作用的异常点检测问题。异常点检测也是一种基于时序的分析,它考虑了数据流的时序性和动态性。
此文档下载收益归作者所有