欢迎来到天天文库
浏览记录
ID:35102087
大小:2.81 MB
页数:68页
时间:2019-03-17
《面向对话文本的主题分割技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文面向对话文本的主题分割技术研究RESEARCHONTOPICSEGMENTATIONTECHNIQUESINDIALOGUETEXT王炳浩哈尔滨工业大学2016年6月国内图书分类号:TP391.2学校代码:10213国际图书分类号:681.37密级:公开工学硕士学位论文面向对话文本的主题分割技术研究硕士研究生:王炳浩导师:张宇教授申请学位:工学硕士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2016年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.2U.D.C:681.37Dissertationfor
2、theMasterDegreeinEngineeringRESEARCHONTOPICSEGMENTATIONTECHNIQUESINDIALOGUETEXTCandidate:WangBinghaoSupervisor:Prof.ZhangYuAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2016Degree
3、-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学硕士学位论文摘要大数据时代,海量的对话内容被录制并保存下来。如何利用这些数据,高效辅助并满足人们的生活生产需求是亟待解决的问题。主题分割(TopicSegmentation)是将一个文档(如新闻节目、演讲报告以及会议等)按照主题的转移或变化划分成若干个主题段落,使每个主题段落内表达的主题连贯一致,而与相邻的主题段落所描述的主题不同。其对于冗长的文本和语音内容内的导航,定位,信息抽取以及摘要等有着重要意义。在本文面向对话文本的主题分割技术研究中,主
4、要包含以下两个方面的研究内容:无监督的主题分割方法研究和有监督的主题分割方法研究。首先,本文提出了一种基于主题模型的主题分割方法。目前无监督的主题分割研究中主流的方法是基于主题模型。本文从引入线索短语到无监督方法的前人工作中得到启发,将线索短语这种明显指示主题分割边界的特征通过一个特定的主题融入到结构化的主题分割模型中。通过对隐含的指示分割边界的变量的采样推理,获得分割结果。在英语会议语料上的实验结果表明,该方法对比其他无监督方法能够获得更好的分割效果。其次,在目前对话文本主题分割取得了出色效果的有监督方法基础上,本文通过分析该方法的在词汇空间的特征表示的稀疏
5、问题,以及特征类型单一的问题,提出了改进特征的基于支持向量机主题分割模型。结果表明该方法能够提升主题分割性能,且定量的验证了提出的三类特征的贡献。最后,本文将基于深度学习的表示学习方法应用到对话文本的主题分割,提出了一种基于长短记忆循环神经网络的主题分割模型,通过多层的长短期记忆循环神经网络分别对句子以及句子序列进行了表示,并通过说话人信息的表示学习,进一步提升在对话文本上的主题分割效果。实验结果证明,基于深度学习的主题分割方法较基于特征工程的传统机器学习方法更加有效。关键词:主题分割;对话文本分割;主题模型;长短期记忆循环神经网络-I-哈尔滨工业大学硕士学位
6、论文AbstractIntheeraofbigdata,themassivecontentofdialoguewasrecordedandsaved.Howtomakeuseofthesedatatoassistpeopleisanurgentproblemtobesolved.Topicsegmentationaimstodividedocuments,suchasnews,lecturesandmeetings,intoseveraltopicallycoherentpartsaccordingtothetransformationorchangeofto
7、pic.Withineachsegment,thetopicisconsistent.Butanytwoadjacentsegmentsdifferinthetopic.Itisanecessaryandimportantstepinnavigation,indexing,informationextractionandsummarizationfromthelengthytextandaudiocontent.Intheresearchontopicsegmentationtechniquesindialoguetext,thisthesismainlyfo
8、cusesthefollowingtw
此文档下载收益归作者所有