欢迎来到天天文库
浏览记录
ID:35078094
大小:7.19 MB
页数:74页
时间:2019-03-17
《微博事件自动摘要研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、'——'A’卿'巧古巧峨■*■-.-.1夺固許^若某大赛UniversityofScie打ceandTechnologyofChina硕±学位论文做堪事钟令勢摘要研堯论文题目作者姓名iLJ5计算机软件与理冷学科专业全培权到敎换导师姓名二0—六年五月:完成时间*I■—._—?am牛笛种嗦我术乂#硕±学位论文纖微博事件自动摘要研究作者姓名:崔同m学科专业:计算机软件与理
2、论别巧姓名:金培权臟授一六年四月完成时间:二〇mliUniversityofScienceandTechnooofChnagy’ADissertationforMastersDereeg戀ResearchonAutomaticSummarizationofMicroblogEvents’Au也orsName:TcmgCuiSpecialty:ComputerSoftwareandTheorySupervisor:
3、Asso.Prof.PeiuanJinqFinishedtime:Aril2016p,中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研巧工作所取得的成果。除已特别加W标注和致谢的地方外,论文中不包含任何他人己经发表或撰写过的研巧成果一。与我同工作的同志对本研巧所做的贡巧均已在论文中作了明确的说明。。作者签名.:在吗签字日期:文65|中国科学技术大学学位论文授权使用声明作为申请学位的条件么一,学位论文著作权拥有者授权
4、中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部口或机构送交论文的复印件和电子版,允许论文披査阐和借阅,可W将学位论文编入有关巧据、库进行检索,可W采用影印缩印或扫描等复制手段保存、汇编学位论文。本人一提交的电子文档的内容和纸质论文的内容相致。保密的学位论文在解巧后也巧守此规定。开□保密(年)__作者签名:也巧导师签名:心1CS〇 ̄签字日期:谷签字日期:义拍要在Web2.0时代,微巧己成为流行的社交网络平台。微巧互动
5、性强、用户数量大,社会上的流行热点事件能够在微博平台上迅速传播,其实时性和现场感远超传统媒体。通过微博浏览热点事件己经成为现代社会获取最新资讯的重要途径。一然而,作为个主打社交的平台,微博并没有专口对新闻事件数据进行优化。人们在微巧平台上只能通过关键词检索事件相关微博一。这些微博方面内容冗余度商一,另方面由于微博字数限制很难给出事件的整体描述W及用户观点。再者,捜索引巧的结果一般通过微博发布时间或者热口程度等基本属性进行排巧,并没有针对微博文本內容或者主鹿进行排序的机制。这
6、些不足致使呈现在用户面前的一一事件信息只是个局部,缺乏完整性。同时,对于个事件,特别是发展过程中重点发生转移的事件一,用户不仅巧要了解事件的巧况,还肴望进步掌捏事件发展的脉络和前因后果。针对这些问题一,本文提出了种面向微博事件的自动摘要生成方法。它包含一两部分内容。对于微博事件数据如何进行表示的问题,我们设计了种债巧短文本自动摘要算法。它可W克服传统的长文本自动摘要方法应用于短文本巧要效果不佳的缺点,从事件的整体入手为微博生成巧要。对于事件演化阶段的巧要生成一问思,C
7、,我们提出了种基于演化特征的层次巧类算法并结合事件巧要算法为巧巧生成演化摘要。本文的主要贡巧如下;一(1)针对巧巧平台美件信息表示的问鹿,提出了种适用于微博短文本的一自动摘要算法。我们定义了种微博复合型摘要,包括微博事件描巧摘要和微巧情感摘要。对于事件描述摘要,本文在依存语法的基础上,利用围模型计算微巧句子单元的重要性并进行排序,最后用最大边缘相关算法筛选出最相关的句子一构成事件描还集合。对于用户情感巧要,本文提出了种基于监巧学习横型的情感句抽取方法,我们从新浪澈巧上抓取了
8、6个事件微博窠合,实验结果表明了本文巧提方法的有效性。一(2)针对某璧事件演化过程复杂,个摘要难W表示的问屈,我们提出了一种基于巧化持征的层次聚类算法用于识别事件演化阶段。在计?巧化特征向》相似度时,考虑到传统的基于向童空间棋型的余巧相似度计貧忽咯了词语之间的一厢序关系,我们设计了种基于Spearman相关性系数计算相似度的方法,将词一语晒巧这巧化特征识别的重要因素计算在内?在完成事件演化阶段识别任务之后,巧所有子,我们结
此文档下载收益归作者所有