欢迎来到天天文库
浏览记录
ID:35040903
大小:5.20 MB
页数:79页
时间:2019-03-16
《互联网热点事件挖掘技术的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、I'I:参4A^^^黃SouthChinaUniversitofTechnoloygy工程硕±学位论文互联网热点事件挖掘技术的研究与应用1作者姓名赵连错工程领域软件工程校内指导教师王振宇教授校外指导教师胡席梅高级工程师所在学院软件学院论文提交日期2016年3月、ResearchandApplicationonInternetPublicOpinionEventMiningADissertationSubmittedfortheDegreeofMasterCand
2、idate:ZhaoLiankaiSupervisor:Prof.WangZhenyuSouthChinaUniversityofTechnologyGuangzhou,China1分类号:TP3学校代号:10561学号:201321033610华南理工大学硕士学位论文互联网热点事件挖掘技术的研究与应用作者姓名:赵连锴申请学位级别:工程硕士工程领域名称:软件工程校内指导教师姓名、职称:王振宇教授校外指导教师姓名、职称:胡炜梅高级工程师论文形式:ꇶ产品研发ꇶ工程设计ꇶ应用研究ꇶ工程/项目管理ꇶ调研报告研究方向:商务智能论文提交日期:2015年12月1日
3、论文答辩日期:2016年3月25日学位授予单位:华南理工大学学位授予日期:年月日答辩委员会成员:主席:奚建清委员:黄翰、潘勇、方琼、吴庆耀华南理工大学学位论文原创性声明'I本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加标注引用的内容外,本论文不包含任I何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均己在文中W明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名■:每锋日期:必I《年3月巧日学位论文版权使用授权书本学位
4、论文作者完全了解学校有关保留、使用学位论文的规定,良P;研究生在校攻读学位期间论文工作的知识产权单位属华南理工大学。学校、W权保存并向国家有关部口或机构送交论文的复印件和电子版,允许学位论文被查阅(除在保密期内的保密论文外);学校可W公布学位论文的全部或部分内容,可W允许采用影印、缩印或其它复制手段保存、汇编学位论文一。本人电子文档的内容和纸质论文的内容相致。:I本学位论文属于□保密,在年解密后适用本授权书。木保密,同意在校园网上发布,供校内师生和与学校有共享协议的9单位浏览;同意将本人学位论文提交中国学术期刊
5、(光盘版)电子杂志社全文出版和编入CNKI《中国知识资源总库》,传播学位论文的全部或部分内容。""请在上相应方框内打V()作者签名;么惠曠曰期;必1<、^、冲指导教师签名:日期寺3摘要随着互联网的发展,网络上存在的信息量也急速增长,导致人们获取有效信息的难度加大。特别是对于资讯信息量大的个人、企业和事业单位,想要仅仅凭借人力对互联网信息进行整合与分析,难度巨大,是一个几乎不可能完成的任务。互联网热点事件挖掘和分析技术通过缓解信息重载、整合冗余信息以及提炼核心信息,可以有效解决上述问题。互联网热点事件挖掘领域的研究包括话题发现
6、、事件主题生成、事件特征分析、事件内容抽取等。话题发现技术研究起步较早,目前已有较多成果。但是事件与话题不同,一个话题包含了多个描述相同事件的文本,而一个事件就是一句能够高度概括话题的话,我们可以将事件理解成话题的标题。热点事件主题句生成算法用于提取话题核心内容,生成热点事件,这方面的研究近几年在国外兴起,而国内研究较少,国内大部分关于热点事件挖掘的研究都局限于话题发现,而未对发现的话题进行整合处理,生成更具代表性和特征性的话题表现形式,即事件主题句。本文针对上述问题,在热点事件挖掘领域进行热点事件主题句生成技术的研究,主要完成了以下几个工作:第一,
7、设计了一种基于话题核心词映射和事件三元组选择的混合事件候选集构建算法。该算法利用PAT-Tree技术提取话题文本中的高频核心词,将高频词映射成到句子,生成一部分事件核心句。另一部分事件核心句通过将事件三元组做作为候选元,从话题文本中抽取出包含事件元素的句子。将两种方法的生成的事件核心句子集合混合起来,并进行过滤、排序等操作,得到候选集。候选集可以用于构建基于词图的MSC模型。第二,提出了一种改进的基于词图的MSC模型,并使用该模型进行事件主题句的提取。基于词图的MSC模型在处理英文文本和西班牙文文本上有不错的表现,本文对该模型进行改进后将其用于中文热
8、点事件生成,取得了不错的效果。该模型将候选集中的事件核心句子转化成词图的形式,词图是一个有向加权无环图,图中
此文档下载收益归作者所有