基于频繁词集词共现网络的短文本聚类方法

基于频繁词集词共现网络的短文本聚类方法

ID:35071415

大小:5.80 MB

页数:64页

时间:2019-03-17

基于频繁词集词共现网络的短文本聚类方法_第1页
基于频繁词集词共现网络的短文本聚类方法_第2页
基于频繁词集词共现网络的短文本聚类方法_第3页
基于频繁词集词共现网络的短文本聚类方法_第4页
基于频繁词集词共现网络的短文本聚类方法_第5页
资源描述:

《基于频繁词集词共现网络的短文本聚类方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:10004巧级:松开系义道乂肇,BEIJINGJIAOTONGUNIVERSITY硕壬学位论文碁于频繁词集词共现网络的短文本聚类方法作者姓名李伟学科专业巾龍群那术指导教师帛肺酣g巧培养院系计算机与信息技术学院惠二.■I翊;志謂?;表系交丢硕古学位论文基于频繁词集词共现网络的短文本聚类方法ShortxtC-TeluskrinBasedonFreuentWordCooccurrencegqNetwork作者:李伟导师;贾彩燕北

2、京交通大学2016年4月学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编供査阅和借阔。同意学校向国家有关部n或机构送交论文的复印件和磁盘。学校可W为存在馆际合作关系的兄弟高校用户提供文献传递服务和交换服务。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:44导师签名:签字日期;年4月U日签字日期:《年千月/日|

3、学校代码:10004密级:公开化京交通大学硕±学位论文基于频繁词集词共现网络的短文本聚类方法化r-ShortTextC山SinBasedonFreuentWordCooccurrencegqNetworic作者姓名:李伟学号:13120409导师姓名:贾彩燕职称:副教授学位类别;工科学位级别;硕±学科专业;计算机科学与技术研巧方向:数据挖掘北京交通大学2016年4月i致谢这篇论文是我对我研巧生来所做的所有的研巧工作W及我付出的所有的努力的一次总结

4、。我所做的全部的学术研究工作都是在我的指导老师贾彩燕老师的一指导和帮助下完成的,贾老师是位在学术上很严谨、认真、负责人的老师,她的这种良好的学术作风也对我造成很大的影响一。贾老师方面在学术上严格要求自己的学术一,在另外方面贾老师和渴可亲深受学生的爱戴。除了拥有一位值得称赞的导师之外,我的师兄、师姐师弟师妹们也为我硕±研巧生阶段的研巧提供很多的帮助1^1及支持。乔建师兄在编程上给了我很多的指导、意见及帮助,李亚芳师姐对我的学术工作W及小论文的发表提供了很多建设性的意见。我的师弟刘志雄、王晓阳,师妹秦瑶瑶也

5、为本文中提出的FWN短文本聚一类算法的研巧做出了贡献,感谢他们在我研究生涯的最后阶段起并肩作战,带领师弟师妹们一起进行学术研究将成为我研巧生生涯的景宝贵的回忆。希望我的师弟师妹们能够将学长和学姐的火炬继续传递下去,为贾彩燕老师后面的学生带去温暖和帮助。、、最后我要感谢我的家人,我的爸爸妈妈姐姐送H位对我的支持和帮助,能一些其他我关注的领域够让我把精力全部都花在学术问题W及,而不用为生活上的其他问题而烦恼。最后,感谢大家,希望诸位工作顺利、事业有成。北京交通大学硕±学位论文摘要摘要Web

6、2.0的诞生和发展使互联网上的内容发生了巨大的变化。在Webl.O时代,。互联网W静态网页为主,静态网页中的内容大都是长的、规范性的文本到了Web2.0时,互代,动态网页技术高速发展联网上产生了微博、问答社区、论坛、W及即时通信软件等一大批应用。在这些应用平台上内容大都是W短文本为主,短文本具有简单、碎片化的特点。与长文本相比,这类短小、精悍的文本更容易在互、。联网上传播,因为它易于编辑方便巧读,更加适合当今社会快节奏的生活随着互联网上短文本数量的急剧增长,如何从这些海量的短文本中挖掘出有用的信息一个热

7、口的研巧领域成为了。文本挖掘技术是数据挖掘和机器学习的传统研巧领域之一,经过多年的研巧一和发展己经积累了大批优秀的理论和成果。但传统的文本挖掘方法都W长文本。为处理对象,短文本和长文本相比存在严重的数据稀疏问题并且短文本大都存在用词和语法不规范的问题,例如:微博平台上的短文本使用了大量的网络用语,而且拼写错误和错别字比较明显、成熟的长文本处理技巧和方法,在。这使得己有的短文本上表现的差强人意。短文本挖掘需要根据短文本自身的特点,设计适合短文本自身特性的挖掘方法。一针对短文本的数据稀疏和用语不规范的特

8、点,本文提出了种基于频巧词集共现网络的短文本聚类算法。该方法首先挖掘语料中存在的词的K频巧项集=WN(K>3),然后,基于巧掘出的频巧词集构建频巧词共现网络F(FrequentWords一-cooccurrenceNetwork,如果

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。