欢迎来到天天文库
浏览记录
ID:35059725
大小:6.66 MB
页数:67页
时间:2019-03-17
《基于主题模型的新闻标题分类方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、密级:■硕±学位论文基于主题模型的新闻标题分类方法研究ResearchofmethodbasedontheTopicModelonNewsHeadlinesClassification学号E14301095姓名朱號巧学位类别工程硕±计胃机*支术(工程领j^)指导教师郑诚副教授;r;完成时间201年3气气--答辩委员会,;飞娜古'-..:主席签名\.,,;1.■'r■独创性声明本人
2、声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的LX标注和致谢的地方外,论文中不包含其研究成果。据我所知,除了文中特别加他人己经发表或撰写过的研究成果,也不包含为获得安徵大学或其他教育机构的一任何贡献均己学位或证书而使用过的材料。与我同工作的同志对本研究所做的在论文中作了明确的说明并表示谢意。学位论文作者签《:签字曰期:>年S月辦日奔處婉^学位论文版权使用授权书本学位论文作者完全了解安徵大学有关保留、使用学位论文的规定,有权保留并向国家有关部口或机构送交论文的复印件和磁盘,允许论文
3、被查阅和借阅。本人授权安徽大学可!^乂将学位论文的全部或部分巧容编入有关数据库进行栓L、汇编学位论文。索,可乂采用影巧、缩印或扫描等复制手段保存(保密的学位论文在解密后适用本授权书,)戶\:学位论文作者签名:去瞭竭导师签名約曰签字日期日签字日期:年月:列/年[月化(p摘要摘要大数据时代的到来,给很多传统的行业带来了前所未有的冲击和挑战,新闻一行业也是如此。大数据与传统新闻行业在相互融合的过程中衍生出来种新的新一些技术手段闻形式,它通过利用自然语言处理领域的知识,使用,通过可视化
4、的方式向公众展示出来。互联网中每天都产生海量的新闻,当我们想捜集各种新一闻并从中挖掘有用信息时,新闻分类是必须做的基础工作之。""在如今数据驱动新闻的背景下,网络新闻自动分类已经成为当下研究的热点问题。由于标题是文本内容的高度概括,所1^^在面对海量的新闻数据时,先一用新闻标题对文本进行分类无疑是十分高效的。然而新闻标题作为短文本的种3020,它的文本长度基本上不会超过字,大多数在字W内,不像其他短文本那样,比如微博,有时可W达到上百字。所W新闻标题的特征更为稀疏,这给短文本信息分类带来了更大的挑战,
5、也意味着传统的研究方法在新闻标题分类问题上存在缺陷和不足。我们将需要分类的文本集合归类到一个已定义的类别中的过程称为文本分类一。在面对新闻信息挖掘这个问题时,我们不得不做的个基础工作就是对新闻数据进行分类。目前大多数的方法都是针对新闻文本内容进行分类的,也就是通常所说的长文本分类。然而,由于新闻的正文内容通常较多,所W在处理大量的。新闻数据时就会非常麻烦鉴于新闻标题是新闻内容的高度概括,本文利用新闻标题来对新闻进行分类。本文主要做了;^1下工作:(1)使用从网上找到的未经过加工处理的腾讯新闻数据集
6、,从中提取了新闻标题,并对其进行类别标注和预处理,构建了用于分类的新闻标题语料库,包括政治、经济、教育、科技、体育、社会、民生等毛大类别新闻,其中,民生类新闻又包括交通、医疗、住房等H个小类别。(2)由于新闻标题拥有短小精炼的语言特点,使用现有的分词技术并不能达到很好的分词效果,,这也会影响最终的分类效果。针对这个问题本文在分词过程中搜集并使用了新闻领域词典,并通过实验最终验证了该方法的有效性,提高了分类效果。I安徽大学2016届硕±学位论文基于主酉模型的新闻标题分类方法研巧(3)由于新
7、闻标题自身包含特征词个数极少、并且描述信息能力强,所W-DF传统的分类方法(例如经常使用的TFI方法)在新闻标题分类上的效果并不理想。本文使用近年来最新提出的LDA化atentDirichletAllocation)主题模型和BTM(BitermT叩icModel)主题模型,通过挖掘出新闻标题中隐含的语义关系。通过大量的对比实,并结合新闻领域词典,来提髙新闻标题分类的效果验,本文验证了使用BTM建模并结合新闻领域词典的方法要比其他的分类方法的效果要好很多。关键词:新闻标風短文本;领域词典;B
8、TM;主题模型:分类方法IIAbstractAbs化actTheadve打toftheeraofbigdata,is!:〇bringtheunprecedentedimpactand’challene化tod
此文档下载收益归作者所有