基于主题模型的新闻标题分类方法研究

基于主题模型的新闻标题分类方法研究

ID:35059725

大小:6.66 MB

页数:67页

时间:2019-03-17

基于主题模型的新闻标题分类方法研究_第1页
基于主题模型的新闻标题分类方法研究_第2页
基于主题模型的新闻标题分类方法研究_第3页
基于主题模型的新闻标题分类方法研究_第4页
基于主题模型的新闻标题分类方法研究_第5页
资源描述:

《基于主题模型的新闻标题分类方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、密级:■硕±学位论文基于主题模型的新闻标题分类方法研究ResearchofmethodbasedontheTopicModelonNewsHeadlinesClassification学号E14301095姓名朱號巧学位类别工程硕±计胃机*支术(工程领j^)指导教师郑诚副教授;r;完成时间201年3气气--答辩委员会,;飞娜古'-..:主席签名\.,,;1.■'r■独创性声明本人

2、声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的LX标注和致谢的地方外,论文中不包含其研究成果。据我所知,除了文中特别加他人己经发表或撰写过的研究成果,也不包含为获得安徵大学或其他教育机构的一任何贡献均己学位或证书而使用过的材料。与我同工作的同志对本研究所做的在论文中作了明确的说明并表示谢意。学位论文作者签《:签字曰期:>年S月辦日奔處婉^学位论文版权使用授权书本学位论文作者完全了解安徵大学有关保留、使用学位论文的规定,有权保留并向国家有关部口或机构送交论文的复印件和磁盘,允许论文

3、被查阅和借阅。本人授权安徽大学可!^乂将学位论文的全部或部分巧容编入有关数据库进行栓L、汇编学位论文。索,可乂采用影巧、缩印或扫描等复制手段保存(保密的学位论文在解密后适用本授权书,)戶\:学位论文作者签名:去瞭竭导师签名約曰签字日期日签字日期:年月:列/年[月化(p摘要摘要大数据时代的到来,给很多传统的行业带来了前所未有的冲击和挑战,新闻一行业也是如此。大数据与传统新闻行业在相互融合的过程中衍生出来种新的新一些技术手段闻形式,它通过利用自然语言处理领域的知识,使用,通过可视化

4、的方式向公众展示出来。互联网中每天都产生海量的新闻,当我们想捜集各种新一闻并从中挖掘有用信息时,新闻分类是必须做的基础工作之。""在如今数据驱动新闻的背景下,网络新闻自动分类已经成为当下研究的热点问题。由于标题是文本内容的高度概括,所1^^在面对海量的新闻数据时,先一用新闻标题对文本进行分类无疑是十分高效的。然而新闻标题作为短文本的种3020,它的文本长度基本上不会超过字,大多数在字W内,不像其他短文本那样,比如微博,有时可W达到上百字。所W新闻标题的特征更为稀疏,这给短文本信息分类带来了更大的挑战,

5、也意味着传统的研究方法在新闻标题分类问题上存在缺陷和不足。我们将需要分类的文本集合归类到一个已定义的类别中的过程称为文本分类一。在面对新闻信息挖掘这个问题时,我们不得不做的个基础工作就是对新闻数据进行分类。目前大多数的方法都是针对新闻文本内容进行分类的,也就是通常所说的长文本分类。然而,由于新闻的正文内容通常较多,所W在处理大量的。新闻数据时就会非常麻烦鉴于新闻标题是新闻内容的高度概括,本文利用新闻标题来对新闻进行分类。本文主要做了;^1下工作:(1)使用从网上找到的未经过加工处理的腾讯新闻数据集

6、,从中提取了新闻标题,并对其进行类别标注和预处理,构建了用于分类的新闻标题语料库,包括政治、经济、教育、科技、体育、社会、民生等毛大类别新闻,其中,民生类新闻又包括交通、医疗、住房等H个小类别。(2)由于新闻标题拥有短小精炼的语言特点,使用现有的分词技术并不能达到很好的分词效果,,这也会影响最终的分类效果。针对这个问题本文在分词过程中搜集并使用了新闻领域词典,并通过实验最终验证了该方法的有效性,提高了分类效果。I安徽大学2016届硕±学位论文基于主酉模型的新闻标题分类方法研巧(3)由于新

7、闻标题自身包含特征词个数极少、并且描述信息能力强,所W-DF传统的分类方法(例如经常使用的TFI方法)在新闻标题分类上的效果并不理想。本文使用近年来最新提出的LDA化atentDirichletAllocation)主题模型和BTM(BitermT叩icModel)主题模型,通过挖掘出新闻标题中隐含的语义关系。通过大量的对比实,并结合新闻领域词典,来提髙新闻标题分类的效果验,本文验证了使用BTM建模并结合新闻领域词典的方法要比其他的分类方法的效果要好很多。关键词:新闻标風短文本;领域词典;B

8、TM;主题模型:分类方法IIAbstractAbs化actTheadve打toftheeraofbigdata,is!:〇bringtheunprecedentedimpactand’challene化tod

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。