基于labeled-lda的财经新闻分类系统的设计与实现

基于labeled-lda的财经新闻分类系统的设计与实现

ID:35057495

大小:6.51 MB

页数:72页

时间:2019-03-17

基于labeled-lda的财经新闻分类系统的设计与实现_第1页
基于labeled-lda的财经新闻分类系统的设计与实现_第2页
基于labeled-lda的财经新闻分类系统的设计与实现_第3页
基于labeled-lda的财经新闻分类系统的设计与实现_第4页
基于labeled-lda的财经新闻分类系统的设计与实现_第5页
资源描述:

《基于labeled-lda的财经新闻分类系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、誦:学校代码:密级公开將i鱗MBEIJINGJIAOTONGUNIVERSITY硕±专业学位论文3;i|基于Labe-LDA的酸i雲ledf闻分类系聲Wk-的设计与实现气j.《MM工程领域健:!程指导教师张红延副教授:|HhH|二;-*年*月-'■"-y説<?品.Skm.sJ::^li^li^yi如义道乂讓硕±专业学位论文基于L化e-LDA的财经新闻分类系统的设计与实现ledDesinandImlemen1;aionofFinanceNewsClass巧cationSyste

2、mgpBased-LDAonL化eled作者:熊奕昕导师:张红延副教授北京交通大学2016年6月学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编W供查阅和借阅。同意学校向国家有关部口或机构送交论文的复印件和磁盘。学校可W为存在馆际合作关系的兄弟高校用户提供文献传递服务和交换服务。(保密的学位论文在解密后适用本授权说明)学位论文作者签名导师签名:签字日期年

3、月S日签字日期:么W《年<月公日4:公开学校代码:1000密级北京交通大学硕±专业学位论文-基于LabeledLDA的财经新闻分类系统的设计与实现DesignandImplementaionofFinanceNewsClassificationSys化mBasedonLabe-LDAled作者姓名:熊奕昕学号:14126159导师姓名:张红延职称:副教授工程硕±专业领域::软件工程学位级别硕±北京交通大学2016年6月—I致谢、指导下完成的本论文的工作是在我的导师张红延副教授的悉屯。

4、张老师严谨的治学态度和科学的工作方法给了我极大的帮助和影响。张老师丰富的专业知识和严谨的治学态度、精益求精的工作作风、对学生极其负责的人格魅力对我影响深远、屯、。在此衷屯感谢两年来张老师对我的关和指导。感谢我的实习单位新浪给我的帮助,同时我还要感谢我的家人和同学,他们、完成我的学业的理解和支持使我能够在学校专屯。-ii北京交通大学硕±专业学位论文摘要摘要一文本分类直是自然语言处理中的研究热点,伴随着在互联网行业的蓬勃发,展,文本分类在各项实际应用领域起到了关键作用也是检索、自然语言处理、一机器学习的关键技术么。文本分类的主要技术

5、包括预处理、特征提取、特征降维、分类方法等。本文主要聚焦于特征值提取和分类方法,本文研究了传统特。对于特征提取征值提取的方法和主题建模的各种方式,比较了二者之间的优势和劣势,并通过-对系统需求的研究,确定使用LabeledLDA(LabeldeLatentDirichletAllocation,标签狄利克雷分布)模型进行建模,并提取特征值。确定建模方法后在,本文研究了主题建模中不同的参数估计算法,选用合适的方法估计模型中的参数,并应用在系统中。对于分类方法,本文研究和比较了多种具有代表性的分类方法,并选定了支持向量机作为本文所用的

6、分类方法,同时研究和比较了支持向量机中所使用的多一分类策略,结合实际情况选用了对多的多分类策略,并应用在系统中。特征值提取和分类方法的选择是文本分类研究中的关键点。传统的特征值提取方法很多是基于向量空间模型构造的方法,容易产生较高维度的特征空间,同时也会带来较多的无用特征,需耍进行精准的特征降维工作。文本建模的方法可在文档和单词之间构造出主题值,通过主题连接文档和单词。主题包含了潜在,语义的信息,,该是传统特征提取方法不能提供的同时有效减少了同义词的问题一-,abeledLDA模型进步降低了特征空间提升了特征提取的准确度。本文通过L,,提取特征

7、值,运用支持向量机执行文本多分类并构建了系统,通过实验验证了系统的性能。论文选题来自于本人实习中的实际项目,项目难点在于对特征提取技术和分类技术的比较与优选、系统的设计与实现。本人、主题建模用于特征提取的应用的工作主要分为W下H个部分一二:是主题模型的建模方法和分类方法的研究;是基于Labe-LDA的财经新led闻分类系统的设计与实现;H是在原型系统下给出。了多次测试的过程和结果,验证了系统的可行性-LDA关键词:文本分类:L化eled向量机;主题模型:支持-iii

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。