基于集成学习的短文本主客观分类研究

基于集成学习的短文本主客观分类研究

ID:35071202

大小:3.06 MB

页数:57页

时间:2019-03-17

基于集成学习的短文本主客观分类研究_第1页
基于集成学习的短文本主客观分类研究_第2页
基于集成学习的短文本主客观分类研究_第3页
基于集成学习的短文本主客观分类研究_第4页
基于集成学习的短文本主客观分类研究_第5页
资源描述:

《基于集成学习的短文本主客观分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分巧号;密级:UDC:单位代码:签傲至赴太夸硕去学位论文论文题目;基于集成学习的短文本主客观分类研究'’’一":-1-\学1320190293号::作者堅空‘专业名称\—;计算机科学与技术V.—?—^.古山心--■饥讀款心弁一'2016年6月1日气-【-.公y一?皆■r..V安微工业大学硕击学位论文论文题目:基于集成学习的短文本主客观分类研究ResearchonSubectiveandObectiveClassification

2、jjofShortTextBasedonEnsembleLearning作者:陶杰学院:计巧机科学与技术学院指导教师:黄纖单化:安化立k大学论文提交日期:2016年6月1日学位授予单位:安徽工业大学安化马鞍山243002独创性说明本人郑重声明;所呈交的论文是我个人在导师指导下进行的研究工作及取得研究成果,除了文中特别加1^标注和致谢的地。尽我所知,方外,论文中不包含其他人已经发表或撰写的研究成果也不包含为获得安徽工业大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文

3、中做了明确的说明并表示了谢意。籍名日期:>/备年/月/曰关于工论业文使用授权的说明本人完全了解安徽大学有关保留、使用学位论文的规定,目P:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可公布论文的全部或部分内容,可レッ采用影印、缩印或其他复制手段保存论文,保密的论文在解密后应遵循此规定。^篇名导师签名日期:2/^年/7月/曰摘要摘要随着信息化的进一步发展,人们迫切需要一种能够在短时间内从海量文本中获取有用知识的技术。为此,搜索引擎、自动摘要、意见挖掘、观点句抽取等信息提取技术得到了飞速发展。主客观分类作为文本分类中的基础问题,也受到

4、广大研究者们的重视。传统主客观分类一般采用机器学习方法进行训练和分类,但由于中文文本内在的复杂性,使用传统机器学习进行主客观分类的性能遇到了瓶颈。本文在主客观分类中引入集成学习思想,将有利于提高分类器的泛化能力,同时也有助于改善分类的准确性和稳定性。本文使用集成学习方法解决主客观分类问题,首先介绍了主客观分类方法和集成学习相关理论知识,然后根据主客观文本的基本特征进行集成分类器的构建工作,主要完成了以下的研究内容:(1)收集和整理了主观线索特征,引入主观线索密度的概念,并描述了文本主观线索密度的计算方法。在此基础上,将文本依据主观线索特征进行划分,并使用朴素贝叶斯分类器进行主客

5、观分类工作。最后针对上述分类器提出了一种基于Bagging方法的集成化方案。实验结果表明,基于主观线索特征进行主客观分类的方法具有一定的效果,在集成学习环境下表现更佳。同时这种分类方法对新测试样本具有良好的适应性。(2)针对文本中的词汇、词性、语义依存等多类特征,本文将其融合后进行主客观分类。对各类特征进行CHI值的计算并排序,确定各类特征的最优特征维度。在融合实验中,为了达到更好的效果,尝试各种特征组合方式进行实验,并最终确定了较优的特征组合方式。为了应对复杂多变的主客观分类问题,本文将动态集成学习引入到主客观分类问题中,提出一种改进的动态集成分类方法。这种方法能够针对特定区

6、域的分类样本进行基分类器的重选择。实验数据表明,与传统主客观分类方法比较,在使用动态集成学习方法后,分类效果较好,尤其是在准确率指标上有较大提升。关键词:主客观分类;集成学习;动态集成;BaggingIAbstractAbstractWiththefurtherdevelopmentofinformationtechnology,peopleneedtodevelopnewtechniquestoacquireusefulknowledgefromlargetextwithinashortperiodoftime.Therefore,thecorrespondinginform

7、ationextractiontechnologyhasbeenrapidlydeveloped,suchassearchengine,automaticsummarization,opinionmining,opinionsentenceextraction.Subjectiveandobjectiveclassification,asabasicproblemintextclassification,hasbeenpaidmoreattentionbyresearchers.Thetra

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。