基于稀疏编码器与集成学习的文本分类

基于稀疏编码器与集成学习的文本分类

ID:21544707

大小:26.00 KB

页数:5页

时间:2018-10-22

基于稀疏编码器与集成学习的文本分类_第1页
基于稀疏编码器与集成学习的文本分类_第2页
基于稀疏编码器与集成学习的文本分类_第3页
基于稀疏编码器与集成学习的文本分类_第4页
基于稀疏编码器与集成学习的文本分类_第5页
资源描述:

《基于稀疏编码器与集成学习的文本分类》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于稀疏编码器与集成学习的文本分类  摘要:文本分类在文本预处理中占据着重要的地位,针对文本分类过程中输入数据维数高,导致特征提取,分类器选择困难等问题,提出一种基于稀疏自动编码器与集成学习的文本分类算法。该算法首先通过稀疏自动编码器进行输入数据的特征表示,然后利用极限学习机作为基分类器进行文本分类,最后通过Adaboost集成学习方法将基分类器组合成为分类效果更好的集成分类器。实验结果表明,该方法可以有效提高文本分类的准确度。  关键词:极限学习机;稀疏自动编码器;集成学习;文本分类  1概述  随着现代社会的发展,

2、互联网成为了人们获取文本信息的重要手段。然而网上的信息杂乱无章,使得人们很难快速而准确的获得所需要的文本信息。因此如何有效的对文本进行分类,帮助用户找到所需的信息成为当代信息技术领域的一个重要课题[1]。  本文提出利用深度学习中的稀疏自动编码器自动选取文本的特征,然后利用极限学习机作为基分类器进行文本的分类,最后结合Adaboost集成学习方法将极限学习机作为基分类器组合成一个效果更好的分类器。实验结果表明,该算法在文本分类方面,可以有效地提高文本分类的准确性。  2相关理论基础  2.1稀疏自动编码器  稀疏自动编

3、码器(sparseautoencoder,SAE)是利用人工神经网络的特点构造而成的网络。稀疏自动编码器的训练过程分为两个步:第一步是预训练,即先利用无监督的方法将SAE的输入层和隐含层全部初始化,然后再利用逐层贪心训练算法确定网络的参数。第二步是微调,其思想是整个网络视为一个整体,用有监督学习的方法优化整个网络的参数,由于SAE训练过程的复杂性,具体过程可参考文献[2]。  2.2极限学习机  针对传统神经网络训练过程时间漫长,优化困难等缺点,新加坡南洋理工大学的黄广斌教授提出了一种全新的单隐层前馈神经网络-极限学习

4、机(ExtremeLearningMachine,ELM)[3],该网络能够以极快的学习速度达到较好的泛化性能,从而解决了传统神经网络学习速度缓慢的限制。该网络主要由输入层,隐藏层和输出层组成,其中隐藏层的神经元通过激活函数把输入的数据进行变换,然后把变换后的数据输出到输出层,在网络中输入层和隐藏层的权值是随机设置的,只有隐藏层到输出层的权值需要求解,因此加快了网络的学习速度。  2.3Adaboost分类器  由于单个分类器通常无法满足分类任务的要求,因此需要通过集成学习来构建并结合多个分类器来完成分类任务,这其中最

5、著名的是在1995年由Freund等提出的Adaboost[4]算法。该算法的核心思想是先从初始训练集训练出一个基学习器,再根据基学习器的变现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续收到更多关注,然后基于调整后的样本分布来训练下一个基学习器;如此重复进行,直到基学习器数目达到指定的值,最终将这几个基学习器进行加权结合。Adaboost是一种迭代算法,具体训练过程可参考南京大学周志华教授编写的机器学习课本中关于Adaboost算法的章节。  3SEA文本分类算法  在本文中,结合稀疏编码器,极限学习机

6、与Adaboost这三种机器学习方法提出SEA文本分类算法,该算法的工作流程如图1所示。  该分类算法的第一步为输入,输入的是经过了向量化表示的文本,但没有经过任何的手工特征提取。第二步是利用SAE算法对数据的重建能力自动选择文本的特征,用SAE算法选择的文本特征可以有效地复原原始文本信息。第三步是利用ELM分类器作为该算法的基分类器,ELM作为第四步中的基分类器参与训练,最后一步是输出该文本属于哪一类。  4实验结果与分析  4.1实验数据集与评价指标  本文选用的分类文本数据来源于新闻数据集[5],该数据集复旦大学

7、计算机信息与技术系李荣陆提供,数据集标注比较规范,规模适中,适合于进行文本分类的仿真实验。  在文本分类中常用的评价指标有准确率P(Precision)和召回率R(Recall),公式如下:  P=M/(M+N),R=M/(M+T)  其中,M为正确分类到该类的文本数,N为错分到该类中的文本数,T为属于该类确误分为别类的文本数。  4.2实验结果  为验证本文提出的SEA文本分类模型,需要将文本数据集进行预处理,对于SEA模型来说,就是进行文本分词。本实验文本分词采用的是NLPIR汉语分词系统,其主要功能包括中文分词,

8、词性标注,命名实体识别,用户字典功能等,是国内比较成熟,用户较多的中文文本分词系统。经过文本预处理后,按照本文提出的SEA文本分?模型进行实验,并和几种经典的分类算法做对比。在本实验中Adaboost集成学习算法中基分类器的个数设置为10个,基分类器ELM中隐藏层的个数设置为输入层的0.75倍,稀疏自动编码器中隐藏层数设置为4,实

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。