欢迎来到天天文库
浏览记录
ID:36809204
大小:2.35 MB
页数:59页
时间:2019-05-15
《基于核主成分分析和径向基神经网络的文本分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要摘要文本分类技术是文本挖掘和信息检索的重要基础,其所完成的主要任务是在预先给定的类别集合下,根据文本内容判定其所属类别。到目前为止,大部分文本分类工作还是由人工来完成的,这显然会耗费大量的人力物力。当今社会是一个信息爆炸的社会,互联网上各种电子文本信息增长异常迅速,传统的人工文本分类已渐渐不能满足需要,而基于人工智能的自动文本分类(以下简称为文本分类)己成为自然语言处理领域一个重要的研究方向。文中首先对文本分类系统的系统结构和核心技术进行了探讨,深入的分析和研究了一个典型的文本分类系统各子模块所采用的算法。通过横向比较,分析了各种算法尤其是文本表示方法、
2、特征降维算法以及文本分类算法的优缺点。神经网络有很强的学习、联想和容错能力,能进行大规模的分布和并行信息处理。而RBF神经网络除具有上述神经网络的共性外,还具有收敛速度快、全局最优、网络设计简单等特性。因此,文中尝试将RBF神经网络应用于文本分类,并对基于传统特征选择算法和RBF神经网络的文本分类算法进行了实验。文中还对特征选择和特征抽取两种文本特征降维方法进行了深入研究,从理论角度分析指出了传统特征选择算法的局限和不足——其或者为求解最优特征项子集或次优特征项子集而导致计算不可行;或者为降低计算复杂度,通过构造评估函数来挑选满足一定最优化准则的特征项以构成
3、特征项子集,付出的代价是不能保证找到最优特征项子集,甚至不能保证找到一个次优特征项子集。针对上述问题,并考虑到文本数据存在的维数较高、非线性以及特征项之间复杂相关的特性,文中引入了基于核主成分分析的特征抽取算法,对其进行了深入的理论分析和可行性分析并将其应用于文本特征降维。神经网络在文本分类领域较少采用,主要原因是文本输入空间维数过高,导致神经网络性能受限制,而引入基于核主成分分析的特征抽取算法正好可以弥补这个缺陷。因此,文中提出了一种基于核主成分分析和RBF神经网络的分类算法。算法首先将文本输入空间映射至高维特征空间以消除文本特征项之间的非线性;然后在特征
4、空间中实施主成分分析以获取各“主成分”,藉此消除各特征项之间的复杂相关性,并通过将文本输入空间中的输入向量投影到各“主成份"向量上实现文本特征的降维;最后利用降维得到的语义特征训练径向基神经网络分类器。实验显示,文中提出的算法能有效地对输入空间进行特征降维,并能改善RBF神经网络的分类性能,适于大规模文本实时分类任务。摘要关键词:文本分类特征选择特征抽取主成分分析核主成分分析径向基神经网络IIAbstractABSTRACTTextcategorization(TC)isimportantbasisforinformationretrievalandtext
5、mining.TheaimofTCcanbedefinedasassigningcategorylabelstotextsbasedontheircontent,andthecategorylabelsaledefinedbeforehand.Sofar,thevastmajorityworkofTCisaccomplishedbyhumans.However,wealenowlivinginasocietywhereinformationexplodes.Therefore,thetraditionalmanualTCCannolongermeetthen
6、eed,andautomaticTCbasedonartificialintelligencehasbecomeanimportantresearchfieldinnaturallanguageprocessing.Firstly,wediscussthesystematicarchitectureandkeytechnologiesofTCsystem.Furthermore,deepstudyandanalysisonthealgorithmsusedinsub-modulesofaTCsystemismade.Throughhorizontalcomp
7、arison,weanalyzetheadvantagesanddisadvantagesofallkindsofalgorithms,especiallytextrepresentationmethod,dimensionalityreductionalgorithmandTCalgorithm.NeuralNetworkfNN)possessesstrongcapabilityinlearning,associativememoryanderror-tolerance.Furthermore,itCanprocessdatainhigh-speed,di
8、stributedandparallelway.In
此文档下载收益归作者所有