资源描述:
《基于BP网络的中文文本分类技术.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第29卷第3期微计算机应用Vol129No132008年3月MICROCOMPUTERAPPLICATIONSMar12008*基于BP网络的中文文本分类技术杨新武李森刘椿年(多媒体与智能软件技术北京市重点实验室北京工业大学计算机学院北京100022)摘要:本文在对文本分类的问题,关键技术及系统结构进行介绍的基础上,详细阐述了一种利用带动力项的BP神经网络作为分类器的中文文本自动分类方法。该法采用归一化TFIDF算法对特征向量进行权值计算,并使用期望交叉熵统计方法对特征向量集进行精简。此外,我们在TanCorp12数据集上测试了特征项数目和训练次数对于分类器的宏平均和微平均性
2、能的影响。关键词:文本分类BP神经网络特征降维ChineseTextCategorizationTechnologyUsingBPNeuralNetworkYANGXinwu,LISen,LIUChunnian(MultimediaandIntelligentSoftwareTechnologyBeijingMunicipalKeyLaboratory,theCollegeofComputerScience,BeijingUniversityofTechnology,Beijing,100022,China)Abstract:Thispaperhasillustratedth
3、edescriptionoftheChinesetextcategorizationproblem,thekeytechnologyandsystemdesign,andbaseonthat,thispaperexplainsthemethodhowtouseBPartificialnetwork(withmomentum)toachievethegoalofautomaticallyclassifyingChinesetextsintodifferentcategories1ThemethodadoptstheTF-IDFformulatocalculateweightan
4、dusesExpectedCrossEntropymethodasawayofreducingspacedimension1Finally,ontheTanCorp12textset,weusemacro-averageF1andmicro-av-erageF1asevaluationcriteriontotesttheimpactofparameters,suchasinputnodenumber,trainingtimes,ontheperformanceoftheclassifier1Keywords:textcategorization,BPneuralnetwork
5、,featurereduction1引言随着网络技术的迅猛发展,信息处理已经成为人们获取有用信息时不可缺少的工具。文本自动分类技术(TextCategorization,TC)是信息处理的重要研究方向,它是指在给定分类体系下,根据文本内容自动判别[1][2]文本类别的过程。已经有多种方法用于实现文本的自动分类技术,包括神经网络方法,最小距离方法,[3,4][5][6]朴素贝叶斯方法方法,KNN方法,SVM支持向量机方法等。我们采用BP神经网络作为文本自动分类器的实现方法,主要是考虑到:¹神经网络所有的信息都等势分布贮存于网络内的各神经元,具有很强的鲁棒性和容错性;º网络可以充
6、分逼近任意复杂的非线性关系,适于分类曲面复杂的文本分类问题;»网络采用并行分布的处理方法,使得快速进行大量运算成为可能,适于对大量文本分类的实际应用环境。在实现中,我们采用归一化的TF-IDF公式计算文本特征项权重,并采用期望交叉熵对特征向量集进行本文于2007-07-27收到。*基金项目:国家自然科学基金重大项目(No160496322);北京市组织部优秀人才(No12005D0501508);校青基金。32微计算机应用2008年了降维操作,最终通过带动力项的BP神经网络进行文本分类。在上述工作基础上,本文通过实验研究了特征项个数(对应输入节点数目)和训练次数的变化对分类器
7、的宏平均和微平均分类性能的影响。本文组织如下:第一部分是引言;第二部分介绍文本分类的问题描述,关键技术及系统结构;第三部分给出带动力项的神经网络反向传播训练算法;第四部分是系统各项性能的测试结果,详尽描述了特征项个数和训练次数的变化对神经网络分类器的影响。第五部分是结论。2文本的向量空间模型表示和预处理211文本分类的问题描述简单地说,文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动确定文本关联的类别。从数学角度来看,文本分类是一个映射的过程,它将未知类别的文本映射到己有的类别中。该映射可以