欢迎来到天天文库
浏览记录
ID:53575591
大小:218.44 KB
页数:3页
时间:2020-04-19
《基于改进 BP 网络的中文期刊论文分类方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第34卷第5期河南图书馆学刊2014年5月基于改进BP网络的中文期刊论文分类方法张瑾(郑州轻工业学院图书馆,河南郑州450002)关键词:BP网络;论文分类;特征提取摘要:文章将改进BP网络应用到期刊论文的分类领域中。该方法根据中文期刊论文的特点选择题名、摘要及关键词作为特征项的来源,计算特征项的权值,设定阀值对特征项向量进行降维处理,最后利用BP神经网络对不同的阀值分别进行分类实验,比较其效果。中图分类号:TP391文献标识码:A文章编号:1003—1588(2014)05—0061—03个类别的很多样本
2、数据信息,总结出分类规律而产1序言生的分类规则,完成分类器的构建。输入未知类别1960年,Maron发表了第一篇自动分类文章,将的论文,根据分类规则确定其相应的类别。贝叶斯定理运用于文本自动分类,标志着自动分类3数据预处理技术的正式产生⋯。1998年,JoachimsT将支持向量机算法应用于文本自动分类J,YangY.和ChuteC.3.1空间模型G两位学者提出了K邻近的分类方法。相对于国为了使计算机能够自动分类,必须先将论文转外,国内的文本自动分类研究起步相对较晚,基于机换为计算机可以识别的格式,笔者采用
3、向量空间模器学习技术的自动分类也是目前我国文本自动分类型(即VSM)。其基本思想是以向量模式表示一篇领域的主流。国内学者的研究对象主要是中文文本论文:(W。,W,W,⋯,w),其中wi为第i个特征自动分类,国内学者学习并应用了各种分类算法,并项的权重。根据中文的特点构建了我国的中文文本自动分类体论文在结构上由题名、作者、摘要、关键词及正系【4J。刘锋将径向基神经网络模型应用到了XML文等组成,笔者认为这些信息中能够为论文分类提文本的自动分类中J。胡清华提出了可变精度的粗供依据的有题名、摘要和关键词。笔者采用
4、中国科糙集模型,引入精度的概念,提高了处理不一致信息学院计算技术研究所研制的汉语词法分析系统ICT—的能力。CLAS(InstituteofcomputingTechhology,ChineseLex·笔者将文本分类技术应用到期刊论文的自动分icalAnalysissystem),对题名和摘要进行分词,然后类中,根据期刊论文的特点,在选择数据上进行改进行停用词剔除,将得到的词语和关键词一起组成进,同时对传统的BP网络算法进行改进,构建分类特征项。系统,从大规模期刊论文中提取分类的信息,并验证在文本自动分类研
5、究中,计算特征项的权值时其分类的可行性。一般采用TF—IDF算法来计算,笔者采用另外一种方式计算特征项权值,即特征项出现在题名中时其2期刊论文分类的问题描述权值为3,出现在关键词中权值为5,出现在摘要中期刊论文分类的任务是:在给定的分类体系下,权值为2。在正常情况下特征项在题名中重复的概根据论文的主题自动确定论文的类别。从数学角度率很低,故不考虑出现的频率。但在摘要中的特征看,期刊论文分类是一个映射过程,它将未知分类的项重复的概率较高,频率为m,在计算特征权值时,论文映射到已有的类别中。该映射可以是单映射,
6、其权值为2m。因特征项可能即出现在题名中又也可以是一对多映射。笔者为了简化问题,采用一出现在关键词或摘要中,此时设定权值取最大值。对一映射。3.2特征提取论文分类的映射规则是系统根据已经掌握的每对期刊论文进行向量空问表示之后,特征空间收稿日期:2014—03—11作者简介:张瑾(1970一),郑州轻工业学院图书馆馆员。6l张瑾:基于改进P网络的中文期刊论文分类方法的维数会很大,因此必须进行特征抽取。特征抽取值调整公式为:可以降低空间维数,简化计算,防止过度拟合。特征wji(t+1)=Wji()+叼△(t)(
7、3)抽取常用的方法有:文档频率法、信息增益、相互信Aws,(t)=叼+叩Awji(卜1)=+叼息法和统计法等。笔者采用一个新的方法即设AWji(t一1)(4)定一个阀值,剔除小于阀值的特征项,保留大于阀值的特征项。E=E=÷(y一Y“)(5)3.3期刊论文类别其中若为输出节点,则目前中国知网的期刊论文的类别是依据《中国6=(Y—Yj)y(1一y)(6)图书馆分类法》进行人工标引获得的分类号。《中国若为隐层节点,则图书馆分类法》共分5个基本部类、22个大类。采用=(1一)W坷(7)汉语拼音字母与阿拉伯数字相结
8、合的混合号码,用⑤若达到误差精度或是循环次数,则输出结果,一个字母代表一个大类,以字母顺序反映大类的次否则回到②。序,在字母后用数字作标记。为适应工业技术发展BP网络训练完成之后,得到的权系数和阈值系及该类文献的分类,对工业技术二级类目,采用双字数就是一个预测模型。当输入的样本数据是若干组母。例如:分类号TP391代表信息处理(信息加工)。分类数据时,得到的就是一个预测分类模型。4改进BP神经网络分类器5实验传统
此文档下载收益归作者所有