欢迎来到天天文库
浏览记录
ID:20708226
大小:48.50 KB
页数:9页
时间:2018-10-15
《基于模糊vsm和rbf网络文本分类方法的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于模糊VSM和RBF网络文本分类方法的研究与实现〔摘要)首先提出一种基于模糊向量空间模型和径向基函数网络的文本自动分类方法,该网络由输入层、隐层和输出层组成:输入层完成分类样本的输入,隐层提取输入样本所隐含的模式特征,将分类结果在输出层表现出来;其次,构造更详细的算法推导及实施方案;最后,以中国期刊网全文数据库部分文档数据为例,对该方法的有效性进行验证,结果表明该方法分类效果较好。(关键词)数据挖掘特征提取神经网络文本分类(分类号)TP391ResearchandImplementationofT
2、extClassificationMethodBasedonFuzzyVectorSpaceModelandRBFNeuralNetworkZhengFengpingDaqingPetroleumInstituteLibrary,Daqing163318〔Abstract)Aclassificationmethodbasedonfuzzyvectorspacemodelandradialbasisfunctionnetworkispresentedinthispaper.Thenetworkincl
3、udesinputlayer,hiddenlayerandoutputlayer.Inputlayerperformsimportofsamples,hiddenlayerextractsmodelcharactersofsamplesandoutputlayerpresentsclassificationresults.Theinformationofitslocalityinthedocumentisconsideredwhilethekeywordsofmodelcharactersareex
4、tracted.Theclassificationresultsofthismethodaremoreprecisethanthatofgeneralmethodbecausefuzzyeigenvectorsareapplied.FinallytheavailabilityofmodelandalgorithmsisprovedbytheclassificationofsomedocumentsinChinaperiodicaldocumentdatabase.〔Keywords)datamini
5、ngcharactersextractionneuralnetworkdocumentclassification文本自动分类在数据挖掘中是一项非常重要的任务。目前的分类方法分出的类是论域上的一些普通集合,即分出的类是精确的,往往不能满足实际问题的需要。因为有些实际问题往往只能分出一些模糊的类,对象属于哪个类的界限是不清楚的[1]。本文就文本分类问题提出一种基于模糊VSM和RBF网络的解决方案。文中给出了详细的算法推导及实施方案,实际应用部分证明了方法的有效性及可行性。1文档模糊特征提取特征提取是文
6、本分类系统中十分关键的问题。传统VSM的特征提取方法一般不考虑特征项在文档中的位置信息,因此会影响分类精度。本文应用模糊数学思想,通过特征项在文档中的位置来反映文档主题的重要程度[2](隶属度),并根据特征项的隶属度计算特征项的频数。1.1特征项集的构造假设有P篇待分类文档,特征项集的构造可描述如下:參若特征项在标题和摘要(如果有的话)中出现,应给予较高的隶属度;•若特征项出现在正文中的一些“关键句”,即那些包含诸如“关键在于……”、“旨在……”、“主要目的(标)是……”等的句子,应给予较大的隶属度
7、;參若特征项出现在引言和结论段中,应给予一定的隶属度;•若特征项出现在段首或段尾,应给予一定的隶属度;•若特征项在正文中有较高的出现频度,应随着频度的增加逐次增加其隶属度;•若一个特征项同时处于上述多种地位,则其隶属度以求和方式迭加;•若一个特征项的同义词、近义词或转义词出现时,应根据其间的语义联系大小作为该特征项的一次或部分出现统计在出现频数中;•构造特征向量时还应考虑特征项的专指度(特征项的专指度可用文档总数与含有该特征项的文档数的比值表示),专指度过低的特征项会抑制分类的精确性。根据上述原则,
8、模糊特征向量的构造可描述如下:步骤一:分别对P篇文档,按①-⑧计算特征项集{T1/T2,八;TN}中每个特征项的文档频数;步骤二:依⑨按下式构造P篇文档的特征向量{fT(Tpl),fT(TP2),AjT(TpN)};(p=l,2八,P}。N汀(Tpk)=VTFpklg(—+0.5)(p=l,2,八,p;k=l,2,八,N)Nk其中:VTFpk表示特征Tk在文档p中的出现频数,N表示全部训练文本中的文档数,Nk表示含有特征项Tk的文档数目。步骤三:对以上特征向量归一化,
此文档下载收益归作者所有