欢迎来到天天文库
浏览记录
ID:52768309
大小:844.88 KB
页数:6页
时间:2020-03-30
《基于局部线性判别嵌入算法的中文文本分类研究_6661446b.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、情报理论与实践(ITA)欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟1,2,344●范少萍,李迎迎,郑春厚(1.中国科学院国家科学图书馆兰州分馆,甘肃兰州730000;2.中国科学院资源环境科学信息中心,甘肃兰州730000;3.中国科学院大学,北京100049;4.曲阜师范大学信息技术与传播学院,山东日照276826)基于局部线性判别嵌入算法的中文文本分类研究摘要:流形学习算法作为一种非线性降维方法,目标是发现嵌入在高维数据空间中的低维流形结构,并给出一个低维表示。文章尝试将流形学习算法应用于中文
2、文本分类领域,利用局部线性判别嵌入方法对所选文本数据集进行特征降维。然后,分别利用K近邻分类器(KNN),支持向量机分类器(SVM)对文本进行分类实验。实验结果证明该方法是有效可行的,进一步验证了中文文本空间向量数据符合流形分布。关键词:流形学习;文本分类;算法Abstract:Manifoldlearningalgorithm,asanon-lineardimensionalityreductionmethod,aimstofindthelow-dimensionalmanifoldstructureembeddedinthehigh-dime
3、nsionaldataspace,andgivealow-dimensionalrepresentation.ThepaperattemptstoutilizethemanifoldlearningalgorithmintheChinesetextclassificationdomain,andusesthelocallylineardiscriminantembeddingmethodforfeaturedimensionreductionoftheselectedtextdatasets.Andthen,thepaperusestheK-Ne
4、arestNeighbor(KNN)classifierandtheSupportVectorMachine(SVM)classifierrespectivelyfortextclassificationexperiment.Theexperimentalresultsshowthatthemethodiseffectiveandfeasible,andfurtherprovethatthevectordataofChinesetextspaceisconsistentwiththemanifolddistribution.Keywords:ma
5、nifoldlearning;textclassification;algorithm文本分类是文本挖掘领域的重要研究内容。现有的文nentAnalysis,PCA),线性判别分析(LinearDiscriminant本分类方法大多是在基于特征和文档类别密切相关的假设Analysis,LDA),独立分量分析(IndependentComponent[1]下,利用向量空间模型对文档进行描述与表示。在向量Analysis,ICA)等,常用的非线性方法主要基于流形学习空间模型中,一篇文档表示为特征空间中的一个点,可以算法,如等距特征映射(Isometr
6、icFeatureMapping,ISO-表示为一个向量,其中,每个元素表示文档的一个特征,MAP),局部线性嵌入(LocallyLinerEmbedding,LLE),通常是特定词语,它的值对应该词在文档中的权值,一般拉普拉斯特征映射(LaplacianEigenmaps,LE)等。用TFIDF表示。如果有n篇文档,每篇考虑m个词语,在文本分类领域,目前已有一些基于流形学习的文本就形成一个n×m的文本矩阵。然而,文档的特征维数往分类研究。杨震等将ISOMAP流形降维等高度非线性的方[3]往比较大,但并不是每一个特征对文本分类都起重要作法引入文本
7、挖掘领域。随后,夏士雄等针对局部线性嵌用。因此,有必要对文档特征进行选择,保留那些能够代入算法(LLE)的缺陷,将该方法与半监督思想相结合,表文档类别信息的特征,从而提高文本分类的速度及准确提出了一种基于半监督局部线性嵌入算法的文本分类方[4]率,即进行文本特征选择。用于特征选择方法大致有两法,并通过仿真实验验证改进算法的有效性。但该方法[2]类:一类是基于频率统计方法,如特征频度和文档频在如何选择近邻参数K上还有待于进一步研究。任剑锋度;另一类是基于特征与文本、特征与类别信息之间相关等为解决文本分类问题,提出了一种流行学习和支持向量2[5]度统
8、计的方法,如特征熵、互信息、信息增益、X统计机相结合的文本分类算法。王洪元等改进了局部线性嵌量、特征权、期望交叉熵、文本证据权、几率比等
此文档下载收益归作者所有