欢迎来到天天文库
浏览记录
ID:40918336
大小:105.18 KB
页数:9页
时间:2019-08-10
《基于关键短语的文本分类研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于关键短语的文本分类研究本文承“国家语言资源监测”(项目号:L2004-01-01-04)资助,特此致谢!摘要:文本分类的进一步改进不在算法方面,应该立足于影响文本分类最底层、最根本的因素:文本表示中的特征项,提高特征项的完整独立程度。关键短语是具有强文本表示功能的特征短语,在表示文本时,能将文本的内容特征(如主题类别)鲜明地表示出来。关键短语具有结构稳定、语义完整和强统计意义的特点,能克服向量空间模型和贝叶斯假设的缺点,更适合作为文本表示的特征,有利于提高文本分类的效果。本文从语言学、认知心理学和言语习得、计算语言学等方面寻求关键短语优势的理论依据,对关键短语进行了
2、界定,通过抽取网页上专家标引的关键词获得关键短语。在约3万篇测试集上(共15个大类,244个小类),与以词为特征的文本分类相比,以关键短语为特征的文本分类的大类微平均提高了3.1%,小类微平均提高了15%。关键词:文本分类;关键短语;文本表示;特征项TextCategorizationBasedonKeyPhrasesLiuhua(CollegeofChineseLanguageandCulture,JinanUniversity,Guangzhou,510610)Abstract:Improvementintextcategorizationliesnotonalgo
3、rithmofclassingmodel,butonthefundamentalelement:integratedandindependentfeatureoftextrepresentation.KeyPhrasesarephrasethathavestrongtextrepresentationfunction,cancharacterizetextcontentsuchassubjectandkind.Withsteadystructure,integratedmeaningandstatisticalsignificance,KeyPhrasescanover
4、comethelimitationofVSM(VectorSpaceModel)andNB(Naive-Bayes),arefitforfeatureoftextrepresentation,andarepropitioustoimprovingeffectoftextcategorization.Fromlinguistics,cognitivepsychologyandcomputationallinguistics,wesearchedthebaseoftheoryofKeyPhrases’advantage,definedKeyPhrases,andacquir
5、edthembyextractingkeywordslabeledbyspecialistinwebpages.TheexperimentprovedthatKeyPhrasesarefitterforfeatureoftextrepresentationthanwords:MicroF1increaseof3.1percentofparent-category,MicroF1increaseof15percentofsub-category.Keywords:textcategorization;KeyPhrases;textrepresentation;featur
6、e文本分类的理论研究比较成熟,而且也出现了一些初步的应用系统。文本分类的研究主要围绕算法方面进行,如特征提取、权重计算、分类模型的算法的分析与改进。相对来说,文本分类需要的资源方面研究的较少,如文本表示中特征项的粒度选择和获取,特别是概念、短语、词和字究竟哪个更适合作为文本表示的特征项的问题缺乏系统的研究。我们认为文本分类的进一步改进不在算法方面,应该立足于影响文本分类最底层、最根本的因素:文本表示中的特征项,文本分类的改进应该专注于提高特征项的完整独立程度。相对于字、词和N元组,关键短语(KeyPhrases)结构稳定、语义完整、统计意义较强,更有利于表达文本内容特征
7、,提高文本分类的效果。本文从语言学、认知心理学和言语习得、计算语言学等方面寻求关键短语优势的理据;对关键短语进行了界定;通过抽取网页上专家标引的关键词构建了共32万词条的含关键短语的大词语表;实验证明7在约3万篇测试集上(共15个大类,244个小类),与以词为特征的文本分类相比,以关键短语为特征的文本分类的大类微平均提高了3.1%,小类微平均提高了15%。1文本分类算法改进的分析基于统计的分类算法是主流,主要包括以下几种分类模型:相似度模型(Rocchio、K-近邻)、概率模型(贝叶斯)、线性模型(LLSF、SVM)、非线性模型(决策树、
此文档下载收益归作者所有