欢迎来到天天文库
浏览记录
ID:35121764
大小:2.88 MB
页数:54页
时间:2019-03-19
《中文文本分类中特征提取算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、重庆大学硕士学位论文中文文本分类中特征提取算法研究姓名:彭时名申请学位级别:硕士专业:计算机系统结构指导教师:张玉芳20060401重庆大学硕士学位论文中文摘要摘要随着网络和信息技术的飞速发展,人们可获得的知识越来越多,但是面对具体的知识,要在这浩瀚的信息世界中快速获得却是很困难的。面对这一矛盾,人们想到了知识分类技术,这一技术的出现立即获得了人们广泛关注,同时知识分类中的文本分类也成为了研究的热点。文本特征提取算法是文本分类中研究比较多,比较重要的问题。本文通过分析传统的TFIDF算法发现其存在如下
2、缺点:1)没有考虑特征词在类间的分布,如果一个特征词,在各个类间分布比较均匀,这样的词对分类基本没有贡献;但是如果一个特征词比较集中的分布在某个类中,而在其它类中几乎不出现,这样的词却能够很好代表这个类的特征,然而传统的TFIDF算法不能够区分这两种情况;2)没有考虑特征词在类内部文档中的分布情况。在类内部的文档中,如果特征词均匀分布在其中,则这个特征词能够很好的代表这个类的特征,如果只在几篇文档中出现,而在此类的其它文档中不出现,显然这样的特征词不能够代表这个类的特征。针对传统的TFIDF算法的缺陷
3、,运用特征词在类间和类内部的分布信息来改进传统的TFIDF算法。方差是描述随机变量分布情况的指标,本文用方差来描述特征词在类间的分布情况。如果特征词方差小,说明其在类间的分布比较均匀,这样的特征词对分类贡献不大,可以用方差来降低该特征词的权重;而特征词在类内部的分布情况也可以用方差来描述,与类间分布不同的是,特征词在类内部分布方差越小,即在类内部分布越均匀,特征词越能代表此类,因此在修正TFIDF公式时,应该将其TFIDF值调大。本文的另外一个工作是,将遗传算法运用到特征提取中。本文抛弃了传统特征提取
4、方法为每个文档进行特征提取的思想,而是为每个类进行特征提取。首先用常用的特征提取算法量化各个特征词的权重,然后用遗传算法来修正特征词的权重,直到为每个类训练出能够代表本类的特征向量(又叫分类器),最后用这些类的特征向量进行分类。为了验证提出的改进TFIDF方法的正确性及其遗传算法用于中文文本分类的效果,本文进行了两个实验:1)将传统的和改进的算法提取的特征词用于KNN算法分类的对比实验;2)将遗传算法用于特征提取的实验结果和KNN分类结果比较。实验一结果表明无论从整体混淆矩阵、总体查全率、查对率、以及
5、各个类的查全率、查对率方面,改进方法都要优于TFIDF传统算法;实验二结果显示:遗传算法作为特征提取的分类结果和KNN方法的分类结果相当,并且略好于KNN分类I重庆大学硕士学位论文中文摘要结果。实验证明,本文改进的TFIDF算法是成功的,正确的,并且是可行的;遗传算法在一个类范围类进行特征提取的策略是可行的。关键词:特征提取,特征向量,向量空间模型,遗传算法II重庆大学硕士学位论文英文摘要ABSTRACTPeoplecangainmoreandmoreknowledgealongwiththefast
6、developmentofthenetworkandinformationtechnology.However,inthefaceofspecificknowledge,itisdifficulttoobtainitquicklyinthevastworldofinformation.Whentheymeetthecontraction,technicalknowledgeclassificationoccurstothepeople,anditimmediatelywinswideconcernas
7、soonasitemerges.Atthesametime,documentclassificationwhichisoneofclassificationofknowledgebecomeshotresearch.Featureselectionalgorithmisanimportantissueindocumentclassification.ThetraditionalTFIDFalgorithmismainlystudiedinthispaperandisfoundthatithasseve
8、rallimitations:1)itdoesnottakeintoaccounttheinter-categorydistributionofthefeatureterms.Ifafeaturetermisevenlydistributedamongcategories,italmosthasnocontributiontotheclassification,converselyifafeaturetermisconcentratedlydistrib
此文档下载收益归作者所有