欢迎来到天天文库
浏览记录
ID:36681350
大小:4.55 MB
页数:51页
时间:2019-05-13
《文本特征选择算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号:密级:学校代码:学号:10165201011280遣掌何耗大学硕士学位论文文本特征选择算法的研究作者姓名:学科、专业:研究方向:导师姓名:杨雪计算机软件与理论文本挖掘又本挖掘任永功教授2013年5月学位论文独创性声明IIfJJlll1111111111IMJllllfllItJY2376676本人承诺:所呈交的学位论文是本人在导师指导下所取得的研究成果。论文中除特别加以标注和致谢的地方外,不包含他人和其他机构已经撰写或发表过的研究成果,其他同志的研究成果对本人的启示和所提供的帮助,均已在论文中做了明确的声明并表示谢意。学位论文作者签名:学位论文版权的使用授权书本学位论
2、文作者完全了解辽宁师范大学有关保留、使用学位论文的规定,及学校有权保留并向国家有关部门或机构送交复印件或磁盘,允许论文被查阅和借阅。本文授权辽宁师范大学,可以将学位论文的全部或部分内容编入有关数据库并进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文,并且本人电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后使用本授权书。学位论文作者签名:二李赴指导教师签名:签名眺加I≥年卅日辽宁师范大学硕士学位论文摘要互联网技术的飞速发展,将我们带入了数字化、网络化的信息时代。在海量信息中,如何能快速并有效的提取有用信息成为人们研究的重要领域。文本分类技术是文本信息处
3、理领域重要的核心课题,目的是为了对文本进行类别判定,解决信息杂乱问题。在文本分类中,特征选择方法的研究占主导地位。但现实生活中,我们所要处理的数据往往具有一个明显的自然属性一数据不平衡性,即各类别文本的数量差异很大,或者特征分布不均衡等,这都将导致分类器分类性能的下降。因此,如何改进特征选择方法使其更能适应不平衡数据集的分类阃题变得十分重要。随着文本分类方法钓进一步完善,它也被应用到很多领域,如垃圾博客、垃圾邮件的检测等。自博客在中国迅速发展以来,很多不法商业者利用博客作为恶意推广平台,这就导致了垃圾博客的产生。由于垃圾博客长时间不被处理,造成了网络和存储资源的浪费,同时也给
4、用户使用搜索引擎带来不便,因此对于垃圾博客过滤的研究非常迫切。本文的研究工作主要包括以下两部分:首先针对传统信息增益特征选择方法的不足,提出了一种基于信息增益特征关联树的文本特征选择算法,以解决其在非平衡数据集上分类性能差的缺点。第一步,对数据集按类进行特征选择,利用特征分布均匀度和特征关联树模型对类肉特征迸行降维处理,降低特征冗余度,解决类别分布不均衡对特征选择的影响。第二步,使用类间加权离散度作为平衡因子对信息增益公式进行改进,提高特征在类间的信息增益值的精确度,得到更优特征子集。通过对比实验表明,选取的特征具有更好的分类性能。其次,本文通过对以往垃圾博客检测技术的研究,
5、结合垃圾博客的网页特征,以及特征选择算法的分析,提出了一种基于改进信息增益的垃圾博客检测算法。第一步,提取测试集中所有博客的URL并建立Abnormallist和Normallist,对博客URL和超链接进行关联特征提取。第二步,根据改进的信息增益算法分剐对垃圾博客和正常博客的内容特征进行计算并降序排列,再对每个类别的特征计算互信息值,删除负相关特征。第三步,根据特征比例分别从两个类别特征集中选取特征,组成最优特征子集,进行分类器训练。根据建立的URL表以及博客的关联特征对博客进行首次过滤,然后根据训练的分类器进行再判断,使得垃圾博客过滤的效率大大提高。关键词:特征选择;信息
6、增益值;垃圾博客;冗余特征;文本分类文本特征选择算法的研究ResearchonFeatureSelectionAlgorithmforTextClassificationAbstractWiththerapiddevelopmentofinternettechnology.weenterthenewtimesofdigitalandnetwork。Therefore,howtogetusefulinformationquicklyandeffectivelyfromthehugeamountsofinformationhasbecomeanimportantresearchf
7、ield.Textclassificationisacoreissueinthefieldoftextinformationprocessing,thepurposeofwhichistoclassifythetextandsolvetheproblemofinformationclutter.Theresearchoffeatureselectionmethodisveryimportantinthetextclassificationareaandithasbeenappliedtomanyfiel
此文档下载收益归作者所有