文本分类中特征加权算法和文本表示策略研究

文本分类中特征加权算法和文本表示策略研究

ID:35082924

大小:5.57 MB

页数:122页

时间:2019-03-17

文本分类中特征加权算法和文本表示策略研究_第1页
文本分类中特征加权算法和文本表示策略研究_第2页
文本分类中特征加权算法和文本表示策略研究_第3页
文本分类中特征加权算法和文本表示策略研究_第4页
文本分类中特征加权算法和文本表示策略研究_第5页
资源描述:

《文本分类中特征加权算法和文本表示策略研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、'.画歡:論类雜織細.;,‘:心‘’中V/?禅巡巧、.,:、、礙锭讚臂:受1辣%藻採麟1..誦;!%義論调.巧护冷療豪養搏古学峻総巧私蘇r羯幕.班就>:儀絶‘5^雜球城#%隹学、‘'KS聲勢品,議禱ate啤如,\霉?^筋豁绿藏誦、滅蔡系\》薦纖接、|Vf賊^,真;如茲,节始|辕觀编.霉.‘&:',暑〇龄巧游舅‘irt#*嘉八’、斬、轉:/#;《i苗蓋寒;邊,:s3;、縣濟編.;‘、^^|£^着鷄競|^.持寒'^^梯辨觀.識難草繁.碳辦梦1如。瓣、雜游新"'‘声记身^又滅致爲城逝鸿鶴\藏於辭舞,式卢皆东聲綠夫学織\欲皆V

2、卢巧严驚腫^:^c;雞霉咬漏班峭觀—提巧殘壤綠遞葬賴—‘?I、^'心,强琴胃昏;,>裹為気為每禱終苗私鸣g独创性声明':本人郑重声明:所提交的学位论文是本人在导师指导下独立进行硏究J作所取得的成果,。据我所知,除了特别加^^^标注和致谢的地方外论文中不包含巧他人已经发表或撰写过的研究成果。对本人的研兜做出重要贡献的个人和集体,均Li在文中作了明确的说明。本声明的法律结果由本人承担。学位论文作者签名:巧期:如6XQ学位论文使用授权书]本学位论文作者完全了解东北师范大学有关化酌、使用学位论文,自:的规定1权,东北范大学巧并向国家有口或

3、机构送交学位论的复印和化子版师有保关部文件。允许论文被查阅和借阅本人授权东北师范大学可W将学位论文的全部或部分内容L、缩、汇编入有关数据库进行检,可:A采巧印或其它手段保存本学位索影印复制编论文。(保学位论密后适用)密的文在解本授权书.学位论者签名:艰导教师签名文作擔、、苗I备:jd日期:茄f又/日期业后去:学位论文向作者毕工作位:话;单电通讯地址;邮;编学校代码:10200研究生学号:2013200383分类号:TP39密级:无博士学位论文文本分类中特征加权算法和文本表示策略研究ResearchontheTermW

4、eightingSchemeandTextRepresentationStrategyforTextCategorization作者:贾隆嘉指导教师:孙铁利教授一级学科:环境科学与工程二级学科:智能环境分析与规划研究方向:智能文本挖掘东北师范大学学位评定委员会2016年3月摘要数据已经渗透到各个行业,成为重要的生产因素。随着大数据时代的到来,对文本信息处理技术的需求与日俱增,人工管理方式已经无法满足社会需求,因此,自动文本分类技术变得越来越重要,已成为广大科研团体研究的热点。本文在分析和总结文本分类框架、文本表示模型、文本预处理、特征选择、特征提取、特征加权、文本分类器以及分类性能评

5、估的基础上,对文本特征加权和文本表示策略进行了深入研究。面向均衡数据集,提出了两种特征加权算法;面向失衡数据集,提出了一种特征加权算法,共计三种有监督特征加权算法。此外,针对有监督特征加权算法,本文提出了一种最优文本表示策略。取得的阶段性成果如下:1.基于类别信息的特征加权算法对于采用向量空间模型的大多数文本分类器来说,特征加权一直是分类的瓶颈,特征加权的效果直接影响分类器的分类性能。在分析传统特征加权算法的基础上,提出了一种新的特征加权算法。通过将基于词的特征转换为基于类别的特征,使数据集的特征维度由原始成千上万维降低到了与数据集的类别数相同的维度。从而使得特征表示矩阵不再是稀疏矩

6、阵。相比其他特征加权方法,本文的方法不但可以提高文本分类精度,而且可以有效地提高分类速度、降低分类时间。2.基于类空间密度的特征加权算法在分析传统特征加权算法中的逆类别频率方法基础上,引入了类空间密度,进而将逆类别空间密度频率引入到了特征加权算法中。在度量特征的区分能力时,针对类别频率相同,但在此类别频率下文档频率不同的情况,可以为特征赋予不同的权重。该方法能更加客观地反映特征对分类的重要程度,有效地改善样本空间分布状态,使同类别样本更加紧凑,异类别样本更加松散。通过将tf*icf和icf-based方法中的逆类别频率参数更新为本文提出的逆类别空间密度频率参数,得到了两个新的特征加权

7、算法:tf*ICSDF和ICSDF-based。实验结果表明,本文的特征加权算法可以获得较好的文本分类性能。3.面向失衡数据集的特征加权算法当采用常用特征加权算法对失衡数据集进行加权,经常不能达到预期的效果。主要是由于失衡数据集数据分布的特殊性所导致。本文在分析失衡数据集数据分布特点的基础上,提出了一种面向失衡数据集的特征加权算法。算法通过结合特征在正类别文档中出现的概率与特征在负类别文档中出现的概率两个方面,综合度量失衡数据集中不同特征对于文本分类的重要

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。