文本分类中词共现关系的研究及其应用

文本分类中词共现关系的研究及其应用

ID:36786364

大小:4.50 MB

页数:100页

时间:2019-05-15

文本分类中词共现关系的研究及其应用_第1页
文本分类中词共现关系的研究及其应用_第2页
文本分类中词共现关系的研究及其应用_第3页
文本分类中词共现关系的研究及其应用_第4页
文本分类中词共现关系的研究及其应用_第5页
资源描述:

《文本分类中词共现关系的研究及其应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、南京理工大学博士学位论文文本分类中词共现关系的研究及其应用姓名:章舜仲申请学位级别:博士专业:模式识别与智能系统指导教师:黄河燕;王树梅20100101博士论文文本分类中词共现关系的研究及其应用摘要在网络信息时代,文本分类作为大规模文本处理的技术基础,有着广泛的应用前景。随着研究的深入,文本分类技术日趋成熟,开始进入实用阶段,对于文本分类算法本身的研究越来越难以取得突破性创新。在这种情况下,寻找新的研究切入点,从基础性问题入手,解决关键技术,再逐步展开应用于分类器性能的改进,对于文本分类技术研究的发展具有重要的意义。本文从分析文本类别特征入手,提出了文本分类中词语共现关

2、系研究的课题,从关联和相关两个方面研究了词语共现关系,然后提出了多种将词关联和词相关应用于文本分类的方法,可概括为直接的基于关联或相关的文本分类模型构建以及间接的其它文本分类模型的改进这样两种应用方式。关联和相关的概念源于数据挖掘中的规则有趣性度量,本文将其应用于文本分类,又采用了统计学中对于相关的一般性解释,从线性和非线性两个方面分析了词间相关性,其中线性相关分析包括了线性方程参数求解和线性相关系数的计算,而非线性相关则主要分析了基于概率的相关性度量指标计算。对于关联分析在文本分类中的应用,本文从关联文本分类模型和关联特征选择这两个方面进行研究。关联文本分类模型是一种

3、基于规则的文本分类模型,在分类规则挖掘算法上,我们提出了一种应用于长频繁集挖掘的基于变动邻域搜索的遗传算法(vNS—GA)设计,在文档类别判定方法上,我们提出了基于规则匹配长度计算的文档区分算法。在关联特征选择的研究中,我们总结了文档类别区分能力和文档覆盖率这两个特征选择原则,提出了k项频集的并集的选择方法。在Yahoo中文文本数据集上的实验结果表明本文提出的长频繁集挖掘算法能够有效地应用于关联文本分类模型,而运用关联特征选择的朴素贝叶斯文本分类模型也大大提高了分类性能。对于相关分析在文本分类中的应用,本文所作研究包括线性最d'-乘拟合(LLSF)分类、LLSF和朴素贝

4、叶斯组合分类和基于概率相关性分析的改进贝叶斯分类。在Reuters.21578文本集上的实验结果可得以下结论:首先,LLSF分类器的效果不够理想,说明在文本分类中词间线性关系表现较弱,完全基于线性关系假设的分类器可能存在较大偏差;其次,LLSF和朴素贝叶斯组合分类的性能要好于两种分类器单独使用的性能,说明尽管LLSF分类效果较差,但作为一种成熟分类算法仍有其价值;最后,基于概率相关性分析的改进贝叶斯比朴素贝叶斯分类在评测指标上有着全面的明显的提高,说明了本文提出的词集相关度计算方法用于改进贝叶斯分类的有效性。关键词:文本分类,词语共现,关联规则,遗传算法,线性相关分析,

5、贝叶斯分类博士论文文本分类中词共现关系的研究及其应用AbstractIntheageofnetworkinformation,textcategorization,嬲afundamentaltechnologyofmassivetextprocessing,haswideapplicationprospect.Withtheresearchprogression,textcategorizationtechnologyisbecomingmoreandmoremature.Astextcategorizationhasenteredintoapplicationstag

6、e,it’Smoredifficulttogetbreakthroughinnovationoftextcategorizationalgorithms.Undersuchsituations,ifsofgreatsignificanceforthedevelopementoftextcategorizationtechnologyresearchtofindnewresearchentrypoints,startwithfundamentals,solvekeytechnologyproblems,andapplythemintoimprovingperformanc

7、eofclassifiers.Byproceedingwithanalysisondocumenttypefeatures,webroughtforwardthesubjectofresearchontermcoexistencerelation,andanalyzeditintwoaspects:associationandcorrelation.Severalmethodsofapplyingtermsassociationandtermscorrelationintextclassificationwerepresented,whi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。