试论文本分类中特征选择方法的研究

试论文本分类中特征选择方法的研究

ID:35123121

大小:3.25 MB

页数:65页

时间:2019-03-19

试论文本分类中特征选择方法的研究_第1页
试论文本分类中特征选择方法的研究_第2页
试论文本分类中特征选择方法的研究_第3页
试论文本分类中特征选择方法的研究_第4页
试论文本分类中特征选择方法的研究_第5页
资源描述:

《试论文本分类中特征选择方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西安科技大学硕士学位论文文本分类中特征选择方法的研究姓名:宋丽平申请学位级别:硕士专业:计算机应用技术指导教师:张小艳20090422论文题目:专业:硕士生:指导教师:文本分类中特征选择方法的研究计算机应用技术宋丽平(签名)寡盈墨张小艳(签名)豸:!:麦垒摘要文本分类是大规模文本处理的基本功能,也是提高其他文本处理功能和质量的有效手段。通过文本分类,人们可以按类别进行文本存储、检索和进一步处理。因此,迅速有效地对文本进行分类已成为一项重要的研究课题。在文本分类中,特征空间的维数高达几万,过大的特征空间会导致样本统计特性的评估变得困难,从而降低

2、分类器的泛化能力,因此从原始特征集中选取最具有代表性的特征是十分必要的。有效的特征选择可以提高分类任务的效率和分类性能。本文在分析典型文本分类系统的核心技术、系统结构的基础上,给出了一种基于语义概念的分析方法。语义概念分析方法可以看作是一种扩展的向量空间模型方法,其特征提取算法是通过结合Hownet对词所表示的概念,将词空间映射到概念空间,通过多义词排歧和同义词合并,达到降维的目的,并尽量达到词与词之间的正交性,将文本的关键词用更小的语义空间进行表示,使得在新生成的语义空间中的相关文本更为接近。另外,在传统TF—IDF权重计算算法的基础上,综

3、合考虑特征词的位置、同现频率的语义因子和特征支持度、类别强度的语义概念,增强了特征对文本内容的表现和区分能力,并将综合了TF.IDF与语义因子和语义概念的权重改进算法应用到分类系统中。本文设计并实现了一个中文文本分类系统,通过实验对改进的特征选择和权重计算算法与传统统计算法进行了比较分析,实验结果表明改进的特征选择算法和权重计算算法对分类性能都有一定的提高,具有较高的精确率和召回率。关键词:文本分类;语义概念;特征选择;权重计算;向量空间模型研究类型:应用研究Subject:AStudyontheMethodofFeatureSelectio

4、ninTextCategorizationSpecialty:ComputerAppl.cationTechnologyName:SonglipingInstructor:ZhangXiaoyanABSTRACT(Signature)Asthefundamentalfunctioninprocessinglargemountoftextdata,textcategorizationisalsoakindofeffectivewaytoimprovethefunctionandqualityofothertextprocessing.Furth

5、ermore,itCanbeusedascategorytextstorage,retrievalandfurtherprocessingthroughtextcategorization.Sothathasalreadybecomeasanimportanttaskofcarryingoutthetextcategorizationrapidlyandeffectually.Intextcategorization,thedimensionoffeaturespaceisaslargeastensofthousands.Overlargef

6、eaturespacecouldcausethedifficultyofevaluatingthestatisticalpropertiesofthesamples.Thereby,thatwouldreducethegeneralizationabilityofcategorizationmachine.Soit’Sextremelyimportanttochoosethemostrepresentativefeatureintheoriginalfeatureset.Effectivefeatureselectionwilladvance

7、theefficiencyandperformanceofcategorization.Inthispaper,akindofanalysismethodwhichbaseonsemanticconceptWasintroducedthroughanalyzingcoretechnologyandthesystemstructureofclassicsystemoftextcategorization.nleconceptofsemanticanalysisCanberegardedasanapproachofexpansionoftheve

8、ctorspacemodel.ThefeatureextractionalgorithmofthatiscomefromtheconceptofHownettoth

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。