?@F:)>BFN=A)O&::P&%K$BI>摘要介绍了传统的566的文本分类方法,分析其实质,指出其不足,提出了一种基于隐含语义"> ?@F:)>BFN=A)O&::P&%K$BI>摘要介绍了传统的566的文本分类方法,分析其实质,指出其不足,提出了一种基于隐含语义" />
基于隐含语义的knn文本分类研究new

基于隐含语义的knn文本分类研究new

ID:33491148

大小:170.90 KB

页数:3页

时间:2019-02-26

基于隐含语义的knn文本分类研究new_第1页
基于隐含语义的knn文本分类研究new_第2页
基于隐含语义的knn文本分类研究new_第3页
资源描述:

《基于隐含语义的knn文本分类研究new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于隐含语义的!""文本分类研究李永平程莉叶卫国(华中科技大学计算机科学与技术学院,武汉#K""M#)/H>?@F:)>BFN=A)O&::P&%K$BI>摘要介绍了传统的566的文本分类方法,分析其实质,指出其不足,提出了一种基于隐含语义的改进方案,并结合实际给出实验结果。关键词566奇异值分解文本分类文章编号&""!H:KK&H(!""#)"%H""M&H"K文献标识码-中图分类号;QK"&$%#$!%""&’()*+,--./.0,).1$2,-’31$4,)’$)5’6,$).04.71$89.$8*:’$84.7’;’.8<1(RIF

2、F*E*ISRI>J=)*+0B@$T;*BN$,U=?VNI(EW(@X$IS0B@$T;*BN$,Y=N?(#K""M#)#=-)>,0):;N@AJ?J*+@()+IC=B*A)N*)+?C@)@I(?F566)*D)BF?AA@S@B?)@I(?(C?(?FGA*A)N**AA*()@?FIS@)$2I+)N*ANI+)?E*IS)+?C@)@I(?F>*)NICA,)N*?=)NI+AJ=)SI+Z?+C?(@>J+IX*C5H66)*D)BF?AA@S@B?)@I([?A*CI(F?)*()A*>?()@B$;N**DJ*+@>*

3、()?F+*A=F)A@AE@X*(=A@(E)N*(*Z>*)NIC@()N**(C$?’@A1>3-:56*?+*A)6*@EN[I+,0@(E=F?+3?F=*<*BI>JIA@)@I(,;*D)RF?AA@S@B?)@I(&分析(1?)*()0*>?()@B-(?FGA@A)7!8。论文使用前一种说法,并取引言随着文本信息的快速增长,尤其是’()*+(*)资源信息的迅英文简称10’。10’可以看作一种扩展的向量空间模型,它利用猛发展,文本分类已经成为现代信息处理研究的一大热点。目统计计算导出的概念索引进行信息检索,而不再是传统的索引前较

4、为著名的文本分类方法有,-./0,1102,034,566,决策字、词。10’基于这样一种断言,即文档库中存在隐含的关于词树等7&8。大部分分类方法都采用向量空间模型(304)表示文本,使用的语义结构,这种语义由于部分地被文档中词的语义和形向量空间模型的最大优点在于表示方法上的巨大优势。论文在式上的多样性所掩盖而不明显。10’通过对原文档库的词H文介绍传统566方法的基础上,分析其实质,指出其不足,提出档矩阵的奇异值分解(0@(E=F?+3?F=*<*BI>JIA@)@I()计算,并了一种基于隐含语义的566改进方案,然后运用于实践系统。取前!

5、个最大的奇异值及其对应的奇异矢量构成一个新矩阵来近似表示原文档库的词H文档矩阵。由于新矩阵消减了词和!566方法和隐含语义索引文档之间语义关系的模糊度,从而更有利文本分类和信息检566方法是一种基于实例的文本特征向量空间模型表示索。的分类方法。首先,对于一个测试文本,计算它与训练样本集中每个文本的文本相似度,依文本相似度找出!个最相似的训练K隐含语义的理论基础文本。然后在此基础上给每一个文本类打分,分值是!个训练K$&词H文档矩阵(;*+>H*()4?)+@D)文档中属于该类的文本与测试文本之间的文档相似度之和。对在10’模型中,一个

6、文档库可以表示为一个"#$的词%文这!个文本所属类的分值统计完毕之后,即按分值进行排序。档矩阵&。这里,$表示文档库中的文档数;"表示文档库中包为了分类合理应当选定一个阈值,可以认为测试文本属于越过含的所有不同的词的个数。也就是说,每一个不同的词对应于阈值的所有类。所以,采用566文档分类法的关键是建立训练矩阵&的一行;而每一个文档则对应于矩阵&的一列。&表文档库,并用适当的方式将待分类文档投影到训练文档库中。示为:传统的信息检索模型都是基于词索引,都是某种形式上的&L7’()8(&)浅层次概念匹配,而非深层次的语义匹配。由于中文文本中普其中,

7、’()为非负值,表示第(个词在第)个文档中出现的遍存在字、词的同义性和多义性,所以独立的字、词集合不能完频度。客观上,由于词和文档的数量都很大,而单个文档中出现全、准确地反映文档和查询的语义。因此,改善传统文本分类和的词又非常有限,&一般为稀疏矩阵。信息检索系统性能的一条有效途径就是让用户根据文本的概通常’()要考虑来自两方面的贡献,即局部权值*((,))和念主题或者说语义来进行信息分类和检索。全局权值+((),它们分别表示第(个词在第)个文档和整个文正是为了克服传统信息检索系统基于字、词匹配带来的局档库中的重要程度。这样有:限性,&9::年0

8、$;$<=>?@A等人提出了一种新的信息检索代数’(),*((,))#-(()(!)模型:隐含语义索引(1?)*()0*>?()@B’(C*D@(E)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。