基于句子相关度的文本自动分类

基于句子相关度的文本自动分类

ID:5271813

大小:204.07 KB

页数:6页

时间:2017-12-07

基于句子相关度的文本自动分类_第1页
基于句子相关度的文本自动分类_第2页
基于句子相关度的文本自动分类_第3页
基于句子相关度的文本自动分类_第4页
基于句子相关度的文本自动分类_第5页
资源描述:

《基于句子相关度的文本自动分类》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第36卷第5期中国科学技术大学学报Vol.36,No.52006年5月JOURNALOFUNIVERSITYOFSCIENCEANDTECHNOLOGYOFCHINAMay2006文章编号:025322778(2006)05205402063基于句子相关度的文本自动分类1,22张友华,熊范纶(1.中国科学技术大学自动化系,安徽合肥230027;2.中国科学院合肥智能机械研究所,安徽合肥230031)摘要:提出一种基于句子相关度的文本自动分类模型(TCSC).该模型利用训练样本增量式地自动更新类别语料库,根据句子的位置权值和语料权值计算句子类别相关度,获得

2、用于文本分类的句子相关度矩阵,通过该矩阵实现文档分类.该模型避免了分类阶段待分类文本特别是中文文本的分词,模糊了词的多义问题,且在文本分类的实验中能够达到86%以上的查全率和查准率;随着语料库的不断训练和调整,分类性能还可以进一步提高,具有简单实现的特点.关键词:文本分类;语料库;相关度矩阵;句权中图分类号:TP311文献标识码:ATextclassificationbasedonsentencecorrelation1,22ZHANGYou2hua,XIONGFan2lun(1.DepartmentofAutomation,UniversityofSc

3、ienceandTechnologyofChina,Hefei230027,China;2.InstituteofIntelligentMachines,ChineseAcademyofSciences,Hefei230031,China)Abstract:Atextcategorymodelbasedonsentencecorrelation(TCSC)waspresented,whichincrementallyupdatescategorycorpuswiththetrainingdocumentsautomatically.Then,catego

4、rycorrelationwasobtainedbymeansofsentencepositionweightandcorpusitemweighttoachievecorrelationmatrixfortextclassification.ThismodelavoidstheproblemofwordsegmentationinChinesedocumentsandlowerstheeffectofwordswithmultiplemeaningsinthephaseofclassification.Experimentalresultsshowth

5、attherecallandprecisionofthismodelreachedofover86%,andcanbeimprovedbyupdatingcorpus.Thismodelcanalsobeimplementedeasilyinprogramming.Keywords:text2classification;corpus;sentencecorrelationmatrix;sentenceweight类别标记.现有的文本分类模型主要有决策树、0引言Bayes网络和向量空间模型(VSM)等,其中应用最[1]随着Internet的发展,电子文档

6、数量急剧增加,多的是建立在Salton的VSM文本表示模型的基对这些电子文档进行系统的组织安排,以便更好地础上,运用模式分类的算法对文本进行训练和类别进行信息检索是web领域重要的研究课题.文本自判定.这种方法将文档表示为词的向量,以词频TF动分类是解决这一问题的重要方法.它通过样本训和逆文档频数IDF的乘积作为向量的值.但该方法练获得某种判别标准,然后对待识别文档进行自动存在“高维诅咒”、中文文本分词和词的多义性等问3收稿日期:2004209213;修回日期:2005201217基金项目:国家自然科学基金(69835010)资助.作者简介:张友华,男,

7、1966年生.博士/副教授.研究方向:人工智能,WEB数据挖掘,图像处理.E2mail:zhangyh@ahau.edu.cn通讯作者:熊范纶,研究员.E2mail:flxiong@163.net©1994-2009ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved.http://www.cnki.net第5期基于句子相关度的文本自动分类541[2]题,以至于其精度在各种文本分类方法中不太高.领域的类别语料库,动态调整语料库参数和语料数原因在于该方法只反映了语料的统计信息,无法体

8、量,从而随着训练文本的不断增加,得到更准确的用现语义上的联系.而自然语言本身由于

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。