欢迎来到天天文库
浏览记录
ID:33326243
大小:63.58 KB
页数:3页
时间:2019-02-24
《使用knn算法的文本分类》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第31卷第8期计算机工程2005年4月ComputerEngineeringApril2005Vol.318人工智能及识别技术文章编号10003428(2005)08017102文献标识码A中图分类号TP18使用KNN算法的文本分类122张宁贾自艳史忠植1.中国科技大学研究生院计算机学部,北京1000392.中科院计算技术研究所智能信息处理重点实验室,北京100080摘要介绍了数据挖掘的一个分枝文本自动分类的相关技术在对数据进行预处理的基础上实现了K最近邻居分类算法并结合实验结果对数据预处理在文本分类中的重要性进行了讨论关键词数据挖掘文本分类KNN
2、算法向量空间模型TextCategorizationwithKNNAlgorithmZHANGNing1,JIAZiyan2,SHIZhongzhi21.ComputerBranch,GraduateSchool,UniversityofScienceandTechnologyofChina,Beijing100039;2.KeyLabofIntelligentInformationProcessing,InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100080Abst
3、ractThispaperintroducesabranchofdataminingtechnologytextcategorization,anddiscussessomerelatedkeytechnologiesoftextcategorization.Basedondatapreprocess,itimplementsonealgorithm,Knearestneighboralgorithm.Intheend,itutilizestheexperimentresultstoprovetheimportanceofdatapreproces
4、sforclarifyingcapability.KeywordsDatamining;Textcategorization;KNNalgorithm;VSM20世纪90年代以来Internet以惊人的速度发展起来则以便于实现Internet数据挖掘的智能化离开了文本知它容纳了海量的各种类型的原始信息如何在浩若烟海而又识挖掘智能化是不能实现的最常用的文本知识挖掘方法纷繁芜杂的文本中掌握最有效的信息始终是信息处理的一是基于文档特征向量空间模型CharacteristicVectorSpace大目标基于人工智能技术的文本分类系统能够依据文本的Model
5、CVSM的一般过程如图1所示语义将大量的文本自动分门别类从而更好地帮助人们把握文本信息禁用词集概念集已分类文档库1文本分类简介模型评价文本自动分类最初是应信息检索IR缩减特征集训练预处理概念一般特征提取摘要生成系统的要求而出现的随着全球互联网络的文集映射姓名日期数字概念普及文本自动分类对于信息处理的意义变Html消歧等特征抽取分类器文档集得更加重要在互联网上电子文档信息每天都在急剧增加通过网络人们可以很方文档模型特征词典集文档矢量库训练集矢量库建立便地共享巨大的信息资源但是网络信息知识发现的快速膨胀信息资源无法有效利用面对图1文本知识挖掘的一般过程
6、网上的海量信息传统的做法是对网上信息进行人工分类(1)文档模型建立——文档结构化并加以组织和整理为人们提供一种相对有效的信息获取手1预处理过程一是要根据禁用词集去除文档中的语段但这种人工分类的做法存在着许多弊端一是耗费大量义虚泛的禁用词例如“的虽然theas”等二是要利用的人力物力和精力二是分类结果一致性不高即使分类特征词典集包括通用集和专业集进行分词例如人的语言素质较高对于不同的人来分类其分类结果仍然“KnowledgeDiscovery一般就只能作为一个词而不能作两不尽相同甚至同一个人在不同时间做分类也可能会有不个词“计算机操作系统”就应该分成
7、3个词“计算机”“操同的结果网络信息的激增一方面增加了对于快速自动文作系统”“计算机操作系统”特征词典集的维护也很重要本分类的迫切需求另一方面又为基于机器学习的文本分类如果出现词集中没有的词则将它整体作为一词并记录以便方法准备了充分的资源电子化信息的自动分类处理技术正人工分词越发显示着其优越性文本自动分类及其相关技术的研究也2概念映射和概念消歧有些词形式不同但概念相同正日益成为一项研究热点2KNN自动文本分类的实现基金项目国家自然科学基金资助项目601730179010402北2.1文本分类的一般过程京市自然科学基金资助项目4011003以Inte
8、rnet中的文本为例待分类文本以HTML格式存作者简介张宁(1974)男在职硕士生主研方向为人工智能储的半格式化的Web页
此文档下载收益归作者所有