欢迎来到天天文库
浏览记录
ID:32022465
大小:2.95 MB
页数:53页
时间:2019-01-30
《【硕士论文】中文文本聚类的研究与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、北京邮电大学硕士学位论文中文文本聚类的研究与实现姓名:张宝艳申请学位级别:硕士专业:信号与信息处理指导教师:钟义信20030301独创蛙说甥本^邙煎声明:所量交的论文是我个人在导师指导一卜H进行的研究l“作及取褥研究成荣。尽我所知。除了Z中特别加以标注承{致谢的地方外,论文中不包含其他人已经发表戚撰‘写的研究成果,也不包禽为获得北京邮电夫学或其他教育机构能学位或证:强所使糟过的材辑。与我一间工作静阉志对本研究所做的任何羹献均融在论文中做了明确的说明并袭示了谢意。签名:猛窒整日期!型i幸18竺!关予论文使j_}l技校麓谎瞑本人完全了解北京邮电犬学有关保留、使瑚学位
2、论文的规定,即:学校有权保留送交论文的复印件,允许论文渡褒翔和借耀;学校可以公葶嚣论文麴全部袋部分内窬,可以采明影、缩印或其他复制手段爆存论文。(僳密的论文在解密后廊遵循此规定)虢醴整.一名:斜厶一I-本文就文本自动聚类技术的发展及现状进行了系统的回顾,然后,针对社科领域的文本聚类进行了较为深入的探讨与研究,实现了两个实验系统。本文的工作重点足:1.采用了ISODATA聚类方案,并与KNN方案进行比较,在此基础上实现了两种不同聚类方法的实验系统。2.对于文本聚类系统特征抽取的维数选取问题进行了实验和探讨,给出了比较合理的取值区间。3.对于文本聚类系统中语料库质量
3、与文本聚类效果的关系,进行了实验研究,并对实验结果给出了合理的解释。4.参照文本分类,尝试了基于查全率和查准率的评价方法;参照数据聚类,尝试了基于“核”的评价方法。5.对于两种不同的聚类方法在运行时间、聚类效果、聚类评价等方面进行了探讨。6.对于KNN聚类的最佳K值选择进行了实验研究和分析。关键词:文本自动分类,文本聚类,文本预处理,文本表示,特征抽取,权重评价,ISODATA聚类算法,KNN算法!!塞墅皇查堂堡主兰焦笙苎主壅苎查塞鲞塑婴窒量壅堡ABSTRACTInthisthesis,thedevelopmentandstatusquoofAutomaticT
4、extClusteringissystematicallyreviewedandwithspecificdomainofSocialScienceasitsresearchemphasis,someconcemedproblemsarestudied.1)InthisthesisISODATAmethodisgiventhatcomparedwithK—meansttotakethetaskoftextcluster.2)KeystepsofAutomaticTextClusteringsystemrealizationtechniques.suchastext
5、preprocessing,textrepresentation,featureselectionandweighting,arediscussed.Withthebuildingprocessasthemainthread,analysisofexistingmethodsisgiven.3)Asummarizationofreviewingmethodsandsystemperformanceindexareprovided.Alsothenecessityofsuchreviewandtheabilityofthoseindexestoreflectthe
6、systemperformancearediscussed.4)ChapterFourshoWanautomatictextcategorizationsystemthathasbeenbuiltonthetheoryofVectorSpaceModel(vSM).WithSocialScienceasitsspecificdomain,keystepsandrealizationprocessofthesystemaregiven.AdvancementofthemethodiSsetforth.Importanttestsandcorrespondingte
7、stresultsareshownanddiscussed.5)AfeWfactorssuchastime,performance,etc'aluationwhicheffectthesystemarediscussedcomparedKNNwithISODATA.6)Atlastadvantagesandshortcomingsoftherealizedsystemisdiscussedandsomeimportantdirectionsforfutureresearcharegiven.Keywords:AutomaticTextCategorization
8、,TextCluster
此文档下载收益归作者所有