欢迎来到天天文库
浏览记录
ID:35039276
大小:2.98 MB
页数:31页
时间:2019-03-16
《中文文本聚类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校代瞄102化学号20144507006I多.爭SOOCHOWUNIVERSITY.-:/:版志wi--.巾城本M类算尉腺胃民esearchonChinese1:ext加steringalrithmgo硏究生姓名汪丹丹指导教师姓名唐煌专业名称应用统计硏究方向金融统计所在院部数学科学学院论文提交日期2016年4月苏州大学学位论文独创性声明本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文
2、不含其他个人或集体己经发表或撰写过的祈究成果,也不含为获得苏州大学或其它教育机构的学位证书而使用过的材料。对本文的研巧作出重要贡献的个人和集体,均己在文中明滿方式标明。本人承担本声明的法律责任。论文作者签名:日期:)认备Jo苏州大学学位论文使用授权声明本人完全了解苏州大学关于收集、保存和使用学位论文的规定,郎:学位论文著作较归属苏州大学。本学位论文电子文挡的内容和纸质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献信息情报中也、中国科学技术信息研巧所(含万方数据电子出版社)、中文国学术期巧(光盛版)电子杂志化送
3、交本学位论文的复印件和电子保存挡和,汇允许编学论文位被论蒼文阀和借阅,可采用影印、缩印或其他复制手段据库进本巧学位检论索文。属涉密,论可文将口学化在论文的全部或月部解分密内后容适编入有关数论文非涉密论文囚用本规定。导师作者签签名:__凹期;MikA馆名:目期:>作、分?/0中文文本聚类算法研究摘要聚类作为一种无监督的学习算法,具有一定的灵活性和较高的自动化处理能力。其应用领域非常广泛,它可以结合文本挖掘技术,对文本进行聚类分析,从而可以应用于搜索引擎中,方便用户快速搜索到自己想要的有价值的信息,同时也可以应用于垃圾邮件的过
4、滤、文档归类等问题中。本文主要研究的是中文文本聚类算法。首先对课题的研究背景和意义进行了阐述,随后引入文本挖掘的概念,并对文本挖掘的相关技术进行研究,利用R语言中的Rwordseg包和jiebaR包实现文本的分词、研究文本特征提取与降维技术,如常见的TF-IDF技术。在第三章中对文本聚类的流程和常见的聚类算法做总结。重点介绍了VSM文本表示模型和几种常用的聚类算法。最后应用k-means、hclust聚类算法对旅游业的用户点评数据进行聚类,并分析聚类效果。同时加入电子商务业的点评数据进行文本聚类,和旅游业的聚类效果对比分析。关键词:文本挖掘文本聚类聚类算法作者:汪丹
5、丹指导老师:唐煜IResearchonChinesetextclusteringalgorithmAbstractClusteringalgorithmisanunsupervisedlearningalgorithm,ithassomeflexibilityandahigherabilitytodealwithproblemsautomatically.Consequentlyithasawideapplication.Itcanbecombinedwithtextminingtechnologytodoclusteringanalysisontexts,whic
6、hcanbeappliedtothesearchengineareaforuserstosearchthevaluableinformationtheywantconvenientlyandquickly.Atthesametime,itcanalsobeusedinspamfiltering,documentclassification,etc.ThispapermainlyconsideredtheChinesetextclusteringalgorithm.Firstly,thebackgroundandsignificanceoftheresearchwer
7、edescribed.Thentheconceptoftextminingwasintroduced,andtherelatedtechnologyoftextminingwasstudied.ItusedRpackagesincludingRwordsegandjiebaRtoachievethetextwordsegmentation,andstudiedthetechnologyofthefeatureextractionanddimensionreduction,suchasTF-IDFtechnology.Inthethirdchapter,thisp
此文档下载收益归作者所有