欢迎来到天天文库
浏览记录
ID:33550738
大小:3.02 MB
页数:77页
时间:2019-02-27
《基于ap算法的文本聚类研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、万方数据分类号UDC密级学位论文基于AP算法的文本聚类研究与实现作者姓名:指导教师:申请学位级别:学科专业名称:论文提交日期:学位授予日期:评阅人:魏彦婧吕振辽副教授东北大学计算中心硕士学科类别:工学计算机应用技术2014年6月.论文答辩日期:2014年6月2014年7月答辩委员会主席:黄卫祖焦明海赵德平东北大学2014年6月万方数据AThesisinComputerApplicationTechnologyfUllllllllll[IIIIllllIIIY2995776ResearchandImplementationofTextClusteringBasedonAPAlgorit
2、hmByWeiYanjingSupervisor:AssociateProfessorLvZhenliaoNortheasternUniversityJune2014万方数据独创性声明本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。.与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。学位论文作者签名:雹弘穆婧El期:矶/牛.莎、11学位论文版权使用授权书本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论文的规定:即学校
3、有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部或部分内容编入有关数据库进行检索、交流。作者和导师同意网上交流的时间为作者获得学位后:半年口一年口一年半口两年函学位论文作者签名:袁锯彦孀签字日期:-7,,o/牛0.11导师虢0谁这签字日期乃/,眵,∥.L1万方数据东北大学硕士学位论文摘要基于AP算法的文本聚类研究与实现摘要互联网每天都会产生海量文本、视频、图像等信息形式,其中文本作为重要的信息载体之一占据着越来越重要的地位。文本数量的激增,导致了严重的文本冗余,文本间关系混杂,使得从大量的文本信息中查找出某类价值信息变得
4、非常困难,在这种背景下产生了文本聚类研究。文本聚类是指将一个文本集合按照一定规则划分成不同的簇,使得在同一簇内的文本描述同一主题,从属不同簇的文本相关性较小的技术。文本聚类技术有非常广泛的应用,如利用文本聚类技术分析微博、聚类同一类型的新闻等。数据量急剧增长的今天,研究大数据量的文本聚类是研究趋势,设计数据处理能力强、准确性高的文本聚类过程变得非常有意义。鉴于研究文本聚类技术的重要性,本文设计基于Hadoop的文本聚类过程,实现提高文本聚类数据处理能力和执行效率的目标。选择AP(AffinityPropagation)算法作为聚类算法,达到提高文本聚类准确性的目标。相比于传统的聚类算
5、法,AP算法有很多优点。同时对算法的实现应用优化策略,提高聚类的执行效率。本文主要贡献点有三个:(1)应用Hadoop平台实现文本聚类过程。将文本聚类流程应用到的技术用MapReduce编程框架实现,达到并行处理文本集合的目的。(2)提出基于词库结合TF-IDF(TermFrequency-InverseDocumentFrequency)信息的划分规则对数据集进行划分,减少聚类过程中的通信量,避免不必要的相似度计算。(3)应用AP算法进行聚类,并对执行过程进行优化,减少聚类过程中的网络通信量,提高算法的执行效率。本文实现了完整的文本聚类过程,由实验效果可以发现,并行文本聚类过程非常
6、适合处理大数据量的文本聚类问题。同时对AP算法的研究表明,AP算法虽然通信量较高,但在实现过程中可以通过剪枝优化和一些执行优化策略提高聚类效率,而且它具有很高的聚类准确性。关键词:文本聚类;AP算法;Hadoop;大数据;MapReduce.II-万方数据东北大学硕士学位论文AbstractResearchandImplementationofTextClusteringBasedonAPAlgorithmAbstractTheInternetproducesplentyoftextdocuments,videosandimageseveryday,amongofthemtextta
7、kesamoreandmoreimportantpositionasoneoftheformsofinformation.Therapidincreaseoftheamountoftextleadstoserioustextredundancyandstructuralcomplexityamongtexts,whichmakesithardtofindusefulinformationfromplentyoftexts,andthencomesthete
此文档下载收益归作者所有