基于相似度的文本聚类方法研究—计算机毕业设计(论文)

基于相似度的文本聚类方法研究—计算机毕业设计(论文)

ID:5707016

大小:393.50 KB

页数:36页

时间:2017-12-23

基于相似度的文本聚类方法研究—计算机毕业设计(论文)_第1页
基于相似度的文本聚类方法研究—计算机毕业设计(论文)_第2页
基于相似度的文本聚类方法研究—计算机毕业设计(论文)_第3页
基于相似度的文本聚类方法研究—计算机毕业设计(论文)_第4页
基于相似度的文本聚类方法研究—计算机毕业设计(论文)_第5页
资源描述:

《基于相似度的文本聚类方法研究—计算机毕业设计(论文)》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、本科毕业设计论文题目:基于相似度的文本聚类方法研究专业:计算机科学与技术班级学号:姓名:指导教师:教师职称:协助指导/联系教师:教师职称:摘要随着计算机的广泛应用和Internet的普及,人们所面对的信息量急剧增长。信息量的增加给人们带来方便,可同时也带来了一个信息过量的问题。面对浩如烟海、纷繁芜杂的信息,人们越来越希望能够在对已有的大量数据分析的基础上进行科学研究、商业决策或企业管理。在现实世界中,文本是信息最重要的载体,事实上,研究表明信息有80%包含在文本文档中。面对大量无序的文本数据,为了便于工作的展开,人们经常遇到的

2、一个问题就是,如何对文本进行分类、比较,评估文本的相关性和重要性,以及发现众多文本的模式与趋势。采用文本分类可以实现对大量文本的自动分类。文本分类是在分析文本内容的基础上将多篇文本分成一个或多个类别。财经类网页是我们日常生活中关注的主要内容。本文以财经类文本的聚类实现为研究实例,提出基于文本相似度向量的聚类方法。关键词:相似度,聚类,财经目录摘要2一、绪论41.1问题的提出41.2课题开发背景51.3系统设计思想7二、系统开发工具和开发平台82.1面向对象语言82.2关于VC++6.0112.2.1编辑器方面的新特性122.2

3、.2、编译器、连接器和调试器方面的改进132.3系统运行环境132.3.1软件运行平台132.3.2硬件运行平台13三、系统分析143.1文本建模方法143.2文本聚类算法分析153.2.1划分聚类算法153.2.2层次聚类算法163.2.3基于密度的聚类算法163.2.4基于模型的聚类算法163.2.5基于网格的聚类算法17四、系统设计与实现184.1系统结构设计184.2界面设计184.3网页自动获取的实现204.4网页分析聚类的实现21五、系统测试225.1测试225.2聚类效果分析24结论26致谢27参考文献28一、绪

4、论1.1问题的提出当今是一个信息爆炸的时代,特别是随着Internet的飞速发展,各行业都已经在网络上找到了自己的位置,人们越来越有可能通过网络来获得最新的咨询信息,网络已成为继报纸、电视之后的第3种媒体,网络改变了我们的生活,电子信息化给人们的阅读带来了革命性的改变。我们每个人都有通过阅读获得信息的习惯,特别是一些对咨询信息需求比较紧迫的个人和企业,更加是需要每天通过大量的阅读来寻找和补充自己需要的信息。但是,网上信息之多已经大大超过来我们的每天日常的阅读能力,因此为了给人们提供辅助阅读的工具,文本分类技术的研究已经成为解决

5、该问题的重要捷径之一。特别的是在信息检索领域文本分类和自动摘要技术的发展更是不可缺少。人们面对浩瀚的信息海洋,从大规模文本中快速获取所需要信息的要求,日益变得迫切.但是传统的搜索引擎会返回大量的文档,这些文档中只有极少数对用户来说是有用的.对这些文档若是采用顺序组织的方法,用户查找到所需要的文档会花费较长的时间.聚类分析作为一种文档组织方法可以帮助人们从搜索引擎返回的文档中快速地查找到所需要的文档.但是文本聚类有效性的高低会直接影响到用户查找到所需要信息的速度,如对文档进行随机聚类相对于顺序组织方法来说根本不会提高速度,相反还

6、会降低.所以,提高文本聚类的有效性一直是文本聚类领域的研究者追求的目标之一1.2课题开发背景随着互联网的出现,大量的文本信息如潮水般不断涌现,网络已经成为一个庞大而杂乱无章的桌面图书馆。对海量的文献人们迫切需要能够自动实现文本的分类处理,在节省时间的同时更好的定位查找自己需要的文献。有效的信息检索需要有良好的索引和文本内容概括,文本聚类便是解决这类问题的一种手段。文本聚类就是将一个训练文献集分成若干称为聚类簇(cluster)的子集,每个聚类簇中的成员之间具有较大的相似性,而聚类簇之间的文本具有较小的相似性。文本分类一般是通过

7、统计方法或知识工程方法来实现的。知识工程方法需要编制大量的推理规则,因此其开发费用相当昂贵。相比之下,统计方法由于其简单的机制,为大多数实用文本分类系统所采用。在基于统计的各种分类方法中,它们的共同点是从文本中提取词汇信息,并以特征向量的形式来表示文本。基于以向量来表示的文本,聚类算法有很多种,本文是通过在特征向量中选取代表点来完成聚类的。在日常生活、生产、科研、工作中,经常要对被研究的对象分类。研究和处理给定对象分类的数学方法称为聚类分析(ClusteringAnalysis)。聚类算法是数据挖掘中常用的方法之一。通常可以分

8、为层次式和非层次式两种。本文介绍的是层次式聚类方法。其优点是聚类的形成一般依赖于数据,而不是通过用户预定义的聚类数得到。它通过对初始数据构造一个聚类层次来完成聚类。初始,输入的每个数据点被看成一个单独的聚类簇,然后将成对的聚类簇一一合并,同时依据各聚类簇中各对象间的最大距离应

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。