欢迎来到天天文库
浏览记录
ID:30795289
大小:341.06 KB
页数:16页
时间:2019-01-03
《孙佰贵_数据挖掘论文》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、数据挖掘课程报告题目:文本聚类算法的研究学号:21121088姓名:孙佰贵目录摘耍:3一、应用场景和意义3二、现状分析31.国外现状32.国内现状4三、技术挑战分析与解决方案41.中文文本聚类模型41.1文本特征建立与提取41.2文本相似度计算51.3文木聚类52.文木特征建立与提取方法介绍53.文本相似度计算方法介绍54.文本聚类方法介绍64.10PTICS算法64.2K-Means算法7四、系统设计与实现7摘要:文木聚类是数据挖掘和信息检索的重要内容。文本聚类通过对文木内容进行分析,将原始的文木集分成若干个簇,同时要求簇内的文木相似性尽可能大,而簇Z
2、间的文本相似性尽可能小。耍进行分类必须耍有三个步骤:1•对文本数据进行数学描述2.采用相似度统计方法进行相似度的统计3.采用聚类算法进行聚类。木文将对以上三个步骤中常用的算法进行比较研究。一、应用场景和意义随着互联网的迅速发展,以及个人电脑的普及,网络上的信息量以及搜索量正以指数级增长,这给信息检索和数据挖掘带來了严峻的考验。尤其是网络技术迅速发展的今天,人们越來越感受到了大量数据信息的冲击,而这些数据大部分都是以文本形式存在。冇统计数据显示,人们日常生活屮所接触到的信息有80%左右是以文木的形式存在的。这样文木挖掘就成了数据挖掘的一个重要分支。而文本聚
3、类乂是文本挖掘的主要方法和手段之一。文本聚类是信息检索以及数据挖掘的重要方面,其口标是帮助人们口动检索文本,判別文木属性类别,在文本中快速、准确地寻找有用信息。研究者往往对如何提高聚类算法的性能费尽心思,因为性能的好坏通常是衡量聚类算法优劣的重要标准。然而很多时候更为本质的问题在于如何准确地对文本进行科学的数学描述、如何准确地计算文本间的相似度,以及如何准确地进行文木聚类。文木聚类还可以用来改善搜索引擎,将搜索结果自动聚类,提供给用户更加优质的服务。比较著名的有Yahoo、vivisimo以及infonetware等,这些系统的一个公共特征是允许用八输入
4、搜索关键词,然后対搜索得到的结果进行聚类分析,并输出系统对各个不同类别的简要描述,从而达到缩小检索范围的效果,让川户只需要关注他比较感兴趣的主题。文本聚类还可以应用于诸如情报系统,图书管理系统等文本密集的系统,来帮助人们自能地进行文本聚类。在文本聚类的应用方面,最初,人们是研究利用文本聚类來提高信息检索系统的准确率或召回率,同时文本聚类也是发现关联文本的有效手段。如,哥伦比亚大学开发的多文档自动文摘系统NewsblasteroNewsblaster将每天发生的重要的新闻进行聚类处理,并对同主题的文木进行兀余消除、信息融合、文木生成等处理,从而生成一篇简明
5、扼要的摘要文档。在本文中,我对文本聚类技术作了系统性的研究。分析了当而文本聚类常用的一些特征描述、相似度计算以及文本聚类算法,并作了一些总结。最后,简单介绍下我在研究过程屮实现的一个简易的文木聚类系统,从这个实现例子中说明常用方法的一些局限性。1、现状分析上面己经捉到了文本聚类是文本挖掘的一个重耍方面。1•国外现状国外对文木聚类的研究比较早,许多技术已经进入实用化阶段,已经有几I•年的历史了。在数字图书馆、邮件分类、电子会议、web文木挖掘、搜索引擎等方面取得了较为广泛的应用。一些研究机构的研究成果已经在已经在商业领域得到了很好的应用,Semio公司研发
6、的SemioMap工具可以提供自动的文本处理,IBM公司出品的智能化文本挖掘器TextMiner,Megaputer公司的TextAnalyst,Xtramind公司的Mindset等。其中IBM开发的TextMiner主要功能包括特征提取、文本聚集、文本分类和检索,适用于大型软件开发公司。Megaputer公司的TextAnalyst是一个智能文本挖掘和语义搜索系统,它釆用了独特的神经元网络技术,实现了对自然语言文木的结构化处理,可以用來创建知识库、搜索语义信息和自动抽取文木。2•国内现状国内的文木挖掘研究比较晩,国内对■文木聚类技术的研究机构主要集中
7、在髙校和研究所。由于语言的不同,所以国内的基于语义分析的文本聚类也有很大的挑战。在20世纪90年代中后期,国内在此方面的研究较为迅速,并取得了一些成就。如屮科院计算机语言信息工程研究中心研究的内容就冇汉语分词、自然语言接口、旬法分析、语义分析、自动分词,以及哈尔滨工业大学信息检索研究室也开发出了中文多文本口动文摘系统和中文文本聚类系统。除高校和研究所外,还有-•些国内的公司致力于这个领域的研发,如北京拓尔思信息技术有限公司等。目前应用最多的文木聚类算法是K-Means^OPTICS以及层次聚类算法。K-Means计算复杂度低使川与处理大数据。rh于以上的
8、聚类算法通常是应用于数值型的数据,然而在实际应用中我们遇到的数据可能也包含非数值
此文档下载收益归作者所有