欢迎来到天天文库
浏览记录
ID:55176108
大小:285.50 KB
页数:25页
时间:2020-04-30
《K_近邻研究应用.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、研究基于分类的K-近邻算法设计方案第一章绪论模式识别又常称作模式分类,从处理问题的性质和解决问题的方法等角度,模式识别分为有监督的分类(SupervisedClassification)和无监督的分类(UnsupervisedClassification)两种。二者的主要差别在于,各实验样本所属的类别是否预先已知。一般说来,有监督的分类往往需要提供大量已知类别的样本,但在实际问题中,这是存在一定困难的,因此研究无监督的分类就变得十分有必要了。模式还可分成抽象的和具体的两种形式。前者如意识、思想、议论等,属于概念识别研究的畴,是人工智能的另一研究分支。我们所指的模式识别主要是对语音波形、地
2、震波、心电图、脑电图、图片、照片、文字、符号、生物传感器等对象的具体模式进行辨识和分类。模式识别研究主要集中在两方面,一是研究生物体(包括人)是如何感知对象的,属于认识科学的畴,二是在给定的任务下,如何用计算机实现模式识别的理论和方法。前者是生理学家、心理学家、生物学家和神经生理学家的研究容,后者通过数学家、信息学专家和计算机科学工作者近几十年来的努力,已经取得了系统的研究成果。模式识别或者通俗一点讲自动分类的基本方法有两大类,一类是将特征空间划分成决策域,这就要确定判别函数或确定分界面方程。而另一种方法则称为模板匹配[1],即将待分类样本与标准模板进行比较,看跟哪个模板匹配度更好些,从
3、而确定待测试样本的分类。近邻法则在原理上属于模板匹配。分类的方法包括统计的方法、近邻法、神经网络分类法、无监督聚类法和新出现的基于统计学习理论的支持向量机法,K-近邻分类法是近邻分类法的扩展。它将训练样本集中的每个样本都作为模板,用测试样本与每个模板做比较,看与哪个模板最相似(即为近邻),就按最近似的模板的类别作为自己的类别。譬如A类有10个训练样本,因此有10个模板,B类有8个训练样本,就有8个模板。任何一个待测试样本在分类时与这18个模板都算一算相似度,如最相似的那个近邻是B类中的一个,就确定待测试样本为B类,否则为A类。因此原理上说近邻法是最简单的。1.1课题背景及目的数据挖掘是近
4、年来很多领域竟相研究的一个热点领域,而分类器是数据挖掘的一个研究分支[2]。为了研究基于分类的K-近邻算法,先对数据挖掘做一个概要的介绍。.专业.专注.数据挖掘是八十年代,投资AI研究项目失败后,AI转入实际应用时提出的。它是一个新兴的,面向商业应用的AI研究。数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。数据挖掘有分类、估值、预言、相关性分组或关联规则、聚集、描述和可视化六种分析方法。本文讨论的分类就是首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。K-近邻法是最显著的模式识别系统统计学方法之
5、一,已经有40多年的历史,它很早就被用于文本分类研究。K-近邻算法的最大优点是:简单,直观,容易实现,应用围广,几乎可以用于各种不同类型的数据结构;知识以样本的形式表示,不需要进行模型的训练,容易获取,维护方便;在关系数据库中,算法可以用SQL语句来实现;非常适用于分布是计算。缺点是:需要大量的已经准备好的历史数据;在对一个新样本分类时,要搜索所有的训练样本来寻找最近的邻居,计算量大,时间代价高;由于训练数据常驻存,会占用大量的存;且分类结果与参数有关。在模板数量很大时其错误率指标还是相当不错的。也就是说近邻法的研究还是有必要的。1.2国外研究状况近十几年来,人们利用信息技术生产和搜集数
6、据的能力大幅度提高,无数个数据库被用于商业管理、政府办公、科学研究和工程开发等,这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对“人们被数据淹没,人们却饥饿于知识”的挑战,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。由于K-近邻法实际应用效果好,但又因算法问题而
7、使其计算量大,时间代价高;由于训练数据常驻存,会占用大量的存,增加成本。所以国外对于K-近邻法的研究主要在分为两部分:一.对其算法的的改进研究工程技术大学的宇[3]提出了一种出了一种利用随机属性子集组合k-近邻分类器的算法通过随机的属性子集组合多个k近邻分类器,利用简单的投票,对多个k-近邻分类器的输出进行组合,这样可有效地改进k-近邻分类器的精度。石油化工学院计算机与电子信息学院的周靖,晋胜[4].专业.专注.采用特征相关性差异优
此文档下载收益归作者所有