数据挖掘:数据挖掘(data mining)在体育统计中的应用

数据挖掘:数据挖掘(data mining)在体育统计中的应用

ID:34405109

大小:184.20 KB

页数:4页

时间:2019-03-05

上传者:xinshengwencai
数据挖掘:数据挖掘(data mining)在体育统计中的应用_第1页
数据挖掘:数据挖掘(data mining)在体育统计中的应用_第2页
数据挖掘:数据挖掘(data mining)在体育统计中的应用_第3页
数据挖掘:数据挖掘(data mining)在体育统计中的应用_第4页
资源描述:

《数据挖掘:数据挖掘(data mining)在体育统计中的应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

维普资讯http://www.cqvip.com第23卷第2期东华理工学院学报(社会科学版)Vo1.23No.22004年6月JOURNALOFEASTCHINAINSTITUTEOFTECHNOLOGYJun.2004数据挖掘(DataMining)在体育统计中的应用郝丽,刘乐平,王星2(1.东华理工学院,江西抚州344000;2.中国人民大学,北京1~872)摘要:数据挖掘是当今信息技术领域中最热门话题之一。20世纪90年代,人们在数据库基础上提出建立数据仓库,应用机器学习和统计分析相结合的方法处理数据,这两者的结合促成数据挖掘技术的诞生。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。文章简要介绍数据挖掘的思想、方法和技术,讨论了数据挖掘对现代统计学发展的影响,最后,通过应用实例分析和讨论了数据挖掘在体育统计中的应用。关键词:体育统计;数据挖掘;知识发现中图分类号:G80.32文献标识码:A文章编号:1001—635X(2004)02—0092—04本文以网上收索(EBSCO、Google、中国期刊中,即使是最先进的搜索引擎也只能从1/3可以索网)为主,图书馆文献查阅为辅,广泛收集“数据挖引的WEB站点中获取信息。这样,面对这种“数据掘”的有关资料。在此基础上,首先简要介绍数据过剩”和“信息爆炸”的局面,奈斯伯特(JohnNais—挖掘的思想、方法和技术,然后讨论了数据挖掘对bett)惊呼“我们被信息所淹没,但却忍受着知识的现代统计学发展的影响,并通过具体的应用实例分饥渴’’⋯。析和研究了数据挖掘在体育统计中的应用,旨在为面临浩渺无际的数据,人们呼唤从数据汪洋中体育科学研究提供一种新的研究思路和方法。出现一个去粗存精、去伪存真的技术。从数据库中发现知识及其核心技术——数据挖掘(DM:Data一、数据挖掘的思想、方法和技术Mining)便应运而生了。(一)“信息爆炸”与“知识贫乏”(二)数据挖掘(DataMining)随着数据库技术的成熟和数据应用的普及,人数据挖掘是当今信息技术领域中最热门话题类积累的信息量正在以指数速度迅速增长。进入之一。2O世纪9O年代,人们在数据库基础上提出9O年代,伴随着因特网的出现和发展,整个世界正建立数据仓库,应用机器学习和统计分析相结合的被联接成一个小小的地球村,人们可以跨越时空地方法处理数据,这两者的结合促成数据挖掘技术的域在网上交换数据信息和协同工作。这样,展现在诞生。Fayyad,Piatetsky—Shapiro和Smyth于1997人们面前的已不是局限于某一个国家、某一个地区年指出:“知识发现(KnowledgeDiscoveryfromData—和某一个部门的数据库,而是浩瀚无垠的信息海bases,简称KDD)是从数据库中发现知识的全部过洋,数据洪水正向人们滚滚涌来。大量信息在给人程,而数据挖掘则是此过程中的关键步骤”。们带来方便的同时也带来了许多问题:信息过量,数据挖掘就是从大量的、不完全的、有噪声的、难以消化;信息真假,难以辨识;信息安全,难以保模糊的、随机的实际应用数据中,提取隐含在其中证;信息形式不一致,难以统一处理。当数据量极的、人们事先不知道的、但又是潜在有用的信息和度增长时,如果没有有效的方法,由计算机及信息知识的过程。何为知识?从广义上理解,数据、信技术来提取有用信息和知识,人们也会感到面对信息也是知识的表现形式,但是人们更把概念、规则、息海洋像大海捞针一样束手无策。在信息的海洋模式、规律和约束等看作知识。人们把数据看作是收稿日期:2004-02-20基金项目:江西省教育科学“十五”规划课题(YB294),教育部人文社会科学重点研究基地2001年度重大研究项目(01JAZJDgl0001)作者简介:郝丽(1966一)。女,安徽寿县人,副教授,主要从事心理健康理论研究。 维普资讯http://www.cqvip.com第2期郝丽等:数据挖掘(DataMining)在体育统计中的应用93形成知识的源泉,好像从矿石中采矿或淘金一样。基于事例的推理技术:这种技术的思路非常简原始数据可以是结构化的,如关系数据库中的数单,当预测未来情况或进行正确决策时,系统寻找据;也可以是半结构化的,如文本、图形和图像数与现有情况相类似的事例,并选择最佳的相同的解据;甚至是分布在网络上的异构型数据。发现知识决方案。的方法可以是数学的,也可以是非数学的;可以是遗传算法技术:遗传算法是一种全新的最佳化演绎的,也可以是归纳的。发现的知识可以被用于空间搜寻法,其主要目的是以严密而具体的科学方信息管理,查询优化,决策支持和过程控制等,还可法解释自然界中“物竞天择、适者生存”的演化过以用于数据自身的维护。程,将生物界中基因演化重要机制以信息科学软件数据挖掘与传统的数据分析(如查询、报表、联实作仿真。机应用分析)有本质的区别。数据挖掘是在没有明非线性回归技术:这种技术的基础是,在预定确假设的前提下去挖掘信息、发现知识。数据挖掘的函数的基础上,寻找目标度量对其它多种变量的所得到的信息应具有事先未知、有效和实用三个特依赖关系。征。二、数据挖掘在体育统计中的应用(三)数据挖掘的常用方法一般而言,数据挖掘的常用方法包含下列六(一)数据挖掘在体育中的应用实例种:今日的NBA职篮已不仅是一项运动,更与麦(1)分类(Classification):按照分析对象的属性当劳、可口可乐、耐克等知名品牌旗鼓相当,成为美分门别类加以定义,建立类组(Class)。国文化的典型代表。NBA职篮联盟成功的因素有(2)回归(Regression):是使用一系列的现有数很多,先进信息技术的运用是其中非常重要的一个值来预测一个连续数值的可能值。方面。(3)预测(Prediction):根据对象属性的过去观想象你是NBA的教练,你靠什么带领你的球察值来估计该属性未来之值。队取得胜利呢?当然,最容易想到的是全场紧逼、(4)聚类(Clustering):是将一组数据按照相似交叉扯动和快速抢断等具体的战术和技术。但是性和差异性分为几个类别,其目的是使得属同一今天,NBA的教练又有了他们的新式武器:数据挖类别的数据间的相似性尽可能大,不同类别中的数掘。大约20个NBA球队使用了IBM公司开发的据问的相似性尽可能小。数据挖掘应用软件AdvancedScout系统来优化他(5)关联(Association):是要找出在某一事件们的战术组合。例如Scout就因为研究了魔术队队同时出现的事件。主要是要找出下面这样的信息:员不同的布阵安排,在与迈阿密热队的比赛中找到如果A是某一事件的一部份,则B也出现在该事件了获胜的机会。中的机率有多大。数据挖掘系统分析显示魔术队先发阵容中的(四)数据挖掘中的常用技术两个后卫AnfemeeHardaway和BrianShaw在前两经典统计分析技术:这类技术包括相关分析、场中得分为负l7分,这意味着他俩在场上,本队输回归分析及因子分析等。掉的分数比得到的分数多l7分。然而,当Hard—神经元网络技术:神经元网络技术是属于软计away与替补后卫DarrellArmstrong组合时,魔术队算(SoftComputing)领域内一种重要方法,它是多年得分为正l4分。来科研人员进行人脑神经学习机能模拟的成果,已在下一场中,魔术队增加了Armstrong的上场成功地应用于各工业部门。时间。此着果然见效:Arms~ong得了21分,Hard—决策树:在知识工程领域,决策树是一种简单away得了42分,魔术队以88比79获胜。魔术队的知识表示方法,它将事例逐步分类成代表不同的在第四场让Armstrong进入先发阵容,再一次打败类别。了热队。在第五场比赛中,这个靠数据挖掘支持的进化式程序设计:这种方法的独特思路是系统阵容没能拖住热队,但AdvancedScout毕竟帮助了自动生成有关目标变量对其他多种变量依赖关系魔术队赢得了打满5场,直到最后才决出胜负的机的各种假设,并形成以内部编程语言表示的程序。会。 维普资讯http://www.cqvip.com东华理工学院学报(社会科学版)2004年AdvancedScout是一个数据分析工具,教练可机对大量的复杂数据集的自动探索性分析。它对以用便携式电脑在家里或在路上挖掘存储在NBA商业、工业及科学研究都有极大的影响,且提供了中心的服务器上的数据。每一场比赛的事件都被大量的为促使新方法的发展而进行的研究工作。统计分类,按得分、助攻、失误等等。时间标记让教这就很可能要求研究人员们改变他们的一些基本练非常容易地通过搜索NBA比赛的录像来理解统思路及操作原则(斯坦佛大学统计系J.H.Friedman计发现的含义。例如:教练通过AdvancedScout发教授)引。现本队的球员在与对方一个球星对抗时有犯规纪不要将数据挖掘仅仅看成是计算机的一种新录,他可以在对方球星与这个队员”头碰头”的瞬间型软件,一种工具,一种可以挖出“宝藏”的金铲子。分解双方接触的动作,进而设计合理的防守策略。数据挖掘重要的是一种新的思想、一种新的理念、(二)数据挖掘与体育科研一种新的方法。很显然,若不知“宝藏”埋在何处,以上是篇体育报道,虽然含有一些商业炒做的有再好的金铲子也挖不出“宝藏”;另外,若不认识成分,但与之相关发表在“DataMining&Knowledge“宝藏”,即使挖出了“和氏璧”,也可能被当作废Discovery”期刊上一篇引用率非常高的论文可能石引。会给体育科学研究者带来某些启示。(二)建议这一篇论文将数据挖掘软件AdvancedScout体育统计学科的发展要关注数据挖掘的进展,(AS)软件的作用分成了以下四个部分:《体育统计》教材的编写应加人数据挖掘的相关内(1)数据收集(Datacollection):NBA原始数据容。在1999年3月举行的第十一届全国体育统计利用专门设计的系统进行收集,这些数据包括每人论文报告会上指出了我国体育统计中的一些问题,的投篮、投篮的方式、得分、助攻、篮板、失误等122如对所用统计方法理解还不够透彻,所研究问题方项指标等,每一小节用一时间做标记。在每场比赛面对前人已做过的工作了解不够,在研究方法上尚结束,数据上传并储存到一个专门的电子公告栏有缺陷。数据挖掘的兴起,为体育统计学与体育信里,任何队可以进入公告栏中下载所有队的数据。息技术的结合带来了发展的契机,数据挖掘将成为(2)数据预处理(Datapre—processing):目的继数学、计算机技术之后,又一推动体育统计学发是对数据进行检查和检验,保证下载数据的一致性展的强大工具。和准确性,这个过程包括数据的清理(Cleaning),转为我国各高校的体育专业的本科课程中讲授换(transformations)和丰富(enrichment),其中要用一些数据挖掘这方面的内容,在体育专业的研究生到很多技术,包括咨询专家和观看录象。中讲授一些相关的研究课题。发现问题(或提出问(3)数据挖掘(Datamining):利用(AS)软件题)和解决问题是体育科学研究工作中最为重要的中各种数据挖掘的技术,对处理过的数据进行分两个方面,发现问题的能力往往体现在研究者掌握析。基础知识的广度和深度上,而解决问题的能力则往(4)解释和知识发现(Interpretationandknowl—往表现在研究者掌握各种研究手段、方法以及应用edgediscovery):数据挖掘的结果有两种形式——方面的能力上。数据挖掘是一门交叉学科,它具有文本形式和图形形式。文本形式如:“当Price是得发现问题和解决问题两重属性。学生们通过学习,分后卫时,J.Williams的跳起出手次数(field—goal可为今后体育科研水平的提高打下坚实的基础。—attempts)共有4次,失误为0%(0),成功为在我们的各级体育研究杂志上发表有关数据100%(4)”。这种形式与常规技术统计不同:挖掘方面的文章,给在这方面较优秀的研究人员提“Cavaliers在他所有的出手次数中,失误为50.供科研课题。数据挖掘为研究者提供了一个全新70%,成功为49.30%”。教练可根据这些信息量的科学研究方式,将数据挖掘的思想、方法和技术更丰富的知识来合理布置战术。引入体育科学的研究,可以营造出一个创新的体育科研氛围。三、结论与建议[参考文献](一)结论[1]RobertGroth.DataMining:BuildingCompetitiveAdvan-用统计的观点,数据挖掘可以看成是通过计算tage[M].NJ:PrenticeHall,2000. 维普资讯http://www.cqvip.com第2期郝丽等:数据挖掘(DataMining)在体育统计中的应用[2]Hand.D.J.DataMi~ng:StatisticsandMore?[J].A—[4]中国人民大学统计学系数据挖掘中心.统计学与数据mencanStatistician,1998,(52):112—118.挖掘[J].统计与信息论坛,2002,(17)1:4—9.[3]Bhandafi,I.eta1.AdvancedScout:DataMiningand[5]郝丽,刘乐平.健康心理学研究与数据挖掘[J].健康心KnowledgeDiscoveryinNBAData[J].DataMining&理学研究,2002,(10)3:183—184.KnowledgeDiscovery,1997,1(1).ApplicationofDataMininginPhysicalStatisticsHAOLi,LIULe—ping,WANGXing(1.DepartmentofPhysicalEducation,EastChinaInstituteofTechnology,Fuzhou344000,China;2.RenminUniversityofChina,Beijing100872,China)Abstract:Dammining(alsoknownasKnowledgeDiscoveryinDatabases—KDD)hasbeendefinedas”Thenon—trivialextractionofimphcit,previouslyunknown,andpotentiallyusefulinformationfromdata”.Itusesmachinelearning,statisticalandvisualizationtechniquestodiscoveryandpresentknowledgeinaformwhichiseasilycom—prehensibletohuman.Inthispapertheauthorsfirstintroducetheidea,basicconceptandprocessofdatamin—ing,thenallexampleandmethodsoftheapplicationofdatamininginphysicalstatisticsareanalyzedingenera1.KeyWords:PhysicalStatistics;Datamining;KDD

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭