Apriori算法在教育领域地应用

Apriori算法在教育领域地应用

ID:47916840

大小:134.47 KB

页数:19页

时间:2019-10-28

Apriori算法在教育领域地应用_第1页
Apriori算法在教育领域地应用_第2页
Apriori算法在教育领域地应用_第3页
Apriori算法在教育领域地应用_第4页
Apriori算法在教育领域地应用_第5页
Apriori算法在教育领域地应用_第6页
Apriori算法在教育领域地应用_第7页
Apriori算法在教育领域地应用_第8页
Apriori算法在教育领域地应用_第9页
Apriori算法在教育领域地应用_第10页
资源描述:

《Apriori算法在教育领域地应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、实用成绩姓名评卷人学号华中师范大学研究生课程论文完成时间2014.7.15课程名称数据挖掘专业通信与信息系统文档实用年级文档实用Aprior-TIDS算法在教育领域的应用摘要:数据挖掘技术是应用一系列技术从大型数据库中提取出出隐含的、以前未知的、具有潜在应用价值的信息,它是知识发现(KDD)过程中最核心的部分。而关联规则的挖掘是数据挖掘的一项重要的任务,用以发现大量数据项集之间的相关联系。Apriori算法在关联规则挖掘中最具代表与影响的一种算法。针对它需要重复的扫描数据库以确定各个候选项集的支持度计数和产生大量候选项集的缺陷

2、,设计出了新的算法Aprior-TID(SransactionIdentifier)算法。本文还将探讨这个算法落实到教育相关领域上的两个具体应用--教育管理决策系统和招生管理系统。关键字:Aprior-TIDS;数据挖掘;教育决策;招生管理;关联规则;1.知识发现与数据挖掘1.1知识发现相关概念自从1989年8月在第11届国际联合人工会议上首次提出知识发现这一概念以来,研究者们给KDD下了很多定义。随着KDD研究的不断深入,对KDD的定义也在不断地改进,以下是目前对KDD比较公认定义:KDD是从大量繁多的数据中提取出可信的、新

3、颖的、有效的并能被人理解的模式的处[1]理过程,这种处理过程是非平凡的过程。KDD是一个多步骤的过程,并且根据实际需要这些步骤可能要多次反复,其主要步骤如图1-1所示:1.准备:了解KDD相关领域的有关情况,熟悉有关的背景知识并了解用户需求。2.筛选:从用户需求出发由数据库中提取出于本次KDD过程相关的数据,此过程主要是对数据库中的原始资源进行提取。3.预处理:初步处理上一步所选择出的数据,包括对数据的完整性与一致性进行检查,文档实用对数据中出现的噪声进行判断并加以去除,对错误和丢失的数据进行修补。4.缩减:对经过预处理数据的

4、数据项,主要通过投影的方式或一些相关的数据库操作减少数据量。5.任务定性:根据用户需求确定KDD的结果属于哪类知识,这是作为选择知识发现算法的依据。6.确定算法:根据上一步所得结果选择适合的算法、模型和参数。7.数据挖掘:利用所选算法,从经过初步处理的数据中提取出用户所需的知识。要求其结果要简单易懂,一般都是一些常用的表达式或产生式。8.模式解释:对发现的模式进行解释。9.评价:将发现的数据以用户易于理解的方式呈现,也包含对知识一致性的检查。图1-1KDD过程从上述对KDD过程的描述可以得出结论:数据挖掘只是知识发现过程中的一

5、个步骤,但它是知识发现过程中最重要的一个步骤。它主要是利用知识发现算法,从数据中发现出有关的知识或模式。1.2数据挖掘的相关概念。数据挖掘(Datamining,简称DM),就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。文档实用数据挖掘过程一般由确定挖掘对象、数据准备、模型建立、数据挖掘、结果分析表述和[2]挖掘应用这几个主要阶段组成。数据挖掘可以描述为这几个阶段的反复过程。首先确定目标、明确数据挖掘任务。(1)数据准备数据准备阶段又可进一

6、步分成四个子步骤数据集成、数据选择、数据预处理和数据转换。A、数据集成。数据集成是将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性,处理数据中的遗漏和清洗数据等。B、数据选择。数据选择指为数据挖掘目标搜集和选择有关的数据,这包括不同格式数据的转换以及不同部门数据的统一和汇总。数据选择的目的是辨别出需要分析的数据集和,缩小处理范围,提高数据挖掘的质量。C、数据预处理。数据预处理是对数据进行清理和充实等工作。数据库中重要的数据是准确的,不重要的数据可能存在污染。预处理就是为了克服目前数据挖掘工具的局限性。D、数据转换

7、。数据转换的一个重要工作就是对数据进行编码。数据库中字段属性的不同取值转换成数码形式经有利于搜索。(2)数据挖掘这个阶段将进行实际的挖掘操作,即利用机器学习、统计分析等方法,从数据库中发现有用的模式或知识这里模式是浓缩数据的信息形式,如精炼数据库、表格、产生式规则、决策树、神经网络的权值等。A、选择数据挖掘方法。如统计分析、机器学习、模式识别方法和人工神经元方法等。B、选择数据挖掘算法。选择用来查找模式或符合数据的模型的算法,确定合适的模型和参数。另外,数据挖掘方法必须和目标相匹配。C、数据挖掘。查找感兴趣的模式。模式一般表示

8、为一种特殊的形式或一套表达方式,如关文档实用联规则,分类规则或分类树,回归结构和聚类集等。除了选择合适的挖掘算法外,其余的一切工作都可自动完成。(3)数据挖掘结果分析表述和挖掘应用A、结果表达。尽量直观的表示挖掘结果,便于用户理解和使用,可利用可视化方法表示为图表等形式。B、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。