数据仓库的数据质量控制研究---开题报告

数据仓库的数据质量控制研究---开题报告

ID:29699445

大小:86.50 KB

页数:4页

时间:2018-12-22

数据仓库的数据质量控制研究---开题报告_第1页
数据仓库的数据质量控制研究---开题报告_第2页
数据仓库的数据质量控制研究---开题报告_第3页
数据仓库的数据质量控制研究---开题报告_第4页
资源描述:

《数据仓库的数据质量控制研究---开题报告》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、厦门大学软件学院《毕业设计(论文)》开题报告学生姓名班级学号指导教师姓名职称教授所在单位厦门大学软件学院毕业设计(论文)题目数据仓库的数据质量控制研究毕业设计(论文)的目标:1.了解数据仓库目前的发展状况和发展趋势,了解数据仓库的数据质量现状,了解国内外对数据仓库的数据质量的研究现状,了解研究数据仓库的数据质量控制所具有的现实意义。2.掌握数据库方面的理论知识,了解在数据库中可能会存在哪些数据质量问题,并对这些问题有全面、深刻的理解,了解针对不同的问题,可以采取哪些有效的解决方法。3.掌握数据仓库方面的理论知识,并具有一定的深度和广度,尤其要全面、系统地掌握有关数据仓库的数据质量

2、方面的知识,深入了解已有的数据质量控制方法以及它们在实际应用中的成效。4.论文能对数据仓库的数据质量问题有侧重点地进行深入地分析、研究和探讨,并有独到的见解。5.论文能综合应用各方面的知识,并从不同的角度提出数据质量的多种控制措施,以此来解决数据质量问题。这些措施应具有一定的新颖性和现实意义。6.论文结构合理,逻辑性强,层次清楚,论据充分。实现方法:一.研究步骤1.收集、阅读大量文献资料,包括国内外对数据库、数据仓库的理论研究资料,尤其是关于数据仓库的数据质量方面的理论研究资料,还有国内外对数据库、数据仓库的实际应用成果(即已成功建设并投入使用的数据库系统、数据仓库系统和决策支持

3、系统)的资料。这些文献资料包括专著、期刊文章、学位论文和电子文献等。注意多收集、阅读一些最新的研究和应用成果的资料,紧跟时代的步伐。在收集、阅读的过程中,对资料进行筛选、分类整理,并加以思考和理解,以此来启发思路。2.接触一些已投入使用的数据库系统,对它们进行实际操作,发现它们中存在的数据质量问题,并对这些问题进行全面、深入地分析和研究,综合应用自己所掌握的有关知识,思考解决这些问题的方法,并通过实际操作验证方法的正确性和有效性。3.在掌握了大量的相关知识后,确定要研究的具体问题和内容,决定采用哪些研究方法,确定合理的、层次分明的论文框架结构。4.开始对自己所要研究的内容按序进行

4、全面、系统、深入地研究、分析和探讨,组织研究成果,按照框架结构来撰写论文。在研究的过程中,不断查阅相关文献资料,在已有的研究成果的基础上,综合应用各方面的知识和多种研究方法,得出关于数据仓库的数据质量问题的正确的、独到的、有价值的研究结论,并从多个方面提出有效的、新颖的、具有现实意义的数据质量的多种控制措施,以此来解决数据质量问题。二.研究的主要内容本文分为五个部分来研究数据仓库的数据质量控制。第一部分为引言,包括三个部分,这三个部分是:1.论文的研究背景。2.数据仓库的数据质量现状分析。3.从三个方面介绍国内外对数据质量的研究现状,这三个方面是:(1)数据质量整体框架和相关模型

5、的研究。(2)数据质量技术手段的研究。(3)数据质量工具的研究。第二部分从五个方面介绍数据仓库的一些基本理论,为研究数据仓库的数据质量奠定基础。这五个方面是:1.数据仓库的产生背景,包括两个部分,这两个部分是:(1)在数据库的基础上产生了数据仓库。(2)数据库与数据仓库的区别。2.数据仓库的定义。3.数据仓库的特征。主要有四个特征:面向主题性、集成性、相对稳定、随时间不断变化。4.数据仓库的体系结构。体系结构主要有七个部分:数据源、数据准备区、元数据库、数据仓库数据库、应用工具、管理工具、数据仓库的用户。5.数据仓库的数据模型。主要有三级数据模型:概念模型、逻辑模型、物理模型。第

6、三部分是本文研究的重点之一,从三个方面深入分析数据仓库的数据质量问题,这三个方面是:1.定义数据质量的衡量指标。它是考察数据质量状况的主要参考。正确地定义数据质量的衡量指标是对数据质量进行控制的基础。2.分析可能发生数据质量问题的位置或过程。3.从两个角度对数据源的数据质量问题进行分类,并对这些问题进行详细地分析。数据源的数据质量是数据仓库的数据质量的一个主要方面。合理地划分数据源的数据质量问题是对数据质量进行控制的重点。这两个角度是:(1)单数据源的数据质量问题。(2)多数据源的数据质量问题。第四部分研究数据仓库的数据质量控制,是本文研究的又一个重点。包括两个部分,这两个部分是

7、:1.阐述数据质量控制的重要性。2.从四个方面提出一些数据质量的控制措施,以此来解决数据质量问题。这是解决数据质量问题的关键所在。这四个方面是:(1)对单数据源的数据质量问题进行控制。初步思路是从两个方面来进行质量控制:一是保证数据录入时的数据质量,二是清理数据源中已有的历史数据。分析数据清理的步骤,并详细分析单数据源中孤立点的检测方法。(2)对ETL过程中的数据质量问题进行控制。初步思路是从两个方面来进行质量控制:一是确保ETL过程的正确性,重点在确保转换过程的正确性;二是选择

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。