大数据迁移研究-论文.pdf

大数据迁移研究-论文.pdf

ID:58210645

大小:231.59 KB

页数:3页

时间:2020-04-27

大数据迁移研究-论文.pdf_第1页
大数据迁移研究-论文.pdf_第2页
大数据迁移研究-论文.pdf_第3页
资源描述:

《大数据迁移研究-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、璃⋯⋯一~一舾⋯⋯⋯,一.一⋯一一.,⋯一~一⋯《j、』iANCOl』T旺辩大数据迁移研究陈惠敏,李晓玲:(1武汉商学院湖北武汉430056;2中原工学院信息商务学院河南郑州450007)【摘要】:随着信息采集机制的演变,存储和数据库技术的进步,产生了大量异构信息,整合和使用这些信息成为了巨大的挑战。大数据是指庞大的,有异质数据字典且包含复杂操作的数据。数据迁移是指将数据从一个系统或多个系统迁移至一个新环境的过程。大数据由于自身的特点,迁移过程极其复杂,需要一个行之有效的方法和系统来管理这个过程。本文就是探讨如何行之有效的进

2、行大数据的迁移,并确保信息迁移的完成以及数据的高准确性和一致性。【关键词】:大数据;数据迁移;数据清洗。引言表1数据迁移任务表随着信息采集机制的演变,存储和数据库技术的任务具体内容确定数据迁移范围进步,信息呈爆发式增长,导致传统的信息和通信技确定风险、约束、依赖和假设术无法处理他们。据IDC预测,到2020年,数据将会数据迁移项目计划建立数据迁移风险应对计划建立数据迁移操作程序从2011年的1.8ZB(1.8万亿GB)增长至40ZB(40万建立数据迁移通信计划亿GB)。企业或机构在获取、操作、存储、搜索、检索、共确定关键路径

3、和成功因素享、转移、分析大数据以及大数据的可视化上存在很确定业务需求和期望确定数据迁移需求确定技术和IT基础设施的需求大难度,特别是数据体积庞大,且存在大量异构信息,确定数据安全和隐私要求数据操作包含繁多和复杂的业务规则时,整合和使用识别和收集已存在的数据相关文件评估流量和目标环境识别和收集目标数据相关文件这些数据就成了巨大的挑战。为数据结构的当前状态设计蓝图确定数据迁移技术迁移是将电子数据从原始系统数据环境移入新确定数据迁移时间表系统数据环境中}1_,通常是部署企业级应用的一项子数据迁移计划确定数据迁移方法确定数据清洗方法

4、活动。为了保证业务的连续性,数据迁移过程中要保确定数据质量计划证没有数据丢失,没有数据被污染,并且数据的变化角色及责任定义和分配确定负责人符合规则。确定角色和职责大数据迁移过程分为数据迁移计划、数据迁移分导规则和数据字典。分析可以帮助理解异常,评估数析、数据检测和清洗、数据迁移以及数据迁移后续工据质量,还可以获取、登记和评估企业元数据。作5个步骤。大数据迁移分析过程分为以下几步:1大数据迁移计划f11初步数据分析对一个数据迁移项目而言,首先就是要进行需求初步数据分析可以帮助数据迁移团队熟悉元数分析。大数据迁移计划阶段主要是关

5、注数据迁移的范据及数据集合的定义,并评价样本数据。它能给出一围、来源以及目标环境。在这个阶段要整理出系统或个早期的提示,正确的数据在程序中是否有效,潜在是数据源的完整清单。的异常是否能马上处理。数据迁移计划阶段的任务及具体内容如表1所f2)数据分析会议不。数据分析会议是数据迁移团队和数据所有者(技2大数据迁移分析术和商业)之间的交互式会话,交流和澄清数据迁移数据迁移分析是一个研究和理解原系统数据的要求和期望,并研究业务的需求和数据,业务的历史。过程,这个过程需要明确数据的结构、内容、关系、推可以按不同的原系统或是业务模块来组

6、织数据分析2014年第4期l福建电脑·97·~—r一~一⋯一会议。加载过程中出现的ETL(extract、transform、load)异f3)详细数据分析常,应该制作报告并且提交给数据所有者去修正。修详细的数据分析是一个过程,包括了对每个表的正原系统中的异常后,再重新提取数据加载到Tl数元数据,检测规则,行为要求特性的详细分析。详细数据库里。T1数据库的记录数必须与源数据库的记录数据分析过程中要执行多次迭代。匹配。详细的数据分析从研究表的类型开始。表可以分(21T2数据库为事务表、不活跃事务表、引用静态表、引用动态表以T2

7、数据库与Tl数据库或源数据库中数据结构及临时表五种类型。表类型的研究有助于确定表的处可能不完全相同。所有的数据操作、转换和检测都在理方式,根据表的不同类型可以将表的处理方式分为T2数据库中执行。有些表结构会改变以适应检测要原状态迁移、待清洁、待合并和不可迁移四种。求,比如增加列,与其他的表合并,或分割为多个表等“待清洁”的表将是处理的重点和难点。凡是被等。确定为“待清洁”的表,其元数据会被详细分析,按照f3)T3数据库表2所示的分类标准【2】进行检测。T3数据库包含所需的最终表,T3数据库中的数表2数据分类标准表据和信息应该

8、是最终产品数据库中定义的结构和格分类标准式。空值字段为Null或空白值。3.2异常检测无效值字段值与数据类型或格式不符。异常检测是执行在数据分析过程中确定的数据横向约束字段值不符合在同一表中的其他字段值参考检测规则的过程。异常检测通常会按照表3的标准进检查后公认的记录模式。行检测。状态检查

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。