人保财险公司数据仓库数据etl的设计

人保财险公司数据仓库数据etl的设计

ID:31361827

大小:106.50 KB

页数:6页

时间:2019-01-09

人保财险公司数据仓库数据etl的设计_第1页
人保财险公司数据仓库数据etl的设计_第2页
人保财险公司数据仓库数据etl的设计_第3页
人保财险公司数据仓库数据etl的设计_第4页
人保财险公司数据仓库数据etl的设计_第5页
资源描述:

《人保财险公司数据仓库数据etl的设计》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、人保财险公司数据仓库数据ETL的设计  摘要:本文探讨了人保财险公司建立数据仓库时如何进行数据导入的设计,阐述了数据导入的设计基础和数据加载的策略。  关键词:数据仓库;抽取;加载  中图分类号:TP311.13  在进行人保财险公司数据仓库整体架构的设计时,对数据库的访问必须保持较高的访问效率,还必须满足多个用户对数据库的并发访问,这样才能保证整个数据库系统稳定安全的运行。在数据仓库的模型和结构体系的设计确定之后,就应该具体实现数据仓库。数据ETL是数据仓库最重要最基础的部分,也是数据仓库数据处

2、理正确一致、完整、可靠的技术保障。只有数据ETL具备良好的性能才能保证整个数据仓库系统高效的运行,才能得到最终正确恰当的数据分析结果。  1设计原则  (1)模块化的系统设计。采用模块化设计,首先可以严格区分管理控制和数据处理,其次采用松散度相对较高的模块设计可以解决由于数据源不断扩大导致系统必须进行不断扩充才能满足日益增加的系统扩展的需求的问题。6  (2)统一的调配与控制。采用统一的调配与控制是为了给数据ETL的高效运行提供有力的技术管理保障。在统一管理模式的控制下,处于数据ETL每一个周期的

3、任务状态和运行情况及出错信息都能直观的显现出来。  (3)高效的ETL加载策略。高效率的ETL加载策略,能够缩短ETL的加载时间,从而提高ETL过程的效率。解决在数据导入层数据处理环节多,数据吞吐量大的问题。ETL的基本原则是尽量发挥Teradata在性能方面的优势,实现对大数据量进行数据统计、分析、汇合、改换等各种繁琐计算的操作。  (4)安全的用户管理。在数据仓库数据ETL的整个运行过程中,不同的ETL环节都有数据的传输与交流,所以数据本身的安全性就显得特别重要。只有对数据库用户的口令进行加密

4、保护并妥善保存,才能保障在进行数据的加载与转换时指定数据库用户的数据访问的安全性。  (5)便捷的消息通知机制。ETL的设计体系应该有特定部分可以完成及时把任务的执行情况通知负责ETL加载运行和维护的人员的功能,此项作用由消息通知机制来实现。消息通知机制采用邮件或短消息等形式,把每天ETL任务的执行情况和出错警报信息通知相关维护人员。  2数据抽取  数据抽取是数据进入数据仓库的第一项操作,数据抽取模式设计的是否恰当,决定了数据的数量是否合理数据的质量是否能够满足使用需求。以下将探讨增量抽取的技术

5、方案,增量抽取是抽取系统不断变化的数据,这里将探讨数据上次抽取和装载任务完成后的日常抽取工作。技术方案的具体内容是:6  (1)时间戳,时间戳是为了记录新记录的加入时间和原有记录内容的调整时间及用户的关联信息,增量抽取数据时,可以查询源表的时间戳就可以完成。  (2)扫描增量文件,由相应的应用程序自动生成增量文件,增量文件记录数据应用过程中的变化,通过增量文件的内容既可以获得增量数据。  (3)扫描日志文件,日志文件内记录了最近发生变化的数据。  (4)设立触发器,在源表中建立一个触发器,每当在源

6、表中插入、更新或删除一条记录时,即数据发生变化时,触发触发器,生成一个表或文件存储新增加的数据或有变化的数据;  (5)映像文件比较,用原有的映像文件与新生成的映像文件进行比较,从比较结果中分析获取哪些数据发生了变化。  对几种方案进行分析比较,采用增量文件的方案需购买其它相关厂商的产品;映像文件进行原有映像文件和新生成映像文件比较时,要耗费巨大的软硬件资源才能够实现,从技术角度考虑实现比较困难,一般不采用此方案;而时间戳、日志文件进行扫描和设立触发器这三种方案实现比较容易而且性能比较高。考虑技术

7、可行性和保险公司的数据仓库需求,最后选用时间戳和触发器相结合的方案实现数据的增量抽取功能。具体做法是对业务处理系统表的结构进行调整,添加记录的最后修改时间和数据提取时间等字段作为时间戳。当数据记录有调整时,由触发器负责实现把修改时间等信息记录在业务处理系统表的时间戳字段。最后提取时间表的字段设计如表1所示。  表1最后提取时间表字段设计  BeginStatDateDATETIMEYEARTOSECOND最后提取开始时间  EndStatDateDATETIMEYEARTOSECOND最后提取结束

8、时间6  EndAlterDaterDATETIMEYEARTOSECOND最后修改时间  FlagCHAR(1)标志字段  但是数据抽取也必须解决以下问题:  (1)数据信息不完整。例如有些数据为空值,是因为有时根据实际需要赋了空值,但数据查询时空值无法完成,此时可以用默认值代替或用其它数据进行计算处理来生成等方式实现不完整信息的填充。例如,人员年龄字段为空值,可以由相应身份证号码中的出生日期计算出来。  (2)拼写不规则导致的错误数据。拼写不规则主要是指在对同一字段的值进行填充

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。