资源描述:
《数据仓库的数据抽取技术研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、娜0.J.刊计算机工程2004年12月峋LJOS“打忍侧君ComPuterEngineeringDeCember2004。·,1042:A:·软件技术与橄据库文号28(204)幼刊62司文傲标识码中口分类号TP311吸3二~诩数据仓库的数据抽取技术研究钟巧华,(上海交通大学软件学院上海200030):,、、、、摘井介绍了数据抽取的几种技术包括静态数据的捕获通过日志文件捕获通过数据库触发器捕获基于R期和时间标记的捕获在源应用程序中捕获、通过文件的比较捕获。阐述了各种技术的优缺点,以及在实际环境中对各
2、种技术的选择。:数据仓库;数据;关住侧抽取捕获DataExtraetionTechniquesResearehonDataWarehouseZHONGQ妞ohuaeoooo,,(ShlfsftwareShanaijiaotongUni姆rsityShanghai20o030)gh,^bstraetThisartieleintrodueesdataextraetionreehnique,ineludingeaptu化orstatiedata.eapturethroutransaetio.ll51、l
3、eseapturethrou1I1gh姐乡·,.,,dbasetr乃caPturebasedondateandtimestamPeaPtUreinsoureeaPPlicationscaPturebyeParingfiles1hePaPerdiscossestheadva‘,ta罗5atiggeomsvantaeso亡一Itteenu,aoeceeocnenvnen.anddiadgfthdiferehiqesndhwtomakhoifthmipraeticaliromtK叮wosDwhse;Da
4、taoxtraetio。;care【rdlat眠ouPtu,在数据仓库的开发过程中数据的抽取是非常耗费时、。,间人力的由于数据仓库是一个独立的数据环境它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据的抽取是数据进一回,1)通过文易入仓库的入口有效的数据抽取对于数据仓库的成功非常日志捕获。”关恻1徽据抽取LI声绍抓的分析确认,,触发程序在数据抽取之前必须了解源数据的性质而且还要了愉出文件解抽取的数据是如何使用的。源数据的复杂性、规模、完整性对建立数据仓
5、库的影响比其它因素要大。要格外注意哪些效姗级存区城数据源的数据类型、粒度和内容是兼容的。数据的抽取依赖。:于数据是如何存储在源系统中的圈I即时橄据抽准可选方抉1.2盆拐拍琅技术下面讨论这两种选择。,在知道数据是如何存储在源系统中之后现在来讨论数l)通过交易日志捕获据抽取的普通技术。从源操作型系统中抽取数据,主要有两这种方法使用了数据库管理系统中保存的。日志文件因种类型,分别是静态数据和修。,正数据为它是数据库的固有机制所以在源操作型系统中没有额外1.2.1静态的数据捕获的开销。日志文件的格式是依据
6、数据库系统的要求而确定静态盘据是在。,。一个给定时刻捕获的数据就像是相关数的它包含的数据对于数据仓库而言可能有许多冗余比据源数据在某个特定时刻的快照。一般在数据仓库的初始装如,对一个记录的多次更新,日志文件将全部变化过程都记,,。载时使用静态数据捕获;另外有时会需要完全刷新一张维录下来;而对于数据仓库只需要最终结果必须保证在日,,,度表对于那些需要完全修改的数据也应该进行静态数据志文件刷新之前已经抽取了所有的记录因为在磁盘中存储,,捕获。的日志文件会装满里面的内容会备份到其他介质中日志!.2.2追
7、加的数据捕获文件被重新使用。,,,。修正数据也称为追加的数据严格说来它并不是增加例如。racle流就支持基于日志的变更捕获。racle数据的数,。,据而是最后一次捕获数据后的修正追加的数据捕获库提供了辅助的日志记录功能它可以将附加信息如主键列,。可能是立刻进行的或者是延缓的。记录到重做流中以有助于这些信息的传递捕获处理首先,(l)即时的数据抽取捕获从重做日志中提取出来的变更数据将其格式化为逻辑,。,。在这个方法中数据抽取是实时的当交易发生时就变更记录(LCR)的格式然后将其放入存储区中以备进步会在
8、源数据库或文件中发生。在即时的数据捕获中,有通过、。:,,,:交易日志捕获从数据库触发器中捕获两种选择图!就是作者钧介钟巧华(l978一)男工程硕士生研究方向数据川。即时数据抽取的可选方法技术:2004一08收摘日期一5一62一地使用。捕获处理可以基于定义好的规则智能化地过滤3)从源应用程序中捕获R,。,Lc从而可仅使所需对象的变更被捕获这种技术生成的文件也叫OELTA文件即记录源系统2)从数据库触发器中捕获修改部分的文件。文件记录了应用所改变的所有内容。利,,。触发器是存储在数据