ETL工具的典型代表主要有什么?
Extraction-Transformation-Loading的縮寫,中文名稱為數(shù)據(jù)提取、轉(zhuǎn)換和加載。 ETL工具有:OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、Informatic PowerCenter、Trinity、AICloudETL、DataStage、Repository Explorer、Beeload、Kettle、DataSpider
目前,ETL工具的典型代表有:Informatica、Datastage、OWB、微軟DTS、Beeload、Kettle……
開源的工具有eclipse的etl插件。cloveretl.
數(shù)據(jù)集成:快速實現(xiàn)ETL
ETL的質(zhì)量問題具體表現(xiàn)為正確性、完整性、一致性、完備性、有效性、時效性和可獲取性等幾個特性。而影響質(zhì)量問題的原因有很多,由系統(tǒng)集成和歷史數(shù)據(jù)造成的原因主要包括:業(yè)務(wù)系統(tǒng)不同時期系統(tǒng)之間數(shù)據(jù)模型不一致;業(yè)務(wù)系統(tǒng)不同時期業(yè)務(wù)過程有變化;舊系統(tǒng)模塊在運營、人事、財務(wù)、辦公系統(tǒng)等相關(guān)信息的不一致;遺留系統(tǒng)和新業(yè)務(wù)、管理系統(tǒng)數(shù)據(jù)集成不完備帶來的不一致性。
實現(xiàn)ETL,首先要實現(xiàn)ETL轉(zhuǎn)換的過程。它可以集中地體現(xiàn)為以下幾個方面:
1、空值處理:可捕獲字段空值,進行加載或替換為其他含義數(shù)據(jù),并可根據(jù)字段空值實現(xiàn)分流加載到不同目標(biāo)庫。
2、規(guī)范化數(shù)據(jù)格式:可實現(xiàn)字段格式約束定義,對于數(shù)據(jù)源中時間、數(shù)值、字符等數(shù)據(jù),可自定義加載格式。
3、拆分數(shù)據(jù):依據(jù)業(yè)務(wù)需求對字段可進行分解。例,主叫號 861082585313-8148,可進行區(qū)域碼和電話號碼分解。
4、驗證數(shù)據(jù)正確性:可利用Lookup及拆分功能進行數(shù)據(jù)驗證。例如,主叫號861082585313-8148,進行區(qū)域碼和電話號碼分解后,可利用Lookup返回主叫網(wǎng)關(guān)或交換機記載的主叫地區(qū),進行數(shù)據(jù)驗證。
5、數(shù)據(jù)替換:對于因業(yè)務(wù)因素,可實現(xiàn)無效數(shù)據(jù)、缺失數(shù)據(jù)的替換。
6、Lookup:查獲丟失數(shù)據(jù) Lookup實現(xiàn)子查詢,并返回用其他手段獲取的缺失字段,保證字段完整性。
7、建立ETL過程的主外鍵約束:對無依賴性的非法數(shù)據(jù),可替換或?qū)С龅藉e誤數(shù)據(jù)文件中,保證主鍵唯一記錄的加載。