etl大數據分析方法?
ETL是將業務系統的數據經過抽取、清洗轉換之后加載到數據倉庫的過程,目的是將企業中的分散、零亂、標準不統一的數據整合到一起,為企業的決策提供分析依據。 ETL是BI項目重要的一個環節。 通常情況下,在BI項目中ETL會花掉整個項目至少1/3的時間,ETL設計的好壞直接關接到BI項目的成敗。
ETL的設計分三部分:數據抽取、數據的清洗轉換、數據的加載。在設計ETL的時候我們也是從這三部分出發。數據的抽取是從各個不同的數據源抽取到ODS(Operational Data Store,操作型數據存儲)中——這個過程也可以做一些數據的清洗和轉換),在抽取的過程中需要挑選不同的抽取方法,盡可能的提高ETL的運行效率。ETL三個部分中,花費時間最長的是“T”(Transform,清洗、轉換)的部分,一般情況下這部分工作量是整個ETL的2/3。數據的加載一般在數據清洗完了之后直接寫入DW(Data Warehousing,數據倉庫)中去。
ETL的實現有多種方法,常用的有三種。一種是借助ETL工具(如Oracle的OWB、SQL Server 2000的DTS、SQL Server2005的SSIS服務、Informatic等)實現,一種是SQL方式實現,另外一種是ETL工具和SQL相結合。前兩種方法各有各的優缺點,借助工具可以快速的建立起ETL工程,屏蔽了復雜的編碼任務,提高了速度,降低了難度,但是缺少靈活性。SQL的方法優點是靈活,提高ETL運行效率,但是編碼復雜,對技術要求比較高。第三種是綜合了前面二種的優點,會極大地提高ETL的開發速度和效率。