數據倉庫,是為企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它是單個數據存儲,出于分析性報告和決策支持目的而創建。既然要獲取全部數據,必然涉及到多系統,各類型數據庫的對接問題,還有數據抽取、整理的問題。
這時候ETL工具的作用就集中體現出來了,數據的抽取、轉換、加載直到供人們去分析使用,ETL就是數據抽取、轉換、加載的過程。
有些地方可能選擇的是ELT,先加載在轉換。對數倉來說,ETL首先要考慮業務需求,最后數據落地模型,要體現某種主題。
然后從數據源考慮哪些字段是可以用的,在進行ETL。現在ETL工具很多,所以編程能力很難在這方面體現出來,對于公司來說,更看重的是ETL的思路。
通俗的想,數據倉庫就像大水池,給水池蓄水需要泵和水管,那ETL就是承擔泵和水管的功能。