欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

mysql 查詢追蹤,數據湖數據倉庫數據中臺

錢瀠龍2年前19瀏覽0評論
mysql 查詢追蹤,數據湖數據倉庫數據中臺?

我們談論數據中臺之前, 我們也聽到過數據平臺、數據倉庫、數據湖的相關概念,它們都與數據有關系,但他們和數據中臺有什么樣的區別, 下面我們將圍繞數據平臺、數據倉庫、數據湖和數據中臺的區別進行介紹。

01 數據倉庫

數據倉庫(Data Warehouse),也稱為企業數據倉庫,它是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合存儲系統,它將來自不同來源的結構化數據聚合起來,用于業務智能領域的比較和分析,數據倉庫是包含多種數據的存儲庫,并且是高度建模的。

數據倉庫系統的作用能實現跨業務條線、跨系統的數據整合,為管理分析和業務決策提供統一的數據支持。數據倉庫能夠從根本上幫助你把公司的運營數據轉化成為高價值的可以獲取的信息(或知識),并且在恰當的時候通過恰當的方式把恰當的信息傳遞給恰當的人。

數據倉庫針對實時數據處理和非結構化數據處理能力較弱,以及在業務在預警預測等方面應用有一定的限制。

02 數據湖

數據湖(Data Lake)是Pentaho公司CTO James Dixon提出來一種數據存儲理念—即在系統或存儲庫中以自然格式存儲數據的方法。數據湖作為一個集中的存儲庫,可以在其中存儲任意規模的結構化和非結構化數據。在數據湖中,可以存儲不需要對其進行結構化的數據,這樣就可以運行不同類型的分析。下面的定義是維基百科所給出的“數據湖”定義。

數據湖(Data Lake)是一個存儲企業的各種各樣原始數據的大型倉庫,其中的數據可供存取、處理、分析及傳輸。數據湖是以其自然格式存儲的數據的系統或存儲庫,通常是對象Blob或文件。數據湖通常是企業所有數據的單一存儲,包括源系統數據的原始副本,以及用于報告、可視化、分析和機器學習等任務的轉換數據。數據湖可以包括來自關系數據庫(行和列)的結構化數據,半結構化數據(CSV,日志,XML,JSON),非結構化數據(電子郵件,文檔,PDF)和二進制數據(圖像,音頻,視頻)。

數據湖能夠幫助企業實現數據的集中式管理等多種能力;數據湖融合了先進的數據科學、機器學習和人工智能技術,幫助企業構建更加優化的數據運營模型,為企業提供預測分析、推薦模型等能力,這些模型能夠刺激企業能力的持續增長,不斷賦能于企業增長。數據湖能從以下方面幫助到企業:

實現數據治理;通過應用機器學習與人工智能技術實現商業智能;預測分析和模型推薦,例如:領域特定的推薦引擎 ;信息追蹤與一致性保障;基于歷史數據分析生成新的數據維度,挖掘數據深度價值;提供集中式存儲的企業數據中心,并提供基于數據傳輸優化的數據服務;協助企業實現靈活的增長決策。03 數據平臺

數據平臺是在大數據基礎上出現的融合了結構化和非結構化數據的數據基礎平臺,為業務提供服務的方式主要是直接提供數據集。

數據平臺的出現是為了解決數據倉庫不能處理非結構化數據和報表開發周期長的問題,所以先撇開業務需求、把企業所有的數據都抽取出來放到一起,成為一個大的數據集,其中有結構化數據、非結構化數據等。當業務方有需求的時候,再把他們需要的若干個小數據集單獨提取出來,以數據集的形式提供給數據應用。

大數據時代,數據平臺一般被稱之為大數據平臺。狹義上的大數據平臺和傳統數據平臺的功能一致,只是技術架構和數據容量方面的不同,但廣義的大數據平臺通常被賦予更多的使命,它不僅存儲多樣化的數據類型,還具有報表分析等數據倉庫的功能,以及其他數據分析挖掘方面的高級功能。

04 數據中臺

數據中臺通過對企業內外部多源異構的數據采集、治理、建模、分析和應用,使數據對內優化管理提高業務價值,對外進行數據合作讓業務價值得到釋放,使之成為企業數據資產管理中樞。數據中臺建立后,會形成數據API服務,為企業和客戶提供高效各種數據服務。

數據中臺對一個企業的數字化轉型和可持續發展起著至關重要的作用。數據中臺為解耦而生,企業建設數據中臺的最大意義就是應用與數據之間的解藕,這樣企業就可以不受限制地按需構建滿足業務需求的數據應用。構建了開放、靈活、可擴展的企業級統一數據管理和分析平臺, 將企業內、外部數據隨需關聯,打破了數據的系統界限。利用大數據智能分析、數據可視化等技術,實現了數據共享、日常報表自動生成、快速和智能分析,滿足企業各級部門之間的數據分析應用需求。深度挖掘數據價值,助力企業數字化轉型落地。實現了數據的目錄、模型、標準、認責、安全、可視化、共享等管理,實現數據集中存儲、處理、分類與管理,建立大數據分析工具庫、算法服務庫,實現報表生成自動化、數據分析敏捷化、數據挖掘可視化,實現數據質量評估、落地管理流程。05 數據倉庫 VS 數據湖

相較而言,數據湖是較新的技術,擁有不斷演變的架構。數據湖存儲任何形式(包括結構化和非結構化)和任何格式(包括文本、音頻、視頻和圖像)的原始數據。根據定義,數據湖不會接受數據治理,但專家們一致認為良好的數據管理對預防數據湖轉變為數據沼澤不可或缺。數據湖在數據讀取期間創建模式。與數據倉庫相比,數據湖缺乏結構性,而且更靈活,并且提供了更高的敏捷性。值得一提的是,數據湖非常適合使用機器學習和深度學習來執行各種任務,比如數據挖掘和數據分析,以及提取非結構化數據等。

06 數據倉庫 VS 數據平臺

由于數據倉庫具有歷史性的特性,其中存儲的數據大多是結構化數據;而數據平臺的出現解決了數據倉庫不能處理非結構化數據和報表開發周期長的問題。

通過以上的論述,我們發現數據平臺和數據湖好像存在諸多相似性,這二者之間的區別,從個人角度理解上分析應該是數據加工的角度不同,數據湖更著重于對原始數據的存儲,而數據平臺則同數據倉庫一樣,需對原始數據進行清洗、轉換等數據處理后按照統一的標準規范進行存儲。

07 數據倉庫 VS 數據中臺

數據倉庫和傳統的數據平臺,其出發點為一個支撐性的技術系統,即一定要先考慮我具有什么數據,然后我才能干什么,因此特別強調數據質量和元數據管理;而數據中臺的第一出發點不是數據而是業務,一開始不用看你系統里面有什么數據,而是去解決你的業務問題需要什么樣的數據服務。

在具體的技術處理環節,二者也有明顯不同,數據的預處理流程正在從傳統的ETL結構向ELT結構轉變。傳統的數據倉庫集成處理架構是ETL結構,這是構建數據倉庫的重要一環,即用戶從數據源抽取出所需的數據,經過數據清洗,將數據加載到數據倉庫中去。而大數據背景下的架構體系是ELT結構,其根據上層的應用需求,隨時從數據中臺中抽取想要的原始數據進行建模分析。

08 總結

根據以上數據平臺、數據倉庫、數據湖和數據中臺的概念論述和對比,我們進行如下總結:

數據中臺、數據倉庫和數據湖沒有直接的關系;數據中臺、數據平臺、數據倉庫和數據湖在某個維度上為業務產生價值的形式有不同的側重;數據中臺是企業級的邏輯概念,體現企業數據向業務價值轉化的能力,為業務提供服務的主要方式是數據 API;數據平臺是在大數據基礎上出現的融合了結構化和非結構化數據的數據基礎平臺,為業務提供服務的方式主要是直接提供數據集;數據中臺距離業務更近,能夠更快速的響應業務和應用開發需求,從而為業務提供速度更快的服務;數據中臺可以建立在數據倉庫和數據平臺之上,是加速企業從數據到業務價值的過程的中間層。