欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

如何構(gòu)建企業(yè)數(shù)據(jù)倉庫

洪振霞2年前34瀏覽0評論

如何構(gòu)建企業(yè)數(shù)據(jù)倉庫?

大數(shù)據(jù)時代,如何構(gòu)建企業(yè)數(shù)據(jù)倉庫?個人認(rèn)為,目前數(shù)據(jù)倉庫類型主要分為兩種,一種是離線數(shù)據(jù)倉庫,一種是實(shí)時數(shù)據(jù)倉庫,這兩種數(shù)據(jù)倉庫的主要區(qū)別在于業(yè)務(wù)對于數(shù)據(jù)計算延遲的敏感度。離線數(shù)據(jù)倉庫一般計算的數(shù)據(jù)是 T-1天,既今天只能看到昨天的計算數(shù)據(jù),適合對數(shù)據(jù)產(chǎn)出時間不是那么敏感的業(yè)務(wù),比如你現(xiàn)在看到的一些網(wǎng)站對你文章閱讀量的統(tǒng)計信息。實(shí)時數(shù)倉在于對數(shù)據(jù)的實(shí)時性計算,業(yè)務(wù)同學(xué)可以實(shí)時監(jiān)測到業(yè)務(wù)指標(biāo)的變化,從而及時的做出相應(yīng)決策來應(yīng)對業(yè)務(wù)的調(diào)整。這兩種數(shù)倉雖然從技術(shù)實(shí)現(xiàn)上有一定差異,但是整體模型構(gòu)建上,卻有很多的相似點(diǎn)。

離線數(shù)據(jù)倉庫設(shè)計

離線數(shù)據(jù)倉庫的設(shè)計,主要分為三層結(jié)構(gòu),ODS層(原始數(shù)據(jù)層),DWD層(公共明細(xì)層)和DWS(公共匯總層),APP層(業(yè)務(wù)數(shù)據(jù)應(yīng)用層)。一般ODS層的數(shù)據(jù)是直接來源于線上業(yè)務(wù),沒有經(jīng)過任何的加工處理,所以你在進(jìn)行模型構(gòu)建的時候,第一步需要對ODS層的數(shù)據(jù)進(jìn)行處理轉(zhuǎn)換,加工出你所需要的數(shù)據(jù)。

開發(fā)同學(xué)在進(jìn)行模型構(gòu)建時,要盡可能保證自己開發(fā)出的數(shù)據(jù)模型的公用性,這樣你開發(fā)出來的數(shù)據(jù)更好的具有統(tǒng)一性,保證計算邏輯的統(tǒng)一,其次別的同學(xué)也可以使用你的數(shù)據(jù),進(jìn)一步降低口徑不一致所帶來的問題,同時也便于你維護(hù)你所開發(fā)出來的數(shù)據(jù)。所以DWD層和DWS層所做的事情就是維護(hù)數(shù)據(jù)的統(tǒng)一,同時,也進(jìn)一步降低了任務(wù)計算的成本,因?yàn)橛嬎懔枯^大的任務(wù)都做成公共層,每天只計算一次,而不是每個同學(xué)都去計算。

APP層是對DWD層或者DWS層的數(shù)據(jù)的應(yīng)用,一般如果有業(yè)務(wù)方或者BI同學(xué)找你要數(shù)據(jù)時,可以讓他們的數(shù)據(jù)任務(wù)直接從DWD或者DWS層取出相關(guān)的指標(biāo)數(shù)據(jù),指標(biāo)具體怎么拼接,怎么使用,交給業(yè)務(wù)方來具體使用,你只需要提供公共數(shù)據(jù)就可以了。

實(shí)時數(shù)據(jù)倉庫設(shè)計

實(shí)時數(shù)據(jù)倉庫的設(shè)計和離線數(shù)據(jù)倉庫的整體架構(gòu)很類似,不過實(shí)時數(shù)據(jù)倉庫使用消息中間件來進(jìn)行數(shù)據(jù)的傳輸。實(shí)時數(shù)據(jù)倉庫一般需要使用實(shí)時計算引擎(比如Flink)、消息中間存儲(Kakfa消息中間件)、計算結(jié)果存儲(HBase,HDFS等等)。整體上實(shí)時數(shù)據(jù)倉庫也可以分為三層,ODS、DWD和DWS層、APP層。線上業(yè)務(wù)數(shù)據(jù)直接到Kafka或者其他的消息存儲系統(tǒng),使用Flink實(shí)時消費(fèi)數(shù)據(jù)計算,然后計算的中間結(jié)果存儲到HBase或者繼續(xù)使用Kafka來進(jìn)行存儲,最后使用統(tǒng)一的接口服務(wù)層(比如 OneService) 為業(yè)務(wù)使用方提供Dubbo接口獲取指標(biāo)數(shù)據(jù),前段在進(jìn)行展示。數(shù)據(jù)同學(xué)在開發(fā)實(shí)時任務(wù)時,也應(yīng)該考慮到數(shù)據(jù)任務(wù)通用性、可維護(hù)性、降低計算資源成本,一次開發(fā),都可以使用,畢竟實(shí)時計算任務(wù)消耗的集群資源還是很大的。

總結(jié)

實(shí)時數(shù)倉和離線數(shù)倉從整體架構(gòu)設(shè)計上很類似,雖然在底層實(shí)現(xiàn)所用到的技術(shù)有很大差異,但是思想都是不變的。數(shù)據(jù)倉庫最終的目的是為業(yè)務(wù)服務(wù),更好的指導(dǎo)業(yè)務(wù)的運(yùn)營和發(fā)展,所以在開發(fā)數(shù)據(jù)任務(wù)的同時,也要考慮到業(yè)務(wù)方使用是否方便、數(shù)據(jù)準(zhǔn)確等。

我是Lake,專注大數(shù)據(jù)技術(shù)、程序員經(jīng)驗(yàn)、互聯(lián)網(wǎng)科技見解分享。如果我的問答對你有幫助的話,歡迎你點(diǎn)贊轉(zhuǎn)發(fā)或者關(guān)注我,你的一個小小的鼓勵,就是我持續(xù)分享的動力,感謝。