網(wǎng)站導(dǎo)航

大數(shù)據(jù)處理的流程是什么？

什么是大數(shù)據(jù)：大數(shù)據(jù)（bigdata），指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合，是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。

大數(shù)據(jù)的5V特點(diǎn)：Volume（大量）、Velocity（高速）、Variety（多樣）、Value（低價(jià)值密度）、Veracity（真實(shí)性），百度隨便找找都有。

大數(shù)據(jù)處理流程：

1.是數(shù)據(jù)采集,搭建數(shù)據(jù)倉(cāng)庫(kù)，數(shù)據(jù)采集就是把數(shù)據(jù)通過(guò)前端埋點(diǎn)，接口日志調(diào)用流數(shù)據(jù)，數(shù)據(jù)庫(kù)抓取，客戶自己上傳數(shù)據(jù)，把這些信息基礎(chǔ)數(shù)據(jù)把各種維度保存起來(lái)，感覺(jué)有些數(shù)據(jù)沒(méi)用（剛開(kāi)始做只想著功能，有些數(shù)據(jù)沒(méi)采集，后來(lái)被老大訓(xùn)了一頓）。

2.數(shù)據(jù)清洗/預(yù)處理：就是把收到數(shù)據(jù)簡(jiǎn)單處理，比如把ip轉(zhuǎn)換成地址，過(guò)濾掉臟數(shù)據(jù)等。

3.有了數(shù)據(jù)之后就可以對(duì)數(shù)據(jù)進(jìn)行加工處理，數(shù)據(jù)處理的方式很多，總體分為離線處理，實(shí)時(shí)處理，離線處理就是每天定時(shí)處理，常用的有阿里的maxComputer,hive,MapReduce,離線處理主要用storm,spark,hadoop,通過(guò)一些數(shù)據(jù)處理框架，可以吧數(shù)據(jù)計(jì)算成各種KPI,在這里需要注意一下，不要只想著功能，主要是把各種數(shù)據(jù)維度建起來(lái)，基本數(shù)據(jù)做全，還要可復(fù)用，后期就可以把各種kpi隨意組合展示出來(lái)。

4.數(shù)據(jù)展現(xiàn)，數(shù)據(jù)做出來(lái)沒(méi)用，要可視化，做到MVP，就是快速做出來(lái)一個(gè)效果，不合適及時(shí)調(diào)整，這點(diǎn)有點(diǎn)類似于Scrum敏捷開(kāi)發(fā)，數(shù)據(jù)展示的可以用datav，神策等，前端好的可以忽略，自己來(lái)畫頁(yè)面。

數(shù)據(jù)采集：

1.批數(shù)據(jù)采集，就是每天定時(shí)去數(shù)據(jù)庫(kù)抓取數(shù)據(jù)快照，我們用的maxComputer，可以根據(jù)需求，設(shè)置每天去數(shù)據(jù)庫(kù)備份一次快照，如何備份，如何設(shè)置數(shù)據(jù)源，如何設(shè)置出錯(cuò)，在maxComputer都有文檔介紹，使用maxComputer需要注冊(cè)阿里云服務(wù)

2.實(shí)時(shí)接口調(diào)用數(shù)據(jù)采集，可以用logHub,dataHub,流數(shù)據(jù)處理技術(shù),DataHub具有高可用，低延遲，高可擴(kuò)展，高吞吐的特點(diǎn)。

高吞吐：最高支持單主題（Topic）每日T級(jí)別的數(shù)據(jù)量寫入，每個(gè)分片（Shard）支持最高每日8000萬(wàn)Record級(jí)別的寫入量。

實(shí)時(shí)性：通過(guò)DataHub，您可以實(shí)時(shí)的收集各種方式生成的數(shù)據(jù)并進(jìn)行實(shí)時(shí)的處理，

設(shè)計(jì)思路：首先寫一個(gè)sdk把公司所有后臺(tái)服務(wù)調(diào)用接口調(diào)用情況記錄下來(lái)，開(kāi)辟線程池，把記錄下來(lái)的數(shù)據(jù)不停的往dataHub,logHub存儲(chǔ)，前提是設(shè)置好接收數(shù)據(jù)的dataHub表結(jié)構(gòu)

3.前臺(tái)數(shù)據(jù)埋點(diǎn)，這些就要根據(jù)業(yè)務(wù)需求來(lái)設(shè)置了，也是通過(guò)流數(shù)據(jù)傳輸?shù)綌?shù)據(jù)倉(cāng)庫(kù)，如上述第二步。

數(shù)據(jù)處理：

數(shù)據(jù)采集完成就可以對(duì)數(shù)據(jù)進(jìn)行加工處理，可分為離線批處理，實(shí)時(shí)處理。

1.離線批處理maxComputer，這是阿里提供的一項(xiàng)大數(shù)據(jù)處理服務(wù)，是一種快速，完全托管的TB/PB級(jí)數(shù)據(jù)倉(cāng)庫(kù)解決方案，編寫數(shù)據(jù)處理腳本，設(shè)置任務(wù)執(zhí)行時(shí)間，任務(wù)執(zhí)行條件，就可以按照你的要求，每天產(chǎn)生你需要數(shù)據(jù)

2.實(shí)時(shí)處理：采用storm/spark,目前接觸的只有storm,strom基本概念網(wǎng)上一大把，在這里講一下大概處理過(guò)程，首先設(shè)置要讀取得數(shù)據(jù)源，只要啟動(dòng)storm就會(huì)不停息的讀取數(shù)據(jù)源。Spout，用來(lái)讀取數(shù)據(jù)。Tuple：一次消息傳遞的基本單元，理解為一組消息就是一個(gè)Tuple。stream,用來(lái)傳輸流，Tuple的集合。Bolt：接受數(shù)據(jù)然后執(zhí)行處理的組件,用戶可以在其中執(zhí)行自己想要的操作。可以在里邊寫業(yè)務(wù)邏輯，storm不會(huì)保存結(jié)果，需要自己寫代碼保存，把這些合并起來(lái)就是一個(gè)拓?fù)洌傮w來(lái)說(shuō)就是把拓?fù)涮峤坏椒?wù)器啟動(dòng)后，他會(huì)不停讀取數(shù)據(jù)源，然后通過(guò)stream把數(shù)據(jù)流動(dòng)，通過(guò)自己寫的Bolt代碼進(jìn)行數(shù)據(jù)處理，然后保存到任意地方，關(guān)于如何安裝部署storm，如何設(shè)置數(shù)據(jù)源，網(wǎng)上都有教程，這里不多說(shuō)。

數(shù)據(jù)展現(xiàn)：做了上述那么多，終于可以直觀的展示了，由于前端技術(shù)不行，借用了第三方展示平臺(tái)datav,datav支持兩種數(shù)據(jù)讀取模式，第一種，直接讀取數(shù)據(jù)庫(kù)，把你計(jì)算好的數(shù)據(jù)，通過(guò)sql查出，需要配置數(shù)據(jù)源，讀取數(shù)據(jù)之后按照給定的格式，進(jìn)行格式化就可以展現(xiàn)出來(lái)

@jiaoready@jiaoready第二種采用接口的形式，可以直接采用api，在數(shù)據(jù)區(qū)域配置為api，填寫接口地址，需要的參數(shù)即可，這里就不多說(shuō)了。

這次先記錄這么多，以后再補(bǔ)充，內(nèi)容為原創(chuàng)，若是有不對(duì)的地方還請(qǐng)?jiān)u論糾正。

數(shù)據(jù)數(shù)據(jù)源 storm 接口處理

上一篇大同歷史有哪些名人？

下一篇G41裝什么系統(tǒng)最好

欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

網(wǎng)站導(dǎo)航

網(wǎng)站導(dǎo)航

網(wǎng)站分類

大數(shù)據(jù)處理的流程是什么？

欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

網(wǎng)站導(dǎo)航

網(wǎng)站導(dǎo)航

網(wǎng)站分類

大數(shù)據(jù)處理的流程是什么？

相關(guān)文章

大數(shù)據(jù)處理的流程是什么？