零基礎(chǔ)如何入門數(shù)據(jù)分析師?
大數(shù)據(jù)時(shí)代,數(shù)據(jù)為王。用數(shù)據(jù)做分析,給公司決策提供指導(dǎo)性意見,是眾多公司在這個(gè)精細(xì)化運(yùn)營,降本增效的時(shí)代必須要做的事情。各大企業(yè)都建立了數(shù)據(jù)分析部門。截止目前,我國共計(jì)1400萬數(shù)據(jù)分析人才缺口,市場規(guī)模預(yù)計(jì)將在2025年達(dá)到2000億!數(shù)據(jù)分析與其說是一個(gè)崗位,更是一個(gè)重要技能,擁有這項(xiàng)技能意味著你的就業(yè)前景更好,職業(yè)發(fā)展更廣。
那么數(shù)據(jù)分析零基礎(chǔ)應(yīng)該怎么學(xué)呢?下面我將從數(shù)據(jù)分析的學(xué)習(xí)周期、學(xué)習(xí)內(nèi)容以及職業(yè)發(fā)展規(guī)劃三個(gè)方面,帶大家充分了解數(shù)據(jù)分析這一行業(yè)。
1、 數(shù)據(jù)分析要學(xué)多久?
每個(gè)人的學(xué)習(xí)能力和基礎(chǔ)都不同,所以數(shù)據(jù)分析的學(xué)習(xí)周期也不同。如果是通過自學(xué)的方式,由于無專業(yè)老師指導(dǎo)及無法系統(tǒng)的學(xué)習(xí),這個(gè)周期可能會很長。一般來講,如果零基礎(chǔ)的學(xué)習(xí)者進(jìn)行系統(tǒng)的培訓(xùn),最快也要將近三、四個(gè)月的時(shí)間。數(shù)據(jù)分析的學(xué)習(xí)應(yīng)該首先從熟悉表以及表結(jié)構(gòu)開始,它的原點(diǎn)一定是在首先了解熟悉Excel的基礎(chǔ)上,在能夠從數(shù)據(jù)庫里提數(shù)的基礎(chǔ)上再進(jìn)行技能的升級。你的技能從能夠從數(shù)據(jù)庫里提數(shù),并且用Excel和BI處理幾萬行的小數(shù)據(jù)量,到使用python批量化處理幾十萬甚至百萬行中量級數(shù)據(jù)量,到最終使用大數(shù)據(jù)的相關(guān)組件,例如hadoop,spark,flume等組件處理千萬級甚至是億級大數(shù)據(jù)量。每一個(gè)階段所需要的工具加方法論都是不一樣的。一般而言,對于自學(xué)而成為能處理中量級數(shù)據(jù)量的分析師而言,得至少入門python的pandas,numpy等數(shù)據(jù)處理庫。這個(gè)零自學(xué)的周期,也一般跟悟性和自律有關(guān),悟性和自律性高的同學(xué),可能在4個(gè)月能夠掌握;如果悟性和自律性不高的同學(xué),這個(gè)周期有可能就是半途而廢,無法估量時(shí)間了。這里給大家推薦一下聚數(shù)學(xué)院的《數(shù)據(jù)分析實(shí)戰(zhàn)就業(yè)班》(聚數(shù)學(xué)院),專注于培養(yǎng)數(shù)據(jù)分析師的數(shù)據(jù)處理能力、數(shù)據(jù)分析能力和數(shù)據(jù)挖掘能力,課程內(nèi)容從數(shù)據(jù)庫管理、統(tǒng)計(jì)理論方法、數(shù)據(jù)分析主流軟件的應(yīng)用到數(shù)據(jù)挖掘算法等,對一整套數(shù)據(jù)分析流程技術(shù)進(jìn)行系統(tǒng)講解并配以實(shí)戰(zhàn)練習(xí),學(xué)完之后,學(xué)習(xí)者可以直接達(dá)到數(shù)據(jù)分析師的水平。
2、 數(shù)據(jù)分析要學(xué)什么?
(1) Excel
說起Excel可能會有人覺得這個(gè)很簡單,但是Excel確實(shí)是一個(gè)功能強(qiáng)大的利器。零基礎(chǔ)學(xué)數(shù)據(jù)分析師一定要從Excel入門,因?yàn)镋xcel是處理小型數(shù)據(jù)量企業(yè)用的最多的工具,在基礎(chǔ)數(shù)據(jù)分析師與數(shù)據(jù)運(yùn)營崗位中具有極其重要的地位。作為數(shù)據(jù)分析師的核心工具,具體學(xué)習(xí)內(nèi)容有Excel函數(shù)技巧(查找函數(shù)、統(tǒng)計(jì)函數(shù)、邏輯函數(shù))、Excel快速處理技巧(格式調(diào)整、查找定位、快捷鍵技巧等)和Excel可視化技巧(組合圖、條形圖、數(shù)據(jù)氣泡地圖)等。
(2) Mysql
SQL同樣是零基礎(chǔ)學(xué)習(xí)數(shù)據(jù)分析的核心內(nèi)容。因?yàn)樽鳛閿?shù)據(jù)分析師,你首先要解決的問題就是你要有數(shù)據(jù)來做分析。通常企業(yè)都會有自己的數(shù)據(jù)庫,數(shù)據(jù)分析師首先得根據(jù)業(yè)務(wù)需要知道自己要從企業(yè)數(shù)據(jù)庫中提取哪些數(shù)據(jù)。企業(yè)如果部署本地?cái)?shù)據(jù)庫,那么一定是SQL語言做提取數(shù)據(jù)的語言。SQL簡單易懂,非常容易上手,并且是非學(xué)不可的。SQL語言從學(xué)習(xí)MySQL數(shù)據(jù)庫開始,涉及對表結(jié)構(gòu)數(shù)據(jù)的增刪改查。真正在企業(yè)里面,數(shù)據(jù)分析師一般不會有增刪改的權(quán)限,只會有查的權(quán)限。學(xué)員應(yīng)該重點(diǎn)掌握查的各種句式。
(3) Python
Python的基礎(chǔ)對于數(shù)據(jù)分析師而言是非常重要的。對于十萬級或者百萬級數(shù)據(jù)量而言,Excel和BI都會因?yàn)檫\(yùn)行卡頓而變得完全無法使用。然而在實(shí)際企業(yè)運(yùn)用中,一次性處理十萬級以及百萬級數(shù)據(jù)又是非常常見的。而Python則是處理這種中量級數(shù)據(jù)的利器。因?yàn)镻ython有很多的第三方強(qiáng)大的庫,比如Numpy、Pandas、Matplotlib、Seaborn等。這些庫能讓數(shù)據(jù)分析師對百萬數(shù)據(jù)進(jìn)行數(shù)據(jù)清理和畫圖分析。Python不僅能數(shù)據(jù)清洗,畫圖,還能用sklearn進(jìn)行大數(shù)據(jù)算法分析。雖然Python是數(shù)據(jù)分析的重要工具,但是不同的職業(yè)發(fā)展方向,Python掌握的程度也是不一樣的。
(4) BI商業(yè)智能工具
BI可以理解成Excel圖表透視表的高級版。BI是將表與表相連,然后得出很多指標(biāo)圖。它是一個(gè)大屏的看板,如下圖:
企業(yè)銷售指標(biāo),運(yùn)營指標(biāo),物流指標(biāo)等等。這些圖可以表示企業(yè)在過去5個(gè)月的平均銷售單價(jià),過去24個(gè)月銷售的物流發(fā)貨量的變化曲線,甚至是現(xiàn)在實(shí)時(shí)的銷售額,這些都是企業(yè)關(guān)心的問題。有了這個(gè)看板,領(lǐng)導(dǎo)層在監(jiān)控企業(yè)業(yè)務(wù)方面就有了非常直觀的數(shù)據(jù),以供他們及時(shí)做出決策調(diào)整。現(xiàn)在市面上比較流行的BI軟件,有FineBI,PowerBI等。而這些BI軟件實(shí)際上都是非常類似的,學(xué)起來難度也不大。學(xué)習(xí)FineReport、FineBI由入門到精通,快速挖掘數(shù)據(jù)價(jià)值,將這些數(shù)據(jù)轉(zhuǎn)化成有用的信息,讓企業(yè)決策有數(shù)據(jù)依據(jù),從而驅(qū)動(dòng)企業(yè)決策和運(yùn)營。
(5) 數(shù)理統(tǒng)計(jì)與數(shù)據(jù)運(yùn)營
數(shù)理統(tǒng)計(jì)和數(shù)據(jù)運(yùn)營方法論是數(shù)據(jù)分析師的理論基石。數(shù)理統(tǒng)計(jì)包括概率論,統(tǒng)計(jì)學(xué),線性代數(shù),以及基礎(chǔ)的微積分理論。這些內(nèi)容都不需要理解的很深,但是對它們的原理以及內(nèi)涵都需要有所掌握。由于整個(gè)數(shù)據(jù)分析的源頭其實(shí)就是脫胎于描述性統(tǒng)計(jì)分析的。描述性統(tǒng)計(jì)分析是對樣本的總數(shù)、均值等指標(biāo)做統(tǒng)計(jì)的;而數(shù)據(jù)分析后續(xù)涉及到的算法則是架構(gòu)在統(tǒng)計(jì)學(xué)上更深一層次的建模。因此,掌握數(shù)理統(tǒng)計(jì)的相關(guān)知識對于入門數(shù)據(jù)分析師而言是基礎(chǔ)且必要的。
那數(shù)據(jù)運(yùn)營方法論是什么呢?數(shù)據(jù)運(yùn)營方法論實(shí)際上是學(xué)習(xí)各個(gè)行業(yè)所運(yùn)營的分析模型。例如,對電商而言,漏斗分析可以分析出來進(jìn)入主頁的人數(shù)PV1,到進(jìn)入服裝板塊的人數(shù)PV2,PV2/PV1就可以得出一個(gè)進(jìn)入服裝板塊的比率。還有很多通用的分析模型:相關(guān)分析,A/B test等。對于想往管理路線發(fā)展的數(shù)據(jù)分析師來講,數(shù)據(jù)運(yùn)營是必須要學(xué)習(xí)的知識。其實(shí)數(shù)據(jù)運(yùn)營知識也不復(fù)雜,就是根據(jù)自身業(yè)務(wù)需求將指標(biāo)拆解到最細(xì),然后運(yùn)用同比和環(huán)比兩種數(shù)據(jù)分析方式。
(6) 機(jī)器學(xué)習(xí)
最后一個(gè)進(jìn)階要求數(shù)據(jù)分析師掌握對大量數(shù)據(jù)分析的能力。這種分析就不只是停留在描述統(tǒng)計(jì)分析和運(yùn)用數(shù)據(jù)運(yùn)營方法進(jìn)行分析了,而是進(jìn)行預(yù)測分析。預(yù)測分析的本質(zhì)是利用已有的數(shù)據(jù)做出一套變量x,與預(yù)測最終值y之間的關(guān)系(也就是數(shù)學(xué)算法公式),然后利用這套算法,將更多的x輸入算法中去得出一個(gè)預(yù)測的y值,這里聽不懂沒關(guān)系。總之,這個(gè)階段的數(shù)據(jù)分析是利用大量的歷史數(shù)據(jù)構(gòu)建出一套數(shù)學(xué)公式(也就是算法),用這個(gè)數(shù)學(xué)公式去對未來進(jìn)行預(yù)測。比如說:一個(gè)人大量地刷體育短視頻,根據(jù)算法可以得出這個(gè)人可能對觀看足球比賽的騰訊體育會員感興趣。這類推斷和預(yù)測對于商業(yè)世界是有著極大變現(xiàn)意義的。要想成為掌握算法的數(shù)據(jù)分析師,機(jī)器學(xué)習(xí)是不可跳過的入門。學(xué)員應(yīng)該從簡單的一元回歸,多元回歸,以及邏輯回歸學(xué)習(xí)等,逐漸學(xué)習(xí)更多像決策樹,隨機(jī)森林,SVM等更高級的算法。
3、 數(shù)據(jù)分析的職業(yè)發(fā)展規(guī)劃?
一般來講,數(shù)據(jù)分析有兩條發(fā)揮路線,一條是管理路線,一條是技術(shù)路線。往管理端發(fā)展,比如初級數(shù)據(jù)分析師,到數(shù)據(jù)運(yùn)營,到數(shù)據(jù)分析經(jīng)理、數(shù)據(jù)運(yùn)營總監(jiān)等等。這條發(fā)展路徑主要要求統(tǒng)計(jì)學(xué)、Excel、PPT等技能,需要撰寫市場分析報(bào)告。這條路看似技術(shù)掌握不用太深,但是對業(yè)務(wù)的理解要極深。而精深的業(yè)務(wù)理解需要時(shí)間和深度的業(yè)務(wù)鉆研精神。如果你是非數(shù)學(xué)、計(jì)算機(jī)和統(tǒng)計(jì)學(xué)專業(yè)的朋友,比較適合這條非技術(shù)的職業(yè)發(fā)展之路。
而向技術(shù)方向發(fā)展,則目標(biāo)會非常明確。一是深入往數(shù)據(jù)挖掘方向發(fā)展,學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò),NLP等前沿算法。二是深入數(shù)據(jù)分析開發(fā),把大數(shù)據(jù)組件hadoop,spark等等大數(shù)據(jù)組件學(xué)好學(xué)精。這是一條技術(shù)類的發(fā)展方向,要求更高的統(tǒng)計(jì)學(xué)能力、數(shù)理能力以及編程技巧。
實(shí)際上,無論是非技術(shù)的業(yè)務(wù)方向和技術(shù)專家方向都要的是兩個(gè)字:鉆研。當(dāng)然聽到這里,我們也需要重重地闡述一下:入門初級數(shù)據(jù)分析是不難的。而后半段,要成為一個(gè)優(yōu)秀的數(shù)據(jù)分析師是難的,是需要刻苦鉆研精神的。
如果看到這里,你覺得自己心理上已經(jīng)就入門數(shù)據(jù)分析師方向做好了準(zhǔn)備,但是你是零基礎(chǔ)實(shí)在不知道如何入行的話,歡迎私聊獲取免費(fèi)的數(shù)據(jù)分析師知識點(diǎn)大綱,并且免費(fèi)做數(shù)據(jù)分析師的入門咨詢。