想要成為數(shù)據(jù)分析師,給大家分享一份初級(jí)的入門指南!
它包含Excel、數(shù)據(jù)可視化、數(shù)據(jù)分析思維、數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、業(yè)務(wù)、以及Python。
這七part 的內(nèi)容剛好涵蓋了一位數(shù)據(jù)分析師需要掌握的基礎(chǔ)體系,也是一位新人從零邁入數(shù)據(jù)大門的知識(shí)手冊(cè)。
第一part:Excel
每一位數(shù)據(jù)分析師都脫離不開Excel。
它是日常工作中最常用的工具,如果不考慮性能和數(shù)據(jù)量,它可以應(yīng)付絕大部分分析工作。雖然現(xiàn)在機(jī)器學(xué)習(xí)滿地走,Excel依舊是無(wú)可爭(zhēng)議的第一工具。
Excel的學(xué)習(xí)分為兩個(gè)部分。
掌握各類功能強(qiáng)大的函數(shù),函數(shù)是一種負(fù)責(zé)輸入和輸出的神秘盒子。把各類數(shù)據(jù)輸入,經(jīng)過(guò)計(jì)算和轉(zhuǎn)換輸出我們想要的結(jié)果。
在SQL,Python以及R中,函數(shù)依舊是主角。掌握Excel的函數(shù)有助于后續(xù)的學(xué)習(xí),因?yàn)槟銕缀踉诰幊讨心苷业矫忠粯踊蛘呦嘟暮瘮?shù)。
在「數(shù)據(jù)分析:常見的Excel函數(shù)全部涵蓋在這里了」中,介紹了常用的Excel函數(shù)。
清洗處理類:trim、concatenate、replace、substitute、left/right/mid、len/lenb、find、search、text
關(guān)聯(lián)匹配類:lookup、vlookup、index、match、row、column、offset
邏輯運(yùn)算類:if、and、or、is系列
計(jì)算統(tǒng)計(jì)類:sum/sumif/sumifs、sumproduct、count/countif/countifs、max、min、rank、rand/randbetween、averagea、quartile、stdev、substotal、int/round
時(shí)間序列類:year、month、weekday、weeknum、day、date、now、today、datedif
搜索能力是掌握Excel的不二竅門,工作中的任何問(wèn)題都是可以找到答案。
第二部分是Excel中的工具。
在「數(shù)據(jù)分析:Excel技巧大揭秘」教程,介紹了Excel最具性價(jià)比的幾個(gè)技巧。包括數(shù)據(jù)透視表、格式轉(zhuǎn)換、數(shù)組、條件格式、自定義下拉菜單等。正是這些工具,才讓Excel在分析領(lǐng)域經(jīng)久不衰。
在大數(shù)據(jù)量的處理上,微軟提供了Power系列,它和Excel嵌套,能應(yīng)付百萬(wàn)級(jí)別的數(shù)據(jù)處理,彌補(bǔ)了Excel的不足。
Excel需要反復(fù)練習(xí),實(shí)戰(zhàn)教程「數(shù)據(jù)分析:手把手教你Excel實(shí)戰(zhàn)」,它通過(guò)網(wǎng)絡(luò)上抓取的數(shù)據(jù)分析師薪資數(shù)據(jù)作為練習(xí),總結(jié)各類函數(shù)的使用。
除了上述要點(diǎn),下面是附加的知識(shí)點(diǎn),鋪平數(shù)據(jù)分析師以后的道路。
了解單元格格式,數(shù)據(jù)分析師會(huì)和各種數(shù)據(jù)類型打交道,包括各類timestamp,date,string,int,bigint,char,factor,float等。
了解數(shù)組,以及相關(guān)應(yīng)用(excel的數(shù)組挺難用),Python和R也會(huì)涉及到 list,是核心概念之一。
了解函數(shù),深入理解各種參數(shù)的作用。它會(huì)在學(xué)習(xí)Python中幫助到你。
了解中文編碼,UTF8、GBK、ASCII,這是數(shù)據(jù)分析師的坑點(diǎn)之一。
第二part:數(shù)據(jù)可視化
數(shù)據(jù)分析界有一句經(jīng)典名言,字不如表,表不如圖。
數(shù)據(jù)可視化是分析的常用技巧之一,不少數(shù)據(jù)分析師的工作就是通過(guò)圖表觀察和監(jiān)控?cái)?shù)據(jù)。首先了解常用的圖表:
Excel的圖表可以100%繪制上面的圖形,但這只是基礎(chǔ)。
在「數(shù)據(jù)可視化:你想知道的經(jīng)典圖表全在這」中介紹了各類數(shù)據(jù)分析的經(jīng)典圖表,除了趨勢(shì)圖、直方圖,還包括?;鶊D、空間圖、熱力圖等額外的類型。
數(shù)據(jù)可視化不是圖表的美化,而是呈現(xiàn)數(shù)據(jù)的邏輯之美,是揭示數(shù)據(jù)的內(nèi)在關(guān)聯(lián)。了解圖表的維度和適用場(chǎng)景,比好看更重要。比如桑吉圖就是我一直推崇的圖表,它并不知名,但是它能清晰的揭露數(shù)據(jù)內(nèi)在狀態(tài)的變化和流向。案例是用戶活躍狀態(tài)的趨勢(shì)。
Excel的圖表操作很傻瓜化,其依舊能打造出一份功能強(qiáng)大的可視化報(bào)表。「數(shù)據(jù)可視化:教你打造升職加薪的報(bào)表」教給大家常用的Excel繪圖技巧,包括配色選取,無(wú)用元素的剔除、輔助線的設(shè)立、復(fù)合圖表等方法。
Excel圖表的創(chuàng)造力是由人決定的,對(duì)數(shù)據(jù)的理解,觀察和認(rèn)知,以及對(duì)可視化的應(yīng)用,這是一條很長(zhǎng)的道路。
圖表是單一的,當(dāng)面板上繪制了多張圖表,并且互相間有關(guān)聯(lián),我們常稱之為Dashboard儀表盤。
上圖就是用分析師薪資數(shù)據(jù)為數(shù)據(jù)源繪制的Dashboard,比單元格直觀不少。我們常常把繪制這類Dashboard的工具叫做BI。
BI(商業(yè)智能)主要有兩種用途。一種是利用BI制作自動(dòng)化報(bào)表,數(shù)據(jù)類工作每天都會(huì)接觸大量數(shù)據(jù),并且需要整理匯總,這是一塊很大的工作量。這部分工作完全可以交給BI自動(dòng)化完成,從數(shù)據(jù)規(guī)整、建模到下載。
另外一種是使用其可視化功能進(jìn)行分析,它提供比Excel更豐富的交互功能,操作簡(jiǎn)單,而且美觀,如果大家每天作圖需要兩小時(shí),BI能縮短大半。
在「數(shù)據(jù)可視化:手把手打造BI」教程中,以微軟的PowerBI舉例,教大家如何讀取數(shù)據(jù),規(guī)整和清洗數(shù)據(jù),繪制圖表以及建立Dashboard。最后的成果就是上文列舉的分析師案例。
BI還有幾個(gè)核心概念,包括OLAP,數(shù)據(jù)的聯(lián)動(dòng),鉆取,切片等,都是多維分析的技巧,也是分析的核心方法之一。
后續(xù)的進(jìn)階可視化,將和編程配合。因?yàn)榫幊棠軌蛱峁└咝屎挽`活的應(yīng)用。而BI也是技術(shù)方向的工具,了解技術(shù)知識(shí)對(duì)應(yīng)用大有幫助。
第三part:數(shù)據(jù)分析思維數(shù)據(jù)分析能力的高低,不以工具和技巧決定,而以分析思維決定。
在一場(chǎng)戰(zhàn)爭(zhēng)中,士兵裝備再好的武裝,進(jìn)行再嚴(yán)苛的訓(xùn)練,若是沖鋒的方向錯(cuò)了,那么迎接他們的唯有一敗涂地。
分析思維決定一場(chǎng)「數(shù)據(jù)戰(zhàn)爭(zhēng)」中的沖鋒方向。只有先養(yǎng)成正確的分析思維,才能使用好數(shù)據(jù)。
既然是思維,它就傾向于思考的方式,Excel函數(shù)學(xué)會(huì)了就是學(xué)會(huì),分析則不同。大多數(shù)人的思維方式都依賴于生活和經(jīng)驗(yàn)做出直覺性的判斷,以「我覺得我認(rèn)為」展開,好的數(shù)據(jù)分析首先要有結(jié)構(gòu)化的思維。
麥肯錫是其中領(lǐng)域的佼佼者,創(chuàng)建了一系列分析框架和思維工具。最典型地莫過(guò)于金字塔思維。
這篇文章簡(jiǎn)述了該思維的應(yīng)用,「快速掌握麥肯錫的分析思維」。你能學(xué)會(huì)結(jié)構(gòu)化思考,MECE原則,假設(shè)先行,關(guān)鍵驅(qū)動(dòng)等方法論。
除此以外,還有SMART、5W2H、SWOT、4P4C、六頂思考帽等,這些都是不同領(lǐng)域的框架。框架的經(jīng)典在于,短時(shí)間內(nèi)指導(dǎo)新人如何去思考,它未必是最好的,但一定是性價(jià)比最優(yōu)的。數(shù)據(jù)分析思維,是分析思維的引申應(yīng)用。再優(yōu)秀的思考方式,都需要佐證和證明,數(shù)據(jù)就是派這個(gè)用處的,「不是我覺得,而是數(shù)據(jù)證明」。
現(xiàn)代管理學(xué)之父彼得·德魯克說(shuō)過(guò)一句很經(jīng)典的話:如果你不能衡量它,那么你就不能有效增長(zhǎng)它。如果把它應(yīng)用在數(shù)據(jù)領(lǐng)域,就是:如果你不能用指標(biāo)描述業(yè)務(wù),那么你就無(wú)法有效增長(zhǎng)它。每一位數(shù)據(jù)分析師都要有指標(biāo)體系的概念,報(bào)表也好,BI也好,即使機(jī)器學(xué)習(xí),也是圍繞指標(biāo)體系建立的。
下圖就是一個(gè)典型的指標(biāo)體系,描述了用戶從關(guān)注產(chǎn)品、下載、乃至最后離開的整個(gè)環(huán)節(jié)。每一個(gè)環(huán)節(jié),都有數(shù)據(jù)及指標(biāo)以查詢監(jiān)控。
不同業(yè)務(wù)背景需要的指標(biāo)體系不同,但有幾個(gè)建立指標(biāo)的通用準(zhǔn)則。這篇文章深入介紹了「如何建立數(shù)據(jù)分析的思維框架」。你將區(qū)分什么是好指標(biāo)、什么是壞指標(biāo)、比率和比例、指標(biāo)的結(jié)構(gòu)、指標(biāo)設(shè)立的維度等概念。
數(shù)據(jù)分析不是一個(gè)結(jié)果,而是一個(gè)過(guò)程。幾乎所有的分析,最終目的都是增長(zhǎng)業(yè)務(wù)。所以比分析思維更重要的是驅(qū)動(dòng)思維落地,把它轉(zhuǎn)化為成果。
數(shù)據(jù)分析思維是常年累月養(yǎng)成的習(xí)慣,一周時(shí)間很難訓(xùn)練出來(lái),但這里有一個(gè)縮短時(shí)間的日常習(xí)慣。以生活中的問(wèn)題出發(fā)做練習(xí)。
這家商場(chǎng)的人流量是多少?怎么預(yù)估?
上海地區(qū)的共享單車投放量是多少?怎么預(yù)估?
街邊口的水果店,每天的銷量和利潤(rùn)是多少?怎么預(yù)估?
這些開放性問(wèn)題起源于咨詢公司的訓(xùn)練方法,通過(guò)不斷地練習(xí),肯定能有效提高分析思維。另外就是刷各種CaseBook。
優(yōu)秀的數(shù)據(jù)分析師會(huì)拷問(wèn)別人的數(shù)據(jù),而他本身的分析也經(jīng)得起拷問(wèn)。
第四part:數(shù)據(jù)庫(kù)
Excel很容易遇到瓶頸,隨著業(yè)務(wù)的發(fā)展,分析師接觸的數(shù)據(jù)會(huì)越來(lái)越多。對(duì)大部分人的電腦,超過(guò)十萬(wàn)條數(shù)據(jù),已經(jīng)會(huì)影響性能。何況大數(shù)據(jù)時(shí)代就是不缺數(shù)據(jù),這時(shí)候就需要學(xué)習(xí)數(shù)據(jù)庫(kù)了。
即使非數(shù)據(jù)崗位,也有越來(lái)越多的產(chǎn)品和運(yùn)營(yíng)被要求使用SQL。
很多數(shù)據(jù)分析師戲稱自己是跑SQL的,這間接說(shuō)明SQL在數(shù)據(jù)分析中有多核心。從Excel到SQL絕對(duì)是處理效率的一大進(jìn)步。
教程內(nèi)容以MySQL為主,這是互聯(lián)網(wǎng)行業(yè)的通用標(biāo)準(zhǔn)。其實(shí)語(yǔ)法差異不大的。
新手首先應(yīng)該了解表的概念,表和Excel中的sheet類似。「寫給新人的數(shù)據(jù)庫(kù)指南」是一篇入門基礎(chǔ)文章,包括表、ID索引、以及數(shù)據(jù)庫(kù)的安裝,數(shù)據(jù)導(dǎo)入等簡(jiǎn)單知識(shí)。
SQL的應(yīng)用場(chǎng)景,均是圍繞select展開。增刪改、約束、索引、數(shù)據(jù)庫(kù)范式均可以跳過(guò)。新手在「SQL,從入門到熟練」教程會(huì)學(xué)習(xí)到最常見的幾個(gè)語(yǔ)法,select、where、group by、if、count/sum、having、order by、子查詢以及各種常用函數(shù)。
數(shù)據(jù)還是分析師薪資數(shù)據(jù),它可以和Excel實(shí)戰(zhàn)篇結(jié)合看,不少原理都是相通的。
想要快速掌握,無(wú)非是大量的練習(xí)。大家可以在leetcode上做SQL相關(guān)的練習(xí)題,難度從簡(jiǎn)單到困難都有?!窼QL,從熟練到掌握」教程中將會(huì)帶領(lǐng)大家去刷一遍。
join對(duì)新手是一個(gè)很繞的概念,教程會(huì)從圖例講解,逐步提高難度。從一開始的join關(guān)聯(lián),到條件關(guān)聯(lián)、空值匹配關(guān)聯(lián)、子查詢關(guān)聯(lián)等。最后完成leetcode中的hard模式。
如果想要更進(jìn)一步,可以學(xué)習(xí)row_number,substr,convert,contact等函數(shù)。不同數(shù)據(jù)平臺(tái)的函數(shù)會(huì)有差異,例如Presto和phpMyAdmin。再想提高,就去了解Explain優(yōu)化,了解SQL的工作原理,了解數(shù)據(jù)類型,了解IO。知道為什么union比or的效率快,這已經(jīng)和不少程序員并駕齊驅(qū)。
第五part:統(tǒng)計(jì)學(xué)
很多數(shù)據(jù)分析師并不注重統(tǒng)計(jì)學(xué)基礎(chǔ)。
比如產(chǎn)品的AB測(cè)試,如果相關(guān)人員不清楚置信度的含義和概念,那么好的效果能意味著好么?如果看待顯著性?
比如運(yùn)營(yíng)一次活動(dòng),若不了解描述統(tǒng)計(jì)相關(guān)的概念,那么如何判別活動(dòng)在數(shù)據(jù)上的效果?可別用平均數(shù)。
不了解統(tǒng)計(jì)學(xué)的數(shù)據(jù)分析師,往往是一個(gè)粗糙的分析師。如果你想要往機(jī)器學(xué)習(xí)發(fā)展,那么統(tǒng)計(jì)學(xué)更是需要掌握的基礎(chǔ)。
統(tǒng)計(jì)知識(shí)會(huì)教大家以另一個(gè)角度看待數(shù)據(jù)。如果大家了解過(guò)《統(tǒng)計(jì)數(shù)據(jù)會(huì)撒謊》,那么就知道很多數(shù)據(jù)分析的決策并不牢靠。
在第一篇教程「解鎖數(shù)據(jù)分析的正確姿勢(shì):描述統(tǒng)計(jì)」,會(huì)教給大家描述統(tǒng)計(jì)中的諸多變量,比如平均數(shù)、中位數(shù)、眾數(shù)、分位數(shù)、標(biāo)準(zhǔn)差、方差。這些統(tǒng)計(jì)標(biāo)準(zhǔn)會(huì)讓新手分析師從平均數(shù)這個(gè)不靠譜的泥潭中出來(lái)。
箱線圖就是描述統(tǒng)計(jì)的大成者,好的分析師一定是慣用箱線圖的???。
第二篇「解鎖數(shù)據(jù)分析的正確姿勢(shì):描述統(tǒng)計(jì)(2)」將會(huì)結(jié)合可視化,對(duì)數(shù)據(jù)的分布進(jìn)行一個(gè)直觀的概念講解。很多特定的模型都有自有的數(shù)據(jù)分布圖,掌握這些分布圖對(duì)分析的益處不可同日而語(yǔ)。
直方圖和箱線圖一樣,將會(huì)是長(zhǎng)久伴隨分析師的利器。
統(tǒng)計(jì)學(xué)的一大主要分支是概率論,概率是度量一件事發(fā)生的可能性,它是介于0到1之間的數(shù)值。很多事情,都可以用概率論解釋,「概率論的入門指南」和「讀了本文,你就懂了概率分布」都是對(duì)其的講解。
包括貝葉斯公式、二項(xiàng)概率、泊松概率、正態(tài)分布等理論。理論不應(yīng)用現(xiàn)實(shí),那是無(wú)根之木,教程中會(huì)以運(yùn)營(yíng)活動(dòng)最常見的抽獎(jiǎng)概率為講解,告訴大家怎么玩。
其實(shí)數(shù)據(jù)分析中,概率應(yīng)用最廣泛和最全面的知識(shí)點(diǎn),就是假設(shè)檢驗(yàn),大名鼎鼎的AB測(cè)試就是基于它的。俗話說(shuō)得好,再優(yōu)秀的產(chǎn)品經(jīng)理也跑不過(guò)一半AB測(cè)試。
何為假設(shè)檢驗(yàn)?假設(shè)檢驗(yàn)是對(duì)預(yù)設(shè)條件的估計(jì),通過(guò)樣本數(shù)據(jù)對(duì)假設(shè)的真?zhèn)芜M(jìn)行判斷。
產(chǎn)品改版了,用戶究竟喜不喜歡?調(diào)研的評(píng)分下降了,這是用戶的評(píng)價(jià)降低了,還是正常的數(shù)據(jù)波動(dòng)呢?這些都是可以做假設(shè)檢驗(yàn)的。它可以說(shuō)是兩面兩篇文章的回顧和應(yīng)用。
「數(shù)據(jù)分析必須懂的假設(shè)檢驗(yàn)」依舊以互聯(lián)網(wǎng)場(chǎng)景講解各種統(tǒng)計(jì)技巧的應(yīng)用。假設(shè)檢驗(yàn)并不難,通過(guò)Excel的幾個(gè)函數(shù)就能完成。它的難點(diǎn)在于諸多知識(shí)點(diǎn)和業(yè)務(wù)的結(jié)合使用,實(shí)際公式不需要掌握的多透徹,了解背后的意義更重要。
統(tǒng)計(jì)學(xué)是一個(gè)很廣闊的領(lǐng)域,包括方差分析,時(shí)間序列等,都有各自不同的應(yīng)用。大家若感興趣,可以去閱讀各類教材,沒錯(cuò),教材是學(xué)習(xí)統(tǒng)計(jì)學(xué)最優(yōu)的方式。我這類文章堪堪算入門罷了。
第六part:業(yè)務(wù)
對(duì)于數(shù)據(jù)分析師來(lái)說(shuō),業(yè)務(wù)的了解比數(shù)據(jù)方法論更重要。舉個(gè)例子,一家O2O配送公司發(fā)現(xiàn)在重慶地區(qū),外賣員的送貨效率低于其他城市,導(dǎo)致用戶的好評(píng)率降低??偛康臄?shù)據(jù)分析師建立了各個(gè)指標(biāo)去分析原因,都沒有找出來(lái)問(wèn)題。后來(lái)在訪談中發(fā)覺,因?yàn)橹貞c是山城,路面高低落差比較夸張,很多外賣人員的小電瓶上不了坡…所以導(dǎo)致送貨效率慢。這個(gè)案例中,我們只知道送貨員的送貨水平距離,根本不知道垂直距離。這是數(shù)據(jù)的局限,也是只會(huì)看數(shù)據(jù)的分析師和接地氣分析師的最大差異。業(yè)務(wù)形態(tài)千千萬(wàn)萬(wàn),數(shù)據(jù)分析師往往難窺一二。我的公眾號(hào)業(yè)務(wù)部分也涉及了不少,大家可以通過(guò)這幾篇文章了解。
一篇文章讀懂活躍數(shù)據(jù);深入淺出,用戶生命周期的運(yùn)營(yíng);獲取新增用戶,運(yùn)營(yíng)都應(yīng)該知道的事;運(yùn)營(yíng)的商業(yè)邏輯:CAC和CLV;從零開始,構(gòu)建數(shù)據(jù)化運(yùn)營(yíng)體系;讀懂用戶運(yùn)營(yíng)體系:用戶分層和分群,這些都是互聯(lián)網(wǎng)運(yùn)營(yíng)相關(guān)的內(nèi)容,或多或少涉及了不少業(yè)務(wù)方面的概念,數(shù)據(jù)分析人員可以選擇性的挑選部分內(nèi)容。了解業(yè)務(wù)的數(shù)據(jù)分析師在職場(chǎng)發(fā)展上會(huì)更加順利。
而在「最用心的運(yùn)營(yíng)數(shù)據(jù)指標(biāo)解讀」中,我嘗試總結(jié)了幾個(gè)泛互聯(lián)網(wǎng)領(lǐng)域的指標(biāo)和業(yè)務(wù)模型,它們都是通用的框架。
產(chǎn)品運(yùn)營(yíng)模型:以移動(dòng)端APP為主體,圍繞AARRR準(zhǔn)則搭建起數(shù)據(jù)框架。包括Acquisition用戶獲取、Activation用戶活躍、Retention用戶留存、Revenue營(yíng)收、Refer傳播,以及細(xì)分指標(biāo)。
市場(chǎng)營(yíng)銷模型:以傳統(tǒng)的市場(chǎng)營(yíng)銷方法論為基底,圍繞用戶的生命周期建立框架。包括用戶生命周期,生命周期價(jià)值、用戶忠誠(chéng)指數(shù)、用戶流失指數(shù)、用戶RFM價(jià)值等。
流量模型:從早期的網(wǎng)站分析發(fā)展而來(lái),以互聯(lián)網(wǎng)的流量為核心。包括瀏覽量曝光率、病毒傳播周期、用戶分享率、停留時(shí)間、退出率跳出率等。
電商和消費(fèi)模型:以商品的交易、零售、購(gòu)買搭建而起。包括GMV、客單價(jià)、復(fù)購(gòu)率、回購(gòu)率、退貨率、購(gòu)物籃大小、進(jìn)銷存,也包含SKU、SPU等商品概念。
用戶行為模型:通過(guò)用戶在產(chǎn)品功能上的使用,獲得精細(xì)的人群維度,以此作為分析模型。包括用戶偏好、用戶興趣、用戶響應(yīng)率、用戶畫像、用戶分層,還包含點(diǎn)贊評(píng)論瀏覽收藏等功能的相關(guān)指標(biāo)。
除了上述的幾個(gè)常見模型,數(shù)據(jù)分析還有其他分支。比如SEO/SEM,雖然可以歸類到流量模型,但它并不簡(jiǎn)單。比如財(cái)務(wù)分析,商業(yè)的各種成本支出也需要專人負(fù)責(zé)。
在業(yè)務(wù)知識(shí)外,業(yè)務(wù)層面的溝通也很重要。業(yè)務(wù)線足夠長(zhǎng)的時(shí)候,溝通往往成為老大難的問(wèn)題。
業(yè)務(wù)學(xué)習(xí)沒有捷徑,哪怕掌握了諸多模型,不同行業(yè)間的業(yè)務(wù)壁壘會(huì)是分析師們的門檻。金融的各類專有領(lǐng)域知識(shí),電子商務(wù)不同產(chǎn)品的特性,這些都會(huì)影響到分析報(bào)告的質(zhì)量。
在早期,新人最好選擇一到兩個(gè)領(lǐng)域深入了解其業(yè)務(wù),然后以此拓展邊界。
第七part:Python/R
第七周是最后的學(xué)習(xí)環(huán)節(jié)。
是否具備編程能力,是初級(jí)數(shù)據(jù)分析和高級(jí)數(shù)據(jù)分析的風(fēng)水嶺。數(shù)據(jù)挖掘、BI、爬蟲、可視化報(bào)表都需要用到編程。掌握一門優(yōu)秀的編程語(yǔ)言,可以讓數(shù)據(jù)分析師升職加薪,迎娶白富美。數(shù)據(jù)分析領(lǐng)域最熱門的兩大語(yǔ)言是R和Python。R的優(yōu)點(diǎn)是統(tǒng)計(jì)學(xué)家編寫的,缺點(diǎn)也是統(tǒng)計(jì)學(xué)家編寫。涉及各類統(tǒng)計(jì)函數(shù)和工具的調(diào)用,R無(wú)疑有優(yōu)勢(shì)。但是大數(shù)據(jù)量的處理力有不逮,學(xué)習(xí)曲線比較陡峭。
Python則是萬(wàn)能的膠水語(yǔ)言,適用性強(qiáng),可以將分析的過(guò)程腳本化。Pandas、Numpy、SKLearn等包也是非常豐富。
這里的教程以Python為主。
「開始Python的新手教程」將會(huì)教大家搭建數(shù)據(jù)分析環(huán)境,Anaconda是功能強(qiáng)大的數(shù)據(jù)科學(xué)工具。Python建議安裝Python3+版本,不要選擇Python2了。
Python的語(yǔ)法相當(dāng)簡(jiǎn)潔,大家print出第一個(gè)hello world頂多半小時(shí)。就像在Excel上進(jìn)行運(yùn)算一樣方便。
「開始Python的數(shù)據(jù)結(jié)構(gòu)」介紹給大家Python的三類數(shù)據(jù)結(jié)構(gòu),列表list,元組tuple,以及字典dict。萬(wàn)變不離其宗,掌握這三種數(shù)據(jù)結(jié)構(gòu)以及相對(duì)應(yīng)的函數(shù),足夠應(yīng)付80%的分析場(chǎng)景。函數(shù)式編程為Python一大特色,Python自身就提供不少豐富的函數(shù)。很多都和Excel的函數(shù)相通,掌握起來(lái)非常迅速。另外還有控制流,for、while、if,通常配合函數(shù)組合使用。
「了解和掌握Python的函數(shù)」教大家如何自定義函數(shù),豐富的函數(shù)雖然能偷懶,但是不少場(chǎng)景下,還是需要自己動(dòng)手?jǐn)]一個(gè)。
能夠調(diào)第三方包解決,就使用第三方的函數(shù)。如果是一個(gè)頻繁使用的場(chǎng)景,而第三方依靠不了,就自己編一個(gè)函數(shù)。如果是臨時(shí)性的場(chǎng)景,寫得粗糙點(diǎn)也無(wú)所謂。畢竟分析師的代碼能力不要求工程師那么嚴(yán)格,所以Python的學(xué)習(xí)盡量以應(yīng)用為主,不用像分析師那么嚴(yán)格。
包、模塊和類的概念屬于進(jìn)階知識(shí),不學(xué)也不要緊。
「Python的數(shù)據(jù)分析: numpy和pandas入門」介紹了數(shù)據(jù)分析師賴以生存的兩個(gè)包,numpy和pandas,其他Python知識(shí)可以不扎實(shí),這兩個(gè)最好認(rèn)真掌握。它是往后很多技能樹的前置要求。
array,series,dataframe是numpy和pandas的三個(gè)數(shù)據(jù)結(jié)構(gòu),掌握它們,便算是入門了。后續(xù)的兩篇教程都是實(shí)戰(zhàn)。
「用pandas進(jìn)行數(shù)據(jù)分析實(shí)戰(zhàn)」以分析師的薪資作為實(shí)戰(zhàn)數(shù)據(jù)。Excel、BI、SQL,一路走來(lái),大家想必對(duì)它無(wú)比熟悉,這也是最后一次使用它了。教程通過(guò)Pandas的各類功能,繪制出一副詞云圖。
最后一篇教程,將結(jié)合以往的知識(shí)點(diǎn),包括業(yè)務(wù)指標(biāo),可視化,描述統(tǒng)計(jì)學(xué)等內(nèi)容?!赣肞ython分析用戶消費(fèi)行為」,完成它,不說(shuō)登堂入室,但也是一位合格的數(shù)據(jù)分析師了。
它使用某網(wǎng)站的用戶消費(fèi)數(shù)據(jù),計(jì)算各類常見指標(biāo):用戶的客單價(jià)、人均購(gòu)買量、回購(gòu)率、復(fù)購(gòu)率、留存率、平均生命周期等,真正做到融會(huì)貫通。用一份數(shù)據(jù)報(bào)告作為畢業(yè)作品,也是七周系列最好的結(jié)業(yè)證書了。
對(duì)于沒有技術(shù)基礎(chǔ)的同學(xué),第七part最吃力,但已經(jīng)完成到這一步,不妨讓自己咬咬牙學(xué)習(xí)下去。
最后
如果能夠看完到這里的同學(xué),相信你是對(duì)數(shù)據(jù)分析真正感興趣的。