作為一個從超級菜鳥階段過來的人,也曾迷茫,也曾面對一大堆資料不知所措,從無到有踩過太多的坑,在這里分享一下我總結出來的數據分析學習路徑,為了讓你少走彎路,避免選擇困難,能用一本書搞定的我絕不會給你推薦其他多的書。即使是超級菜鳥,只要你認真按照下面的路徑進行學習,我保證你能夠有所收獲。
在我看來,菜鳥入門數據分析所需要學習的內容依次可以分為三個方面:統計學知識、編程技能以及數據分析的方法論。
一、統計學學習統計學知識并不是讓你生啃一本如《統計學原理》或《數理統計》的教科書,如果真是這樣,大多數人怕是直接從入門到放棄了。這里推薦一本書:
《深入淺出統計學》我一直認為統計理論要與日常生活結合起來,才能理解得更直觀、透徹。這本書運用充滿互動性的真實世界情節,教給你有關統計學的所有基礎知識,如信息可視化、概率計算、幾何分布、二項分布及泊松分布、正態分布、統計抽樣、置信區間的構建、假設檢驗、卡方分布、相關與回歸等等。
二、編程技能在學習了一些統計學的基本知識后,進入編程技能的學習,數據分析主要用到的編程技能有Excel、SQL、Python/R(我推薦學Python)。Excel由于大家或多或少都會用,上手也比較容易,在這里不過多討論。這里主要討論SQL和Python應該如何進行學習。
SQLSQL是什么?SQL全稱是”結構化查詢語言(Structured Query Language)”,是一種資料庫查詢和程式設計語言,用于存取資料以及查詢、更新和管理關聯式資料庫系統。實際業務中要進行數據分析,首先得把數據從數據倉庫中提取出來,SQL干的就是這個。
軟件安裝:
對于剛剛接觸SQL的同學,可能裝個Mysql都需要花費很多的時間,這里為大家找了兩份Mysql的安裝指南。
mysql安裝 - www.cnblogs.com
MySQL安裝和使用 - 夢想云端 - 博客園www.cnblogs.com軟件裝好了,就可以開始學起來了,針對SQL的學習,可以分為入門階段和進階階段。
入門階段:
推薦書籍:MySQL必知必會
對入門者很照顧的一本書,與其說是一本書不如說是一本小冊子,不到250頁的小冊子,實踐性很強,基本沒有什么理論的堆砌,完完全全就是一本實踐指南,教會你怎么用SQL語句操作MySQL??赐赀@本書基本就可以說是入門了??磿嗖灰饲诩泳毩?,這里也為大家找了一份Mysql入門練習題。進階階段:
此時的你已經掌握了SQL的基本語法,能對數據庫進行基本的增刪改查,但當你面對的數據量較大時,優化就顯得很重要了。下一步就是要學會如何去優化SQL代碼的運行效率。
推薦書籍:高性能MySQL
注意,這本書大家直接看第六章 查詢性能優化這章即可,切勿從頭啃到尾!!那么進階階段應該如何進行訓練呢?答案是Leetcode(一個編程刷題網站leetcode-cn.com)Leetcode的數據庫板塊下面有一些結合實際業務的SQL題目,題目也有劃分相應的難度,一開始可以先從難度低的題目開始做起,平臺上可以在線編寫代碼以及在線測試,評論區里面也有一些人的做題思路和代碼,當不會做的時候也可以參考一下別人的答案。當Leetcode的題目練的差不多的時候,你的SQL水平已經足以應付絕大多數的業務場景了。Python關于Python,想必我也不用進行過多的介紹,近幾年數據分析、人工智能的火熱也讓Python成為最流行的編程語言,那么小白需要學什么,怎么學呢?
軟件安裝:
python好用的IDE(簡單說就是寫代碼的平臺)有很多,但對于學習數據分析的初學者而言,我還是墻裂推薦你裝Anaconda,并使用jupyter作為練手的IDE,聽我的錯不了?。ㄗ约阂婚_始學的時候在命令行那里敲代碼,對新手而言體驗極差……)
Anaconda是什么?怎么安裝?(安裝前先下載個谷歌瀏覽器)
Anaconda 的安裝教程(圖文)blog.csdn.net將Chrome設置為Jupyter_notebook的默認瀏覽器 - 云+社區 - 騰訊云cloud.tencent.com
安裝好Anaconda并配置好jupyter之后,就可以打開jupyter開始學習Python啦,可以花一點時間稍微熟悉一下jupyter的使用,jupyter的界面如下圖所示。
基礎語法:
安裝完軟件之后,就可以開始學習Python的基礎語法啦,這方面的教程比較多,這里就給大家推薦一下我覺得還不錯的,書和視頻各一個。
推薦書籍:Python編程從入門到實踐
再次注意,這本書也是有選擇地看,直接看第二章(變量和簡單數據類型)到第九章(類),其他的可以直接忽視。建議在看書時,將示例代碼全部自己敲一遍,對代碼而言,無他,唯手熟爾,待你將第二章到第九章的代碼都敲過并理解了之后,你也就基本掌握了Python的主要數據類型,列表、字典、元組的主要操作,條件語句,循環語句,類和函數的使用,Python也算基本入門了。
如果有時候看書看不下去,也可以選擇對應章節的視頻課程,這里就給大家推B站的這個視頻吧,也算是B站人氣比較高的python入門視頻課程。
如果覺得書中的例子不過癮,想多多鞏固剛學的Python語法,這里也為你準備了Python的100個小例題。
Python 100例 | 菜鳥教程www.runoob.com
Python數據分析核心工具——pandas
當你已經掌握Python的基本語法之后,就可以直接開始學pandas這個數據分析庫了,怎么學呢,這里就推薦一本書。
書籍推薦:利用Python進行數據分析 原書第2版
本書由pandas項目創始人Wes McKinney親筆撰寫,詳細介紹利用Python進行操作、處理、清洗和規整數據等方面的具體細節和基本要點。不僅有主要方法的操作演示,還有相關案例的實踐。把這本書吃透,基本上你就可以靈活地使用Python對數據進行處理了。
其實,如果你認認真真走完上面SQL的學習路徑,學習pandas的時候進度會很快,因為很多地方都是相通的,這篇文章總結了pandas和SQL在使用方法上的對比,學完SQL后學pandas,看看這個,你會恍然大悟。
pandas與sql 對比,持續更新blog.csdn.net
另外:建議在閱讀這本書的時候,不僅把書上的代碼吃透,最好還能找個自己感興趣的數據集開始試著練手分析分析。不知道去哪里找數據集?下面給你整理了幾個常見的找數據集的網站:
和鯨社區 - Kesci.comwww.kesci.com天池數據集Datasets | Kagglewww.kaggle.com
不知道該怎么著手分析?下面是我整理的50個數據分析實戰項目,你可以看看別人的分析思路,再將之運用到分析你的數據集上。
易執:干貨!Python數據分析50個實戰項目(持續更新……)zhuanlan.zhihu.com
至此,你已經基本掌握了數據分析的基本工具,接下來就得開始學習如何結合實際業務去分析問題,學習一些數據分析的思維。
三、數據分析方法論這里直接推薦兩本自己看過的不錯的書
1、精益數據分析
這本書展示了如何驗證自己的設想、找到真正的客戶、打造能賺錢的產品,以及提升企業知名度。30多個案例分析,全球100多位知名企業家的真知灼見,為你呈現來之不易、經過實踐檢驗的創業心得和寶貴經驗,其中的數據分析思路值得仔細揣摩。
2、增長黑客
作為最早提出“增長黑客”概念的理論先驅、帶領Dropbox實現500%增長的實戰領軍人物,作者在書中分享了如何跨部門搭建增長黑客團隊,以及實現用戶和利潤雙增長的具體行動指南。這本書適合入門者理解增長黑客的原理與操作體系。
如果你已經走到最后這個階段了,那么再往下繼續深入,就得在實際項目中結合業務自己學習領悟了,或許,這也正是數據分析獨特的魅力所在!