本次書單推薦包含「入門篇」、「進階篇」、「高階篇」,適用于不同層次的學習者。請大家對號入座,收好適合自己的修煉秘籍吧~
入門篇 1.《誰說菜鳥不會數據分析》
推薦理由:基于通用的Excel工具,在8個章節中,分別講解數據分析必知必會的知識、數據處理技巧、數據展現的技術、通過專業化的視角來提升圖表之美、數據分析報告的撰寫技能以及持續的修煉。讀者完全可以把這本書當小說來閱讀,跟隨主人公小白,在Mr.林的指點下輕松掌握數據分析的技能,提升職場競爭能力。
2.《深入淺出數據分析》
推薦理由:數據分析入門第一本。通俗簡單,卻能夠讓讀者對數據分析的相關概念有大致的了解,詮釋了數據分析的基本步驟,實驗方法,最優化方法/假設檢驗法/貝葉斯統計法/等等方法論,還有數據整理技巧,這個太重要了,為讀者搭建了走向深入研究的橋梁。
3.《深入淺出統計學》
推薦理由:號稱“文科生也能看懂”的統計書。盡管閱讀容易,但所講的知識在數據分析中都是常見且必須掌握的,比如基本的統計量,基本上每個分析項目中都會用到;比如基本的概率分布,總體與樣本的概念、置信區間、假設檢驗、回歸分析,都是關于數據分析的統計學知識。
4.《赤裸裸的統計學》
推薦理由:作者年輕時是個追求學習意義的學霸,后來自己從統計學中發掘了很多可以應用到生活的地方。這也是本書的主旨,結合生活講解統計知識,生動有趣。可以避免統計學一上來就大講貝葉斯概率和隨機分析的枯燥。
進階篇 一、數據分析—Excel 1.《EXCEL數據處理與分析實戰技巧精粹》
推薦理由:詳盡的實例,精彩的講解,細致的描述,多角度的剖析,融匯Excel Home萬千問題與答案,彰顯Excel豐富內涵。相信本書是你愛不釋手、輕松辦公的利器。
2.《Excel VBA從入門到精通》
推薦理由:本書分為五篇,其中第一篇是VBA基礎知識篇,主要內容包括VBA的概念、宏和VBA開發環境;第二篇是VBA基礎語法篇,主要內容包括VBA語法基礎、VBA基礎語句、程序結構控制語句、過程、Sub與Function過程;第三篇是Excel VBA對象篇,主要內容包括Excel VBA對象模型和應用程序對象、工作簿對象、工作表對象、單元格對象和圖表對象;第四篇是VBA高級應用篇,主要內容包括自定義Excel 2010的用戶界面、工作表控件、界面設計、XML與VBA、加載宏和數據庫編程等;第五篇是綜合實例與面試問答篇,主要講解了成績管理系統和日程安排表兩個綜合實例,并提供了30多個近幾年各大公司經常考察的面試題。
二、數據分析—R 1.《R語言實戰(第2版)》 推薦理由:本書從解決實際問題入手,盡量跳脫統計學的理論闡述來討論R語言及其應用,講解清晰透澈,極具實用性。作者不僅高度概括了R語言的強大功能、展示了各種實用的統計示例,而且對于難以用傳統方法分析的凌亂、不完整和非正態的數據也給出了完備的處理方法。第2版新增6章內容,涵蓋時間序列、聚類分析、分類、高級編程、創建包和創建動態報告等,并分別詳細介紹了如何使用ggplot2和lattice進行高級繪圖。通讀本書,你將全面掌握使用R語言進行數據分析、數據挖掘的技巧,并領略大量探索和展示數據的圖形功能,從而更加高效地進行分析與溝通。
2.《統計建模與R軟件》
推薦理由:書中結合數理統計問題對R軟件進行科學、準確和全面的介紹,以便使讀者能深刻理解該軟件的精髓和靈活、高效的使用技巧.此外,還介紹了在工程技術、經濟管理、社會生活等各方面的豐富的統計問題及其統計建模方法,通過該軟件將所建模型進行求解,使讀者獲得從實際問題建模入手,到利用軟件進行求解,以及對計算結果進行分析的全面訓練。
三、數據分析—Python 1.《利用Python進行數據分析(原書第2版) 推薦理由:本書由Python pandas項目創始人Wes McKinney親筆撰寫,詳細介紹利用Python進行操作、處理、清洗和規整數據等方面的具體細節和基本要點。第2版針對Python 3.6進行全面修訂和更新,涵蓋新版的pandas、NumPy、IPython和Jupyter,并增加大量實際案例,可以幫助你高效解決一系列數據分析問題。
2.《Python數據分析從入門到精通》
推薦理由:對于希望使用Python來完成數據分析工作的人來說,學習IPython、Numpy、pandas、Matplotlib這個組合是目前看來不錯的方向,本書就是這樣一本循序漸進的書。內容精練、重點突出、實例豐富,是廣大數據分析工作者必備的參考書,為讀者能真正使用Python進行數據分析奠定基礎。
3.《Python數據挖掘:概念、方法與實踐》
推薦理由:本書使用Python編程語言和基于項目的方法介紹多種常被忽視的數據挖掘概念,如關聯規則、實體匹配、網絡分析、文本挖掘和異常檢測。每個章節都全面闡述某種特定數據挖掘技術的基礎知識,提供替代方案以評估其有效性,并用真實的數據實現該技術,幫助你“知其然,知其所以然”,從而邁向數據挖掘專家的道路。
四、數據分析— SPSS 1.《SPSS統計分析基礎教程》
推薦理由:本書改變了以往SPSS書籍對統計理論和軟件操作“兩條主線、各自表述”的編寫方式,將這兩者完全融合了起來。它以SPSS 12.0為準,針對統計初學者和SPSS初級用戶的需求,以統計理論為主線,詳細介紹了在SPSS中的界面操作、數據管理、統計圖表制作、統計描述和常用單因素統計分析方法的原理與實際操作。其內容完全覆蓋目前國內大部分專業本科統計課程的教學范圍,并結合SPSS的強大功能作了很好的擴展。全書內容深入淺出,風格簡潔明快,是一本難得的統計理論與SPSS操作相結合的統計參考書。
2.《Discovering statistics using spas》
推薦理由:國外的一些入門書籍很容易上手, 在學術論壇和知乎等頁面都有網友推薦這本書。國外圖書價格偏貴,但是據說某寶的PDF版很便宜。
3.《問卷統計分析實務: SPSS操作與應用》
推薦理由:本書的內容架構,在于完整介紹問卷調查法中的數據處理與其統計分析流程,統計分析技術以SPSS統計軟件包的操作界面與應用為主,內容除基本統計原理的解析外,著重的是SPSS統計軟件包在量化研究上的應用。
五、 數據分析—SAS
1.《The little SAS book》
推薦理由:內容不深,但是全面、實用,很經典的一本書,適合初學者看。英文版讀得太累可以搜一下中文版。
2.《SAS統計分析應用》
推薦理由:本書基于SAS 9.1.3中文版本編寫,介紹了SAS Learning Edition基于窗口點擊式環境以及Base SAS、SAS\STAT的用法。全書以統計分析方法為主線,通過大量實例,詳細介紹了SAS程序設計方法及各種統計過程適用條件和使用方法,并對統計過程實例的輸出結果做了詳盡的解釋。
3.《SAS統計分析與數據挖掘》
推薦理由:從SAS編程出發,用案例形式介紹SAS數據挖掘在各領域的廣泛應用,全書分為SAS基礎篇、提高篇及應用篇,每章均給出大量分析案例。
六、數據分析—SQL
1.《SQL必知必會》
推薦理由:本書是深受世界各地讀者歡迎的SQL經典暢銷書,內容豐富,文字簡潔明快,針對Oracle、SQL Server、MySQL、DB2、PostgreSQL、SQLite等各種主流數據庫提供了大量簡明的實例。與其他同類圖書不同,它沒有過多闡述數據庫基礎理論,而是專門針對一線軟件開發人員,直接從SQL SELECT開始,講述實際工作環境中最常用和最必需的SQL知識,實用性極強。通過本書,讀者能夠從沒有多少SQL經驗的新手,迅速編寫出世界級的SQL!
2. 《SQL基礎教程》
推薦理由:本書介紹了關系數據庫以及用來操作關系數據庫的SQL語言的使用方法,提供了大量的示例程序和詳實的操作步驟說明,讀者可以親自動手解決具體問題,循序漸進地掌握SQL的基礎知識和技巧,切實提高自身的編程能力。在每章結尾備有習題,用來檢驗讀者對該章內容的理解程度。另外本書還將重要知識點總結為“法則”,方便大家隨時查閱。
3.《高可用MySQL:構建健壯的數據中心》
推薦理由:本書是“MySQL High Availability”的中文翻譯版,主要講解真實環境下如何使用MySQL的復制、集群和監控特性,揭示MySQL可靠性和高可用性的方方面面。本書由MySQL開發團隊親自執筆,定位于解決MySQL數據庫的常見應用瓶頸,在保持MySQL的持續可用性的前提下,挖潛各種提高性能的解決方案。
七、數據挖掘 1.《數據挖掘導論(完整版)》
推薦理由:本書全面介紹了數據挖掘,涵蓋了五個主題:數據、分類、關聯分析、聚類和異常檢測。除異常檢測外,每個主題都有兩章。前一章涵蓋基本概念、代表性算法和評估技術,而后一章討論高級概念和算法。這樣讀者在透徹地理解數據挖掘的基礎的同時,還能夠了解更多重要的高級主題。
2.《數據挖掘概念與技術(原書第3版)》
推薦理由:本書完整全面地講述數據挖掘的概念、方法、技術和最新研究進展。本書對前兩版做了全面修訂,加強和重新組織了全書的技術內容,重點論述了數據預處理、頻繁模式挖掘、分類和聚類等的內容,還全面講述了OLAP和離群點檢測,并研討了挖掘網絡、復雜數據類型以及重要應用領域。 3.《大數據:互聯網大規模數據挖掘與分布式處理(第2版)》
推薦理由:暢銷書全新升級,新增影響與同質性、社交媒體推薦和行為分析等超實用內容,涵蓋解決數據挖掘核心問題所用算法,及實際應用數據挖掘所需知識,理論與實現并重。斯坦福大學數據挖掘方向專家Jure Leskovec、Anand Rajaraman、Jeffrey David Ullman重磅力作。
八、數據可視化 1.《數據可視化之美》
推薦理由:在本書中,20多位可視化專家包括藝術家、設計師、評論家、科學家、分析師、統計學家等,展示了他們如何在各自的學科領域內開展項目。他們共同展示了可視化所能實現的功能以及如何使用它來改變世界。成功的可視化的美麗之處既在于其藝術設計,也在于其通過對細節的優雅展示,能夠有效地產生對數據的洞察和新的理解。
2.《用數據講故事》
推薦理由:本書通過大量案例研究介紹數據可視化的基礎知識,以及如何利用數據創造出吸引人的、信息量大的、有說服力的故事,進而達到有效溝通的目的。具體內容包括:如何充分理解上下文,如何選擇合適的圖表,如何消除雜亂,如何聚焦受眾的視線,如何像設計師一樣思考,以及如何用數據講故事。本書得到了國內數據分析大咖秋葉、范冰、鄧凱的推薦。
3.《ggplot2:數據分析與圖形藝術》
推薦理由:ggplot2 是最優秀的數據分析可視化工具之一,這本書系統地講解了 ggplot2 的基本原理和具體操作,書中有大量的例子,也可以下載源代碼。更建議直接學習英文版的教材(如果英文過關的話)。
九、報告撰寫 《麥肯錫教我的寫作武器》
推薦理由:本書分為基礎篇和實踐篇兩部分,結合實際案例,系統地介紹了運用邏輯思考,制作一份兼具邏輯力與明確表達力的精彩商務文案所需的諸多方法,如金字塔原理、MECE原則、分辨問題類型的高杉法、SCQOR故事展開法以及具體制作報告與簡報的方法等,讓你學會邏輯思考方法、提高寫作能力的實用工具書。
高階篇 1.《精益數據分析》
推薦理由:此書優勢在于將企業分成了幾個大的行業類別,并分門別類的講解了每個行業的商業模式特點及分析技巧,對使用者的分析能力要求較高,且必須具備相應的業務知識。書中并沒有講到具體的數據分析技術,主要分析了各種產品中用到的指標、模型和“數據驅動型產品”的一些思路。
2.《數學之美》
推薦理由:本書把高深的數學原理講得更加通俗易懂,讓非專業讀者也能領略數學的魅力。讀者通過具體的例子學到的是思考問題的方式 —— 如何化繁為簡,如何用數學去解決工程問題,如何跳出固有思維不斷去思考創新。
3.《集體智慧編程》
推薦理由:本書以機器學習與計算統計為主題背景,專門講述如何挖掘和分析Web上的數據和資源,如何分析用戶體驗、市場營銷、個人品味等諸多信息,并得出有用的結論,通過復雜的算法來從Web網站獲取、收集并分析用戶的數據和反饋信息,以便創造新的用戶價值和商業價值。全書內容翔實,包括協作過濾技術(實現關聯產品推薦功能)、集群數據分析(在大規模數據集中發掘相似的數據子集)、搜索引擎核心技術(爬蟲、索引、查詢引擎、PageRank算法等)、搜索海量信息并進行分析統計得出結論的優化算法、貝葉斯過濾技術(垃圾郵件過濾、文本過濾)、用決策樹技術實現預測和決策建模功能、社交網絡的信息匹配技術、機器學習和人工智能應用等。
4.《機器學習》
推薦理由:展示了機器學習中核心的算法和理論,并闡明了算法的運行過程。本書綜合了許多的研究成果,例如統計學、人工智能、哲學、信息論、生物學、認知科學、計算復雜性和控制論等,并以此來理解問題的背景、算法和其中的隱含假定。 5.《R數據分析——方法與案例詳解(雙色)》
推薦理由:R是屬于GNU系統的一個自由、免費、源代碼開放的軟件,用于統計計算和統計制圖。這本書從實用的統計研究角度逐例分析R在數據處理、模型構建、以及圖形操作上的由淺入深的結合,堪稱經典。 6.《Python高級數據分析:機器學習、深度學習和NLP實例》
推薦理由:本書介紹了基于Python的高級數據分析,探討了Neo4j、Elasticsearch和MongoDB等數據庫,討論了如何實現包括主題爬取在內的ETL技術,并用于高頻算法交易和目標導向的對話系統等領域;還介紹了一些機器學習概念(如半監督學習、深度學習和NLP)的例子;同時涵蓋了重要的傳統數據分析技術,如時間序列和主成分分析等。