看過深入淺出系列的人,應該知道這一系列的書通常趣味性挺強的,但干貨不多。不過《深入淺出數據分析》還是可以讀一讀的,因為這是一本偏商業分析的書籍,每個章節都是一個商業分析案例,從拿到問題開始,一步步展示數據分析師是如何思考問題的,這是本書一大亮點,很值得學習。另外書中會零零散散的介紹一些excel函數和R語言的語法,我覺得這部分還是看專業書籍比較好,就不做詳述了。
幾乎所有的分析思路就是這個樣子,在實際操作過,可能會一遍一遍循環上述過程,直到達到目標。
確定問題:通常需要從客戶那里多了解一些信息,以便我們確定問題。但是有時候客戶也是不了解問題或者目標的,因此需要分析師甄別客戶提供的與實際情況不符的信息。也就是不能全聽客戶一面之詞,要靠數據說話。
如何提問:
- 問目標:銷量提高多少
- 問是多少:這樣就可以得到一些可以量化的數據
- 問競爭對手的情況
- 問預算
從客戶的回答里面可以找到很多基礎假設,這些都是分析的基礎。
分解:就是將大問題分解到小問題,大塊數據分解到更小的組塊。嘗試分解的重要因子是找到比較對象。然后分解匯總數據。
第二章實驗
比較法:比較是破解觀察數據的法寶。
混雜因素:研究對象的個人差異,它不是試圖進行比較的因素,最終會導致分析結果的敏感度變差。要分析并校正混則因素。
控制組:實驗需要控制組和對照組,沒有控制組就意味著沒有比較。確保兩個組僅有一點不同,其他因素要一致。
選擇相似性:在同一類大的數據集里,隨機挑選小數據集,并分配實驗組和控制組,將保證除了研究變量不同外,其余變量基本一致。
第三章最優化
約束條件和決策變量:約束條件就是無法控制的因素,如單位時間生產量。決策變量是可控因素,目標就是在不超出約束條件的情況下,對決策因素做一個組合,實現最大利潤。
最大化問題:將決策變量,約束條件和希望最大化的目標合并成一個目標函數。任何最優化問題都有一些約束條件和目標函數。
可行區域:產品組合所在由約束線圍城的空間。如約束條件:橡膠供應量能產生500只橡皮鴨和400條橡皮魚。時間夠用來生產400只橡皮鴨或300條橡皮魚。
負相關性:一種產品越多就意味著另一種產品減少。不要假定兩種變量是不相關的,創建模型時,要規定假設中的各種變量的相互關系。
時效性:情況總是變化,因此模型也不是一塵不變的,需要經常根據實際情況進行修正。