什么是數(shù)據(jù)分析?
?隨著IT行業(yè)的不斷進(jìn)步,我們進(jìn)入了海量訪問數(shù)據(jù)和購買數(shù)據(jù)自動積累的時(shí)代。這些海量數(shù)據(jù)包含對企業(yè)活動極為有用的知識。但是無論積累多少數(shù)據(jù),如果不進(jìn)行分析,就毫無意義。
當(dāng)下越來越多的公司正在采用BI。BI被定義為對業(yè)務(wù)系統(tǒng)、采購歷史等積累的大量企業(yè)內(nèi)部數(shù)據(jù)進(jìn)行系統(tǒng)化、系統(tǒng)化的積累、分類、搜索、分析、處理的概念和機(jī)制。但是如果沒有專業(yè)的人員來進(jìn)行相關(guān)工作許多公司無法利用這一數(shù)據(jù)寶庫。數(shù)據(jù)的重要性數(shù)據(jù)平均的陷阱
正在求職的你如果遇見一下兩家公司,除了以下條件之外沒有其他因素基本相同,你會選擇哪一家?A公司平均年齡30.8歲,平均年收入405,921元B公司平均年齡31.8歲,平均年收入311,860元大多數(shù)人會回答說A公司更好。員工很年輕,工資也很高。當(dāng)然如果行業(yè)、地理?xiàng)l件等其他參數(shù)不同,B公司可能會更好。但是如果不知道這些事情,應(yīng)該認(rèn)為如果正常思考的話,A公司會更好。但是這是一個(gè)極端的例子,如果每個(gè)人的年齡和年收入如下呢?A公司有一名超高薪高級員工,其余均為新人。另一方面,B公司在新秀和職業(yè)中期的老將之間取得了很好的平衡。而且,以同樣23歲的薪水來看,B公司的工資壓倒性地高。由此課件聽取數(shù)據(jù)分析結(jié)果并僅根據(jù)平均值做出判斷是多么危險(xiǎn)。中國的平均家庭年收入也是如此。沿海地區(qū)的一些富人可能正在提高他們的整體年收入,從而掩蓋了內(nèi)陸地區(qū)的實(shí)際情況。分析日志數(shù)據(jù)是完全一樣的。即使平均購買數(shù)量是3,大多數(shù)人也只購買1,并且有些人似乎是一些供應(yīng)商的人購買了數(shù)百個(gè)。因此在進(jìn)行這樣的分析時(shí),首先需要?jiǎng)?chuàng)建直方圖并檢查整體分布,然后再決定要分析的數(shù)據(jù)范圍。只接受平均值或采取對策是非常危險(xiǎn)的,因此不僅在數(shù)據(jù)分析中而且在一般生活中都需要小心。辛普森悖論
有各種各樣的分析,從基于平均值和偏差的分析到使用多變量分析和人工智能的分析。但是俗話說分析 以交叉表開始,以交叉表結(jié)束,交叉表是所有分析的基礎(chǔ)。什么是 Paradox(悖論)?即被解釋為常識的反面。說得更通俗一點(diǎn),它的意思是一個(gè)無論你怎么想都不能令人滿意的結(jié)論,即使它是基于一個(gè)似乎正確的假設(shè)的解釋。比如著名的 阿喀琉斯與烏龜悖論,速度快的阿喀琉斯無法超越面前的烏龜。烏龜領(lǐng)先于阿喀琉斯。當(dāng)阿基里斯到達(dá)烏龜所在的位置時(shí),烏龜正在向前移動。當(dāng)阿喀琉斯再次到達(dá)烏龜?shù)奈恢脮r(shí),烏龜已經(jīng)向前移動了。阿喀琉斯永遠(yuǎn)追不上烏龜。盡管結(jié)論完全沒有說服力,但很難正確反駁它,因?yàn)閷?dǎo)致結(jié)論的論證過程本身似乎是正確的。辛普森悖論的主題是 EH 辛普森統(tǒng)計(jì)悖論,它指出群體中的相關(guān)性可能不同于子群體中的相關(guān)性。在問卷調(diào)查中,交叉制表(分層)有時(shí)會揭示出總體制表(GT)中看不到的趨勢,但這是完全不同的事情,結(jié)果完全沒有說服力。能否用比較通俗的話解釋一下阿基琉斯追龜?shù)脑恚? 贊同 · 0 評論回答
什么是交叉制表
假設(shè)一家制造商開發(fā)了一款新產(chǎn)品。為了確認(rèn)與現(xiàn)有產(chǎn)品的差異,抽取了 100 名產(chǎn)品使用者的人進(jìn)行測試。現(xiàn)有產(chǎn)品和新產(chǎn)品測試結(jié)果。從這張表看 55%的患者評價(jià)現(xiàn)有產(chǎn)品為好,而新產(chǎn)品為 58%,增加了3個(gè)百分點(diǎn)。會不會覺得新產(chǎn)品開發(fā)成功了?這里不討論這 3個(gè)百分點(diǎn)是否有顯著差異,但如果產(chǎn)品規(guī)劃師、開發(fā)人員或研究人員應(yīng)該多分解一點(diǎn),按性別看或者做更詳細(xì)的分析。顯示了男性和女性之間的差異。從這張表看新產(chǎn)品似乎對男性有效,但現(xiàn)有產(chǎn)品似乎對女性更好。如果繼續(xù)按原樣銷售該產(chǎn)品,我們就會發(fā)布一款對女性不太有效的產(chǎn)品。如此一來就可以看到按屬性進(jìn)行細(xì)分分析的重要性,而不是根據(jù)整體匯總結(jié)果進(jìn)行判斷。到此為止交叉制表的想法很普通。現(xiàn)在開始悖。顯示了年齡之間的差異。現(xiàn)在,看這張表,你發(fā)現(xiàn)了什么?測試是這次做的 100 個(gè)人每個(gè)人的結(jié)果。之前對男性和女性是否有效存在分歧。但是按年齡段來看,45% 的 20 多歲的人認(rèn)為現(xiàn)有產(chǎn)品好,67% 的 30 多歲的人認(rèn)為現(xiàn)有產(chǎn)品好。總的來說,新產(chǎn)品明顯好,但從年齡組來看現(xiàn)有產(chǎn)品在這兩種情況下都更好。這是什么意思?這只是人口中的相關(guān)性如何不同于人口子組中的相關(guān)性的一個(gè)示例。什么是數(shù)據(jù)分析?數(shù)據(jù)分析是對以某種目的表達(dá)的字符、符號、數(shù)值等進(jìn)行集合,然后對其進(jìn)行分類、整理、成型、選擇后進(jìn)行解釋,從而找到有價(jià)值的意義。數(shù)據(jù)分析是有目的的。因此在開始分析時(shí),需要對得到的結(jié)果是否是預(yù)期的結(jié)果做出正確的判斷。為此需要了解三件事:對要分析的問題本身的理解
分析者除非對分析的原因和所涉及的問題有正確的認(rèn)識,否則是沒有意義的。例如數(shù)學(xué)家或統(tǒng)計(jì)學(xué)家有數(shù)據(jù),將能夠從某種方法或復(fù)雜的處理計(jì)算中得出一個(gè)合理的結(jié)果。但是如果一開始不知道數(shù)據(jù)的含義和背后的情況,就無法提出分析策略。沒有反復(fù)試驗(yàn),將永遠(yuǎn)不可能得到有用的結(jié)果。例如如何獲取數(shù)據(jù),如何預(yù)處理數(shù)據(jù),以及要進(jìn)行什么樣的分析。不要忘記公司的負(fù)責(zé)人比任何優(yōu)秀的外部分析師都更了解公司的問題,應(yīng)該從梳理問題入手,站在顧問的角度進(jìn)行數(shù)據(jù)分析。對分析方法的理解
分析師必須熟悉分析方法,有一套自己的瞬狙分析方法,并且能使用統(tǒng)計(jì)軟件或數(shù)據(jù)挖掘軟件(例如Python、R、SPSS等等),輸入任何數(shù)據(jù)后只需點(diǎn)擊一下即可獲得合理的結(jié)果。如果沒有正確理解分析方法,即使正在處理明顯錯(cuò)誤的數(shù)據(jù)或使用不合適的方法分析數(shù)據(jù),也不會注意到錯(cuò)誤。這里請?zhí)幚砑词共豢紤]后述的異常值和異常值的處理以及問卷數(shù)據(jù)與日志數(shù)據(jù)的分析條件的差異,也可能會出現(xiàn)嚴(yán)重的錯(cuò)誤。判斷分析結(jié)果的能力
在判斷分析結(jié)果之前有必要假設(shè)得到結(jié)果時(shí)會采取什么樣的行動。有得到預(yù)期結(jié)果的情況,也有得到意想不到的結(jié)果的情況。但是當(dāng)出現(xiàn)意外結(jié)果時(shí),確定要采取的措施變得非常重要。數(shù)據(jù)采集和處理的方法可能是錯(cuò)誤的,或者分析方法可能是錯(cuò)誤的。如果數(shù)據(jù)和方法都沒有錯(cuò),說明原來的假設(shè)是錯(cuò)誤的,可能會被迫改變結(jié)果方向。當(dāng)出乎意料的結(jié)果出現(xiàn)時(shí),應(yīng)該靈活地思考各種可能性。