欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

數(shù)據(jù)分析師如何使用統(tǒng)計(jì)數(shù)據(jù)?

林子帆2年前13瀏覽0評論

數(shù)據(jù)分析師

數(shù)據(jù)分析師是數(shù)據(jù)師Datician['det???n]的一種,指的是不同行業(yè)中,專門從事行業(yè)數(shù)據(jù)搜集、整理、分析,并依據(jù)數(shù)據(jù)做出行業(yè)研究、評估和預(yù)測的專業(yè)人員。

為什么要學(xué)習(xí)統(tǒng)計(jì)學(xué)?

因?yàn)榱私飧鞣N技術(shù)背后的想法是非常重要的,以便知道如何以及何時(shí)使用它們。此外,這是一個(gè)非常有前景的研究領(lǐng)域,在科學(xué),工業(yè)和金融領(lǐng)域有著重要的應(yīng)用,而且統(tǒng)計(jì)學(xué)是培養(yǎng)現(xiàn)代數(shù)據(jù)科學(xué)家的基本要素。

統(tǒng)計(jì)學(xué)應(yīng)用的經(jīng)典例子包括以下這些:

  • 確定前列腺癌的危險(xiǎn)因素。
  • 根據(jù)記錄周期圖對錄制的音素進(jìn)行分類。
  • 根據(jù)人口統(tǒng)計(jì),飲食和臨床測量預(yù)測是否有人會發(fā)生心臟病。
  • 自定義垃圾郵件檢測系統(tǒng)。
  • 識別手寫郵政編碼中的數(shù)字。
  • 將組織樣本分為幾個(gè)癌癥類別之一。

建立人口調(diào)查數(shù)據(jù)中工資與人口變量之間的關(guān)系。

本篇文章分享《統(tǒng)計(jì)學(xué)入門》一書中的10個(gè)統(tǒng)計(jì)方法,任何數(shù)據(jù)科學(xué)家都應(yīng)該學(xué)會更有效地處理大數(shù)據(jù)集。由于篇幅原因,這次先介紹前5個(gè),下篇文章再介紹剩下的。

在使用這10種方法之前,大家要區(qū)分“統(tǒng)計(jì)學(xué)習(xí)”和“機(jī)器學(xué)習(xí)”:

  • 機(jī)器學(xué)習(xí)是人工智能的一個(gè)子領(lǐng)域。
  • 統(tǒng)計(jì)學(xué)習(xí)是統(tǒng)計(jì)學(xué)的一個(gè)分支。
  • 機(jī)器學(xué)習(xí)更強(qiáng)調(diào)大規(guī)模應(yīng)用和預(yù)測的準(zhǔn)確性。
  • 統(tǒng)計(jì)學(xué)習(xí)強(qiáng)調(diào)模型及其可解釋性,精確性和不確定性。
  • 但是這種區(qū)別變得越來越模糊,并且存在著很多“交叉”。
  • 機(jī)器學(xué)習(xí)在市場營銷中占據(jù)上風(fēng)!

1、線性回歸(LinearRegression)

在統(tǒng)計(jì)學(xué)中,線性回歸是一種通過擬合自變量與自變量之間最佳線性關(guān)系來預(yù)測目標(biāo)變量的方法。最好的做法是確保每個(gè)點(diǎn)的形狀和實(shí)際觀測之間的所有距離之和盡可能小。形狀的適合性是“最好的”,因?yàn)樵谛螤畹倪x擇上沒有其他位置會產(chǎn)生較少的誤差。線性回歸的2種主要類型是簡單線性回歸多元線性回歸。簡單線性回歸使用一個(gè)獨(dú)立變量來通過擬合最佳線性關(guān)系來預(yù)測因變量。多重線性回歸使用多個(gè)獨(dú)立變量來通過擬合最佳線性關(guān)系來預(yù)測因變量。





舉個(gè)例子:選擇你在日常生活中使用的任何兩件相關(guān)的東西,例如每月支出,月收入和過去三年每月的旅行次數(shù)的數(shù)據(jù)。現(xiàn)在回答以下問題:

明年的每月開支是多少?

  • 哪個(gè)因素(每月收入或每月旅行次數(shù))在決定我的每月支出時(shí)更重要?
  • 月收入和每月旅行如何與每月支出相關(guān)?

2、分類(Classification)

分類是一種數(shù)據(jù)挖掘技術(shù),它將類別分配給數(shù)據(jù)集合,以幫助進(jìn)行更準(zhǔn)確的預(yù)測和分析。也有時(shí)稱為決策樹,分類是用于對非常大的數(shù)據(jù)集進(jìn)行分析的幾種方法之一。2大分類技術(shù)脫穎而出:Logistic回歸和判別分析。

Logistic回歸分析是當(dāng)因變量是二分的(二元)時(shí)進(jìn)行的適當(dāng)?shù)幕貧w分析。像所有回歸分析一樣,邏輯回歸是預(yù)測分析。Logistic回歸用于描述數(shù)據(jù)并解釋一個(gè)相關(guān)二元變量與一個(gè)或多個(gè)名義,序數(shù),區(qū)間或比例級別的獨(dú)立變量之間的關(guān)系。邏輯回歸可以檢查的問題類型:

  • 體重每增加一磅和每天吸一包香煙,肺癌的可能性(是vs否)會發(fā)生怎樣的變化?
  • 體重卡路里攝入量,脂肪攝入量和參與者年齡對心臟病發(fā)作有何影響(有vs無)?





在判別分析中,先驗(yàn)已知2個(gè)或更多個(gè)組或群或群,并基于所測量的特征將1個(gè)或更多個(gè)新觀察分類到1個(gè)已知群中。判別分析在每個(gè)響應(yīng)類別中分別對預(yù)測變量X的分布進(jìn)行建模,然后使用貝葉斯定理將它們翻轉(zhuǎn)為給定X的值的響應(yīng)類別概率的估計(jì)。這樣的模型可以是線性的或二次的。

線性判別分析為每個(gè)觀測值計(jì)算“判別分?jǐn)?shù)”,以便對它所處的響應(yīng)變量類別進(jìn)行分類。這些分?jǐn)?shù)是通過尋找自變量的線性組合得到的。它假設(shè)每個(gè)類別內(nèi)的觀察值都來自多變量高斯分布,預(yù)測變量的協(xié)方差在響應(yīng)變量Y的所有k個(gè)水平上是共同的。

二次判別分析提供了一種替代方法。和LDA一樣,QDA假定每個(gè)Y類的觀測值都是從高斯分布中得到的。但是,與LDA不同的是,QDA假定每個(gè)類都有其自己的協(xié)方差矩陣。換句話說,預(yù)測變量不被假定在Y中的每個(gè)k個(gè)水平上具有共同的方差。

3、重采樣方法(ResamplingMethods)

重采樣是從原始數(shù)據(jù)樣本中繪制重復(fù)樣本的方法。這是統(tǒng)計(jì)推斷的非參數(shù)方法。換句話說,重采樣方法不涉及使用通用分布表來計(jì)算近似p個(gè)概率值。

重采樣根據(jù)實(shí)際數(shù)據(jù)生成唯一的采樣分布。它使用實(shí)驗(yàn)方法而不是分析方法來生成獨(dú)特的抽樣分布。它產(chǎn)生無偏估計(jì),因?yàn)樗腔谘芯空咚芯繑?shù)據(jù)的所有可能結(jié)果的無偏樣本。為了理解重采樣的概念,您應(yīng)該理解術(shù)語拔靴法(Bootstrapping)和交叉驗(yàn)證(Cross-Validation):





拔靴法是一種技術(shù),可以幫助您在很多情況下驗(yàn)證預(yù)測模型的性能、集成方法、估計(jì)模型的偏差和方差。它通過對原始數(shù)據(jù)進(jìn)行替換進(jìn)行采樣,并將“未選擇”的數(shù)據(jù)點(diǎn)作為測試用例。我們可以多做幾次,并計(jì)算平均分作為我們的模型性能的估計(jì)。

另一方面,交叉驗(yàn)證是驗(yàn)證模型性能的一種技術(shù),它是通過將訓(xùn)練數(shù)據(jù)分成k個(gè)部分來完成的。我們以k-1部分作為訓(xùn)練集,并使用“伸出部分”作為我們的測試集。我們重復(fù)k次不同的方式。最后,我們將k分?jǐn)?shù)的平均值作為我們的業(yè)績估計(jì)。

通常對于線性模型來說,普通最小二乘法是要考慮將其納入數(shù)據(jù)的主要標(biāo)準(zhǔn)。接下來的3種方法是可以為線性模型的擬合提供更好的預(yù)測精度和模型可解釋性的替代方法。

4、子集選擇(SubsetSelection)

這種方法確定了我們認(rèn)為與響應(yīng)相關(guān)的p個(gè)預(yù)測因子的一個(gè)子集。然后,我們使用子集特征的最小二乘擬合模型。





  • 最佳子集選擇:這里我們對每個(gè)可能的p個(gè)預(yù)測子組合進(jìn)行單獨(dú)的OLS回歸擬合,然后查看最終的模型擬合。該算法分為2個(gè)階段:(1)擬合所有包含k個(gè)預(yù)測變量的模型,其中k是模型的最大長度;(2)使用交叉驗(yàn)證的預(yù)測誤差選擇單個(gè)模型。使用測試或驗(yàn)證錯(cuò)誤非常重要,而不是訓(xùn)練錯(cuò)誤來評估模型擬合,因?yàn)镽SS和R2單調(diào)增加更多的變量。最好的方法是在測試誤差估計(jì)值上交叉驗(yàn)證并選擇具有最高R2和最低RSS的模型。
  • 向前逐步選擇考慮p個(gè)預(yù)測因子的更小的子集。它從不含預(yù)測變量的模型開始,然后在模型中添加預(yù)測變量,直到所有預(yù)測變量都在模型中。被添加的變量的順序是變量,其給出對擬合的最大的加法改進(jìn),直到?jīng)]有更多的變量使用交叉驗(yàn)證的預(yù)測誤差來改進(jìn)模型擬合。
  • 向后逐步選擇開始將模型中的所有預(yù)測變量,然后迭代去除最不有用的預(yù)測變量。
  • 混合方法遵循前向逐步方法,但是,在添加每個(gè)新變量之后,該方法還可以移除對模型擬合沒有貢獻(xiàn)的變量。

5、特征縮減技術(shù)(Shrinkage)

這種方法適合一個(gè)涉及所有p個(gè)預(yù)測因子的模型,然而,估計(jì)的系數(shù)相對于最小二乘估計(jì)向零收縮。這種縮水,又稱正規(guī)化,具有減少方差的作用。取決于執(zhí)行什么類型的收縮,可以估計(jì)一些系數(shù)恰好為零。因此這個(gè)方法也執(zhí)行變量選擇。將系數(shù)估計(jì)收縮為零的兩個(gè)最著名的技術(shù)是嶺回歸(ridgeregression)和lasso回歸。





  • 嶺回歸類似于最小二乘,除了通過最小化一個(gè)稍微不同的數(shù)量估計(jì)系數(shù)。像OLS一樣,嶺回歸尋求減少RSS的系數(shù)估計(jì),然而當(dāng)系數(shù)接近于零時(shí),它們也會有收縮懲罰。這個(gè)懲罰的作用是將系數(shù)估計(jì)收縮到零。不用進(jìn)入數(shù)學(xué)計(jì)算,知道嶺回歸縮小列空間方差最小的特征是有用的。像在主成分分析中一樣,嶺回歸將數(shù)據(jù)投影到雙向空間,然后比高方差分量收縮低方差分量的系數(shù),這相當(dāng)于最大和最小主分量。
  • 嶺回歸至少有一個(gè)缺點(diǎn);它包括最終模型中的所有p個(gè)預(yù)測值。罰款期限將使他們中的許多接近于零,但從未完全為零。這對于預(yù)測準(zhǔn)確性來說通常不是問題,但它可能使模型更難以解釋結(jié)果。Lasso回歸克服了這個(gè)缺點(diǎn),并且能夠迫使一些系數(shù)歸零,只要s足夠小。由于s=1導(dǎo)致有規(guī)律的OLS回歸,當(dāng)s接近0時(shí),系數(shù)收縮為零。因此,Lasso回歸也執(zhí)行變量選擇。