欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

怎么理解辛普森悖論中的“用同一數(shù)據(jù)證明兩個(gè)相反的論點(diǎn)”?

辛普森悖論告訴我們,數(shù)據(jù)不是絕對(duì)客觀的。

想象一下,你和你的小伙伴正在努力尋找一個(gè)完美的餐廳,以便愉快的享用晚餐。我們清楚這個(gè)過程可能會(huì)花費(fèi)數(shù)小時(shí)去爭(zhēng)論,你會(huì)找到現(xiàn)代生活的便利之處:在線評(píng)論。通過在線評(píng)論,你找到了自己的選擇,推薦Carlo's餐廳的男女用戶的比例都高于你的小伙伴選擇的Sophia's餐廳。然而,正當(dāng)你準(zhǔn)備宣布勝利時(shí),你的小伙伴使用相同的數(shù)據(jù)得到,由于所有用戶中推薦選擇Sophia的百分比較高,因此很明顯要選擇它。

到底是怎么回事?誰(shuí)在說謊?是審計(jì)網(wǎng)站的計(jì)算錯(cuò)誤嗎?事實(shí)上,你和你的小伙伴都是對(duì)的,你在不知不覺中進(jìn)入了辛普森悖論的世界。在辛普森悖論里,餐館可以同時(shí)比競(jìng)爭(zhēng)對(duì)手更好和更差,運(yùn)動(dòng)可以降低并增加疾病的風(fēng)險(xiǎn),同樣的數(shù)據(jù)集可以用來證明兩個(gè)相反的論點(diǎn)。也許你和你的伴侶應(yīng)該在晚上討論這個(gè)引人入勝的統(tǒng)計(jì)學(xué)現(xiàn)象,而不是出去吃飯。

當(dāng)原本分離的數(shù)據(jù)被組合起來,之前出現(xiàn)的統(tǒng)計(jì)現(xiàn)象會(huì)發(fā)生逆轉(zhuǎn),這時(shí)辛普森悖論就發(fā)生了。在餐廳推薦示例中,就男女的高推薦率確實(shí)可以推薦Carlo's而不是Sophia's,且同時(shí)所有評(píng)價(jià)者對(duì)Carlo's的推薦率較低。在你說這不可能之前,請(qǐng)看看下表的證明。

Carlo's在男女雙方都獲勝,但總體上輸了!

數(shù)據(jù)清楚地表明:當(dāng)數(shù)據(jù)分離時(shí),Carlo's是首選;但當(dāng)組合數(shù)據(jù)后,Sophia's是首選!

這怎么可能?這里的問題是,僅查看單獨(dú)數(shù)據(jù)中的百分比會(huì)忽略樣本大小,即回答問題的受訪者數(shù)量。每個(gè)分?jǐn)?shù)都表示受訪者中推薦餐廳的用戶數(shù)量占比。Carlo's餐廳的男性評(píng)論者遠(yuǎn)遠(yuǎn)多于女性,而Sophia's則反過來。由于男性推薦餐館的比例較低,當(dāng)組合數(shù)據(jù)時(shí),這導(dǎo)致Carlo's的平均評(píng)級(jí)較低,因此存在悖論。

要回答我們應(yīng)該去哪家餐館的問題,我們需要決定數(shù)據(jù)是組合還是分離查看。我們是否應(yīng)該組合數(shù)據(jù)取決于生成數(shù)據(jù)的過程,即數(shù)據(jù)的因果模型。在我們看完另一個(gè)例子后,我們將解釋這是什么意思以及如何解決辛普森悖論。

相關(guān)性逆轉(zhuǎn)

分組的數(shù)據(jù)點(diǎn)各自表現(xiàn)出某一個(gè)方向的相關(guān)性,在聚集時(shí)卻表現(xiàn)出相反方向的相關(guān)性,這是辛普森悖論的另一個(gè)版本。我們來看一個(gè)簡(jiǎn)化的例子。假設(shè)我們有關(guān)于每周運(yùn)動(dòng)小時(shí)數(shù)與兩組患者(50歲以下和50歲以上患者)患病風(fēng)險(xiǎn)的數(shù)據(jù)。以下是顯示運(yùn)動(dòng)時(shí)間與患病概率之間關(guān)系的分離概率圖。

根據(jù)年齡分組的患病概率與每周運(yùn)動(dòng)小時(shí)數(shù)的關(guān)系圖。

我們清楚地看到負(fù)相關(guān)關(guān)系,表明每周運(yùn)動(dòng)水平的增加與兩組患者發(fā)生疾病的風(fēng)險(xiǎn)降低相關(guān)。現(xiàn)在,我們將數(shù)據(jù)組合在一起:

患病概率與運(yùn)動(dòng)概率的組合圖。

相關(guān)性完全逆轉(zhuǎn)!如果只看這個(gè)數(shù)字,我們會(huì)得出結(jié)論,運(yùn)動(dòng)增加了患病的風(fēng)險(xiǎn),這與我們從分離概率圖中所看到的相反。運(yùn)動(dòng)如何做到即減少又增加患病的風(fēng)險(xiǎn)?答案是它沒有,而且要弄清楚如何解決悖論,我們需要透過數(shù)據(jù)看本質(zhì):什么造成了這個(gè)結(jié)果。

解決悖論

為了避免辛普森悖論導(dǎo)致我們得出兩個(gè)相反的結(jié)論,我們需要選擇將數(shù)據(jù)分組或?qū)⑺鼈兙酆显谝黄稹_@似乎很簡(jiǎn)單,但我們?nèi)绾螞Q定做哪個(gè)?答案是學(xué)會(huì)思考因果關(guān)系:數(shù)據(jù)如何生成,基于此,哪些因素會(huì)影響我們未展示的結(jié)果?

在運(yùn)動(dòng)與患病的例子中,我們直觀地知道運(yùn)動(dòng)不是影響患病概率的唯一因素。還有其他因素,如飲食、環(huán)境、遺傳等。但是,在上面的圖中,我們只看到患病概率與運(yùn)動(dòng)時(shí)間的關(guān)系。在我們的虛構(gòu)例子中,我們假設(shè)疾病是由運(yùn)動(dòng)和年齡引起的。這在以下的患病概率的因果模型中得以表現(xiàn)。

有兩個(gè)誘因的患病概率的因果模型。

在數(shù)據(jù)中,有兩種不同的患病原因,但通過組合數(shù)據(jù)并僅查看患病概率與運(yùn)動(dòng)時(shí)間,我們完全忽略了第二個(gè)原因即年齡。如果我們繼續(xù)繪制患病概率與年齡的關(guān)系,我們可以看到患者的年齡與患病概率有強(qiáng)正相關(guān)。

按年齡分組的患病概率與年齡的關(guān)系圖。

隨著患者年齡的增加,她/他患病的風(fēng)險(xiǎn)增加,這意味著即使運(yùn)動(dòng)量一樣,老年患者也比年輕患者更容易患病。因此,為了公正地評(píng)估運(yùn)動(dòng)對(duì)疾病的影響,我們希望保持年齡不變僅改變每周運(yùn)動(dòng)量。

將數(shù)據(jù)分組是實(shí)現(xiàn)這一目標(biāo)的方式之一,通過這樣做,我們可以看到:對(duì)于特定年齡組,運(yùn)動(dòng)可以降低患病的風(fēng)險(xiǎn)。也就是說,保持患者年齡不變,運(yùn)動(dòng)會(huì)降低患病風(fēng)險(xiǎn)。考慮到數(shù)據(jù)生成過程并應(yīng)用因果模型,我們通過保持?jǐn)?shù)據(jù)分組,控制變量來解決辛普森悖論。

思考我們想要回答什么問題也可以幫助我們解決悖論。在餐廳的例子中,我們想知道哪家餐廳最有可能滿足我們和我們的小伙伴。即使可能有其他因素影響評(píng)論而不僅僅是餐廳的質(zhì)量,如果沒有訪問這些數(shù)據(jù),我們希望將評(píng)論結(jié)合在一起并關(guān)注整體平均值。在這種情況下,組合數(shù)據(jù)最有意義。

在運(yùn)動(dòng)與患病風(fēng)險(xiǎn)實(shí)例中提出的相關(guān)問題是,我們應(yīng)該參與更多運(yùn)動(dòng),以減少我們個(gè)體患病的風(fēng)險(xiǎn)嗎?由于我們是50多歲或不滿50歲的人(對(duì)不起那些正好50歲的人),我們需要找出正確的群體,無(wú)論我們?cè)谀膫€(gè)群體,我們都認(rèn)為應(yīng)該鍛煉的更多。

考慮數(shù)據(jù)生成過程和我們想要回答的問題不僅僅需要關(guān)注數(shù)據(jù)。這說明了從辛普森悖論中學(xué)到的關(guān)鍵教訓(xùn):僅有數(shù)據(jù)還不夠。數(shù)據(jù)絕不是純粹客觀的,特別是當(dāng)我們只看到最終的圖表時(shí),我們必須考慮是否明白整個(gè)事件。

我們可以嘗試通過詢問生成數(shù)據(jù)的原因以及未能展示的影響數(shù)據(jù)的因素來獲得更完整的理解。通常,答案表明我們實(shí)際上應(yīng)該得出相反的結(jié)論!

現(xiàn)實(shí)生活中的辛普森悖論

這種現(xiàn)象并非像某些統(tǒng)計(jì)概念那樣在理論上可行但在實(shí)踐中從未發(fā)生作用。事實(shí)上,在現(xiàn)實(shí)世界中有許多著名的辛普森悖論的研究案例。

有一個(gè)關(guān)于兩種腎結(jié)石治療療法的有效性的案例。只看獨(dú)立療法的數(shù)據(jù),療法A對(duì)小腎結(jié)石和大腎結(jié)石的效果更好,但組合數(shù)據(jù)表明療法B對(duì)兩種病情的總效果更好!下表展示了恢復(fù)率:

腎結(jié)石的療法恢復(fù)率數(shù)據(jù)。

怎么會(huì)這樣?通過考慮由專業(yè)知識(shí)提供信息的數(shù)據(jù)生成過程-因果模型,可以解決此悖論。事實(shí)證明,小腎結(jié)石被認(rèn)為是不太嚴(yán)重的病例,療法A比療法B更加激進(jìn)。因此,對(duì)于小腎結(jié)石,醫(yī)生更有可能推薦保守療法B,因?yàn)椴∏椴惶珖?yán)重,患者最有可能首先成功恢復(fù)。對(duì)于嚴(yán)重的大腎結(jié)石,醫(yī)生往往選擇更激進(jìn)的療法A。即使療法A在這些病例中表現(xiàn)更好,由于它適用于更嚴(yán)重的病例,療法A的總體恢復(fù)率低于療法B.

在這個(gè)現(xiàn)實(shí)世界的例子中,腎結(jié)石的大小(病例的嚴(yán)重性)被稱為混合變量,因?yàn)樗绊懽宰兞浚ǒ煼ǎ┖鸵蜃兞浚ɑ謴?fù)時(shí)間)。混合變量也是我們?cè)跀?shù)據(jù)表中看不到的東西,但它們可以通過繪制因果圖來確定:

混合因素的因果圖。

問題中的效果即恢復(fù),是由療法和結(jié)石的大小(病例的嚴(yán)重性)引起的。此外,取決于結(jié)石尺寸選擇療法使得尺寸成為一個(gè)混合變量。為了確定哪種治療方法確實(shí)更好,我們需要通過對(duì)兩組數(shù)據(jù)進(jìn)行分離并比較組內(nèi)的恢復(fù)率而不是按組聚合來控制混合變量。這樣我們就得出結(jié)論,療法A更好。

這里有另一種思考問題的方式:如果你有一塊小結(jié)石,你首選療法A;如果你有一塊大結(jié)石,你也首選療法A。既然你必然有一塊結(jié)石,無(wú)論大小,你總是首選療法A,悖論就解決了。

有時(shí)關(guān)注組合數(shù)據(jù)很有用,但在某些情況下,它可能會(huì)掩蓋事實(shí)。

證明一個(gè)論點(diǎn)及其反面

第二個(gè)現(xiàn)實(shí)生活中的例子展示了辛普森悖論如何被用來證明兩個(gè)相反的政治觀點(diǎn)。下表顯示,在杰拉爾德·福特?fù)?dān)任總統(tǒng)期間,他不僅降低了每個(gè)群體收入的稅收,同時(shí)從1974年到1978年在全國(guó)范圍內(nèi)提高稅收。看看數(shù)據(jù):

所有群體的個(gè)人稅率均下降,但整體稅率上升。

我們可以清楚地看到,每個(gè)稅級(jí)的稅率從1974年至1978年有所下降,但整體稅率在同一時(shí)期內(nèi)有所增加。我們現(xiàn)在知道如何解決悖論:尋找影響整體稅率的其他因素。總體稅率受各個(gè)支柱稅率以及每個(gè)稅級(jí)中的應(yīng)納稅收入的影響。由于通貨膨脹(或工資增長(zhǎng)),高收入人群的總體收入增加且稅率較高,低收入人群的總體收入減少且稅率較低。因此,整體稅率上升。

除了數(shù)據(jù)生成過程之外,我們是否應(yīng)該組合數(shù)據(jù)取決于我們想要回答的問題(以及我們正在嘗試塑造的政治論點(diǎn))。在個(gè)人層面上,我們只是獨(dú)立的人,所以我們只關(guān)心自己的稅率。為了確定我們的稅收在1974年到1978年是否上升,我們必須確定稅級(jí)范圍內(nèi)的稅率變化,以及我們是否轉(zhuǎn)向了不同的稅級(jí)。有兩個(gè)原因可以解釋個(gè)人所得稅,但在這一部分?jǐn)?shù)據(jù)中只獲取了一個(gè)原因。

為什么辛普森悖論很重要

辛普森悖論很重要,因?yàn)樗嵝盐覀儯覀冋故镜臄?shù)據(jù)并不是所有數(shù)據(jù)。我們不能只滿足于數(shù)字或圖表,我們必須考慮數(shù)據(jù)生成過程-因果模型,對(duì)數(shù)據(jù)負(fù)責(zé)。一旦我們理解了數(shù)據(jù)生成的機(jī)制,我們就可以尋找影響結(jié)果的其他因素,而圖表不會(huì)告訴你這些。學(xué)會(huì)思考因果關(guān)系并不是大多數(shù)數(shù)據(jù)科學(xué)家所教授的技能,但是對(duì)于防止我們從數(shù)字中得出錯(cuò)誤的結(jié)論至關(guān)重要。除了數(shù)據(jù)之外,我們還可以利用我們的經(jīng)驗(yàn)和領(lǐng)域知識(shí)(或者該領(lǐng)域的專家)來做出更好的決策。

而且,雖然我們的直覺通常很準(zhǔn)確,但在沒有立即獲得所有信息的情況下,它們可能會(huì)出錯(cuò)。我們傾向于關(guān)注我們面前的事物(所看即所得),而不是深入挖掘并使用我們理性、緩慢的思維模式。特別是當(dāng)有人要銷售產(chǎn)品或?qū)嵤┳h程時(shí),我們必須對(duì)這些數(shù)字持懷疑態(tài)度。數(shù)據(jù)是一種強(qiáng)大的武器,但是想要幫助我們的人和邪惡的騙子都可以使用它。

辛普森悖論是一個(gè)有趣的統(tǒng)計(jì)現(xiàn)象,但它也證明了對(duì)數(shù)據(jù)操控的最佳防衛(wèi)是理性思考和質(zhì)疑的能力。