作者曾經寫過系列文章《常用數據挖掘算法從入門到精通》,其中在第五章《常用數據挖掘算法從入門到精通第五章貝葉斯分類算法》就對樸素貝葉斯算法的理論及其應用有具體講述,需要的讀者可以到作者的主頁查看更多更詳細的內容。
本文主要講述貝葉斯分類算法并附有詳細的案例幫助大家理解。
分類分析
分類分析是一種有監督的機器學習方法。主要解決的問題是利用訓練樣本集獲得分類函數或分類模型。分類模型能很好的擬合訓練樣本集中屬性集與類別之間的關系,也可以預測一個新樣本屬于哪一類。
第二章到第四章講的聚類分析是不知道數據點的類別標簽,需要自己自動分出類來,簡單說就是一堆東西混到一起了,你要把它們區分開來誰和誰是一類的。
分類分析是本身已經知道每個數據點屬于哪個類,它的任務是找到最佳的分類方法,也就是在這種分類方法下分類的分類效果是最佳的,比如,分類錯誤發生的概率最小,或在最小風險下進行分類決策等。
分類
貝葉斯概率—主觀概率
貝葉斯方法是一種研究不確定性的推理方法。不確定性常用貝葉斯概率表示,它是一種主觀概率。通常的經典概率代表事件的物理特性,是不隨人意識變化的客觀存在,而貝葉斯則是人的認識,是個人主觀的估計,隨個人主觀認識的變化而變化。例如,一個投資者認為“購買某種股票能獲得高收益”的概率是0.6,這里的0.6是投資者根據自己多年股票生意經驗和當時股票行情綜合而成的個人信念。
貝葉斯概率是主觀的,對其估計取決于先驗知識的正確和后驗知識的豐富和準確。因此貝葉斯概率常常可能隨個人掌握信息的不同而發生變化。
概率基礎知識
關于概率方面的更多詳細知識,可以查看作者之前的一篇文章《想要學人工智能,你必須得先懂點統計學(3)概率與概率分布》。
聯合概率:設A,B是兩個隨機事件,A和B同時發生的概率稱為聯合概率,記為:P(AB)
條件概率:在B事件發生的條件下,A事件發生的概率稱為條件概率,記為:P(A|B),P(A|B)=P(AB)/P(B)
乘法定理:P(AB)=P(B)P(A|B)=P(A)P(B|A)
由樣本的先驗知識得到先驗概率,可從訓練集樣本中估算出來。之所以稱為“先驗”是因為它不考慮任何其他方面的因素。
例如,兩類10個訓練樣本,屬于w1的有2個,屬于w2的有8個,則先驗概率P(w1)=0.2,P(w2)=0.8。
在wi類發生的條件下,樣本x出現的概率。
對于某個樣本x,屬于wi類的概率,i=1,···,c。
如果用先驗概率P(wi)來確定待分樣本x的類別,依據顯然是非常不充分的,須用類條件概率密度p(x|wi)來修正。
根據樣本x的先驗概率和類條件概率密度函數p(x|wi)用Bayes公式重新修正模式樣本所屬類的概率,稱為后驗概率P(wi|x)
Bayes決策理論
用Bayes決策理論分類時要求:
各類總體的概率分布是已知的
要決策的類別數c是一定的
貝葉斯公式
貝葉斯分類規則
貝葉斯分類案例
購買汽車的顧客訓練集
因為P(是|X)>P(否|X),由此可見,對于樣本X,樸素貝葉斯分類預測該顧客會購買汽車。
如果想要了解更多的算法及其實戰,可以到作者主頁查看這一系列的文章,系列文章已經全部更新完畢。