關聯詞語分類?
類關聯規則實際上就是用關聯規則做的分類器。全名叫Class Based Association Rule,簡稱CBA,不要和中國男籃搞混了。假設你的訓練數據是一張表格,每行代表對一個物體的描述,每列代表物體某個屬性的值,其中最后一列是物體的類別編號(其實就是分類問題的訓練數據)CBA的經典執行方法為:1. 離散化該表格,針對每個連續屬性,將其定義域分割成若干個區間,用數據所在的區間來代替原數據。2. 對表格中出現過的每個屬性的每個不同離散值賦予一個獨一無二的整數編號。這樣就成功把表格變成了挖掘經典關聯規則所用的事務數據集。3. 用關聯規則挖掘算法從轉換后的數據中挖掘關聯規則。4. 將那些后件中不包含類別信息的規則刪除。執行到這里,我們就獲得了一些分類用的分類規則了,此時,若出現了一條不包含類別信息的新數據,就可以將該數據和規則庫中的所有規則前件加以匹配,找出最符合的規則輸出類別,就完成了分類。前件匹配的優先級(僅僅是建議,具體還是要根據實踐調整)1. 前件與新數據的漢明距離,當然新數據也必須用同樣的方法離散化。越小越好2. 置信度越大越好3. 支持度越大越好4. 提升度,即前件出現的情況下,后件出現的概率與后件通常情況下出現概率的比值,越大越好當然,經過許多年的學術研究,CBA的算法早已汗牛充棟,具體可在谷歌學術中搜索Class based association rule,國內的話可以用鏡像“glgoo學術”。CBA的優點是分類邏輯極其明確,不像許多其他分類器跟煉丹似的,完全不知道為什么work。而且,有研究顯示,CBA的分類精度很高。缺點是太屌絲(因為挖規則,通過規則匹配來分類太容易懂,不怎么高大上),不容易忽悠個別好大喜功的老板。總的來說,核心技術就是數據轉換+關聯規則挖掘+規則匹配我在我的github上分享了一些用c++寫的Python2.7包,做關聯規則用的。歡迎使用。https://github.com/DMDarkness/Data-mining