欧美一区二区三区,国内熟女精品熟女A片视频小说,日本av网,小鲜肉男男GAY做受XXX网站

如何利用python來構造一個信用卡評分模型?

錢多多2年前13瀏覽0評論

1.背景介紹

在大數據自動化審批實踐中,信用評分技術已經是一項逐漸成熟的風險估值方法。在消費金融的風險控制實踐中,信用評分卡模型已經得到廣泛地應用。

何為信用評分卡?

簡而言之就是利用客戶已有的信息,這些數據可以來自一些三方平臺(例如芝麻分、京東白條、微信、銀行信用卡)等。利用已有的歷史數據對客戶的信用狀況進行量化,這種量化的直觀反映就是信用的分值。

今天我們向大家展示如何來構造一個銀行業普遍使用的信用卡評分模型。這里我們使用的數據是國際上鼎鼎有名的data比賽Kaggle上的數據集:GiveMeSomeCredit,一家德國銀行的信用卡客戶歷史數據。整個數據集上有超過10萬條客戶數據,數據量的龐大也為模型的準確度提高了保障。Kaggle大神Zoe已經給出了一個龐大且系統的完成代碼集,我們這里則簡化很多,以期能夠管中窺豹。

一個完整的信用卡評分模型主要包括以下幾個部分:

數據處理、特征變量選擇、變量WOE編碼離散化、logistic回歸模型開發評估、信用評分卡和自動評分系統創建以及模型評估。

數據來源于Kaggle上的數據集:GiveMeSomeCredit,共計有15萬條樣本數據,主要包括以下11個變量。

2數據預處理

說句實話,這一步很繁瑣。任何一個統計分析的過程,數據的預處理占據了7層甚至更多的時間??梢缘谝皇值臄祿偸请s亂無章的,無用的數據太多。一個不干凈的數據會讓我們得到很多匪夷所思的結果。因此,我們還是乖乖地去|“清洗“數據。無奈清洗數據真實太熬人了,為了方便,我們索性就直接刪去了清洗數據這一步。。。

現在你們看到的就是一個非常干凈和清爽的數據。此處省略......字

3變量WOE分箱處理

特征變量選擇(排序)對于數據分析、機器學習來說非常重要。好的特征選擇能夠提升模型的性能,更能幫助我們理解數據的特點、底層結構,這對進一步改善模型、算法都有著重要作用。首先選擇對連續變量進行最優分段,在連續變量的分布不滿足最優分段的要求時,再考慮對連續變量進行等距分段。

    針對不能最優分箱的變量,分箱如下:

        4Logistic模型建立

          假設顯著性水平設定為0.01,因此,我們構造的邏輯斯特回歸模型是非常顯著的。對已經構建的模型進行驗證,ROC曲線和AUC來評估模型的擬合能力。

            從上圖可知,AUC值為0.85,說明模型的預測能力較好,正確率較高。證明了用當前這五個特征,去構成信用評分卡的一部分分值是有效的,預測能力是較好的。

            5信用評分卡模型構建

            實際上,評分卡模型構建一個最基本的要素就是基礎分值和翻倍分值。

            評分卡的參數設定:基礎分值+PDO(比率翻倍分值)

            基礎分值:設定為600分

            比率翻倍分值PDO:20--每高20分好壞比翻一倍,好壞比為20。

            個人總評分=基礎分+各部分得分

            Score=offset+factor*log(odds)

              總結

              在大數據自動化審批實踐中,信用評分技術已經是一項逐漸成熟的風險估值方法。在消費金融的風險控制實踐中,信用評分卡模型已經得到廣泛地應用。利用已有的歷史數據對客戶的信用狀況進行量化,這種量化的直觀反映就是信用的分值。通過對kaggle上的數據GiveMeSomeCredit的挖掘分析,結合信用評分卡的建立原理,通過數據預處理、變量選擇、建模分析預測等方法創建了一個簡單的信用評分系統。