Categories
程式開發

如何用Delta-p統計量解釋Logistic回歸模型


本文要點:

  • 利用Delta-p統計量,非技術決策者可以很輕鬆地理解基於Logistic回歸模型的預測
  • 學習如何根據用於信貸申請處理的Logistic回歸模型的係數來計算Delta-p統計量。
  • 數據工作流包括訪問原始數據,訓練Logistic回歸模型,以及使用Delta-p統計量評估單個預測因子的效果等步驟。
  • 請記住,在處理高維數據時,Logistic回歸可能不是最好的選擇,因為有許多相關的預測因子。

設想這樣一種情況:一個信貸客戶申請一筆信貸,銀行收集有關該客戶的數據(人口統計學數據、現有資金等等),並使用機器學習模型預測客戶的信用度。客戶的信貸申請被拒絕了,但銀行不知道具體的原因。或者,一家銀行想要宣傳他們的信貸,而目標群人群應該是那些最終能夠獲得信貸的人。但他們是誰呢?

在這種情況下,我們希望使用一個易於解釋的模型,例如Logistic回歸模型。 Delta-p統計量使得係數的解釋更加容易了。有了Delta-p統計量,無需數據科學家,銀行家也可以通知客戶,比如,信貸申請被拒絕了,因為所有用於教育的信貸申請人獲得信貸的機會都很低。這個決定是合理的,客戶不會受到個人傷害,並且他或她可能會在幾年後回來申請抵押貸款。

在本文中,我們將解釋如何根據Logistic回歸模型的係數計算Delta-p統計量。我們使用尼米工作流演示了從原始數據到模型訓練和模型評估的過程,其中每個中間步驟都有一個可視化的表示。但這個過程可以在任何工具中實施。

用Delta-p統計量評估單個預測因子的效果

Logistic回歸模型

當我們使用Logistic回歸算法進行分類時,我們用一個http://logistic function”>Logistic函數來建模目標類別的概率,例如不良信貸評級的概率。假設我們有一個二項Logistic回歸模型,目標列y為信貸評級,有兩個等級,分別用0(良好信貸評級)和1(不良信貸評級)表示。目標類別(y=1)與參考類別(y)的對數機率(log odds)是預測因子x(賬戶餘額、信貸期限、信貸用途等)的線性組合βx。 βx的Logistic函數將對數機率轉換為目標類別的概率:

如何用Delta-p統計量解釋Logistic回歸模型 1

其中,β是預測目標類別y的Logistic回歸模型中預測因子xin的係數向量。

目標類別和參考類別可以任意選擇。在我們的例子中,目標類別是“不良信貸評級”,參考類別是“良好信貸評級”。

Delta-p統計量

如果單個預測因子列xi是連續的,當xi增加1時,則係數βi的變化與目標類別的對數機率相對應。如果xi是二項式列,則係數值βi是xi從0變化到1時對數機率的變化。目標類別的概率變化由Logistic函數提供,如圖1所示。

如何用Delta-p統計量解釋Logistic回歸模型 2

圖1. Logistic函數將目標類別y=1的概率建模為一個連續預測因子列xi的函數

Delta-p統計量將係數值βi轉換成單個預測因子列的影響百分比,即將目標類別的概率與平均數據點(例如,平均信貸申請)進行相比。

根據定義,Delta-p統計量是一種在給定自變量發生一個單位的變化,而所有其他變量保持其均值不變的情況下,測量結果發生概率的離散變化的度量。例如,如果預測因子列xi的Delta-p值為0.2,則該列增加一個單位(或二項式列從0變化到1)會將目標類別的概率提高20%。以下公式展示瞭如何計算目標類別的先驗概率和後驗概率,以及作為其差分1的Delta-p統計量:

如何用Delta-p統計量解釋Logistic回歸模型 3

用例:信貸目的和活期賬戶餘額對信貸評級的影響

現在,讓我們用一個例子來說明這一點,並檢查現有帳戶的信貸目的和余額是如何改善或惡化信貸評級的。我們使用UCI機器學習知識庫提供的德國信用卡數據。該數據集包含21列,這些列提供了有關1000名信貸申請人的人口統計和經濟狀況信息。 30%的申請人信貸等級較差,而70%的申請人信貸等級良好。通過單擊頁面頂部的“數據文件夾”,然後在下一頁選擇“german.data“項,可以下載.data格式的數據。這個german.data文件可以在文本編輯器中打開並保存,例如,保存成csv格式。 german.doc文件提供了類別列中的列名和描述,可以通過同一“數據文件夾”頁面訪問。

圖2中的工作流程顯示了從訪問原始數據到訓練Logistic回歸模型,以及使用Delta-p統計量評估單個預測因子列的效果的過程。該過流程分為以下步驟,每個步驟都在一個獨立的彩色框中實現:(1)訪問數據;(2)根據Logistic回歸模型的要求對數據進行預處理;(3)訓練模型;(4 )根據模型係數計算Delta-p統計量。在預處理步驟中,我們將目標列從符號1/2轉換為“好”/“壞”,並將原來的兩個多項式列轉換為二項式列:根據現有銀行賬戶的狀態,將“校驗”(“checking”)列編碼為“負”/“有些資金或沒有帳戶”兩個值。我們將“目的”(“purpose”)列編碼為“教育”/“非教育”,以評估教育作為信貸目的的效果。最後,我們處理缺失值並標準化數據中的數字列。

如何用Delta-p統計量解釋Logistic回歸模型 4

圖2. 從獲取原始信貸客戶數據到訓練信貸評級模型,再到使用Delta-p統計量來評估預測因子列對信貸評級影響的過程。該解決方案構建在KNIME分析平台上,通過Delta-p工作流,可以在KNIME Hub上查看並下載單個預測因子的評估效果。

圖3顯示了Logistic回歸模型的係數統計,可在任何工具中重現。 “Coeff.”列顯示了不同預測因子列的係數值,目的=教育為0.683。 “P>|z|”列顯示了係數的p值,目的=教育为0.055。这意味着,教育作为一种信贷目的增加了不良信贷评级的概率,因为其系数值是正的,而且由于p值小于0.1, 这种影响是显著的,显著性水平高达90%。

如何用Delta-p統計量解釋Logistic回歸模型 5

圖3. 預測信貸申請人信貸等級好壞的Logistic回歸模型的係數統計

通過查看Logistic回歸模型的係數統計,我們發現,與其他信貸目的相比,將教育作為一種信貸目的增加了不良信貸評級的概率。此外,由係數值0.683可知,以教育或非教育為信貸目的的不良信貸評級的對數機率比為0.683,兩組的對數機率為e0.683=1.979。這意味著什麼呢?比如,在一個有100個信貸申請人的組中,假設其中20人以教育為目的申請貸款(第1組),其餘80人以其他目的申請貸款(第2組),如果第2組80個申請人中有10人信貸評級不良,那麼他們的對數機率是0.125,那麼根據對數機率1.979,第1組的對數機率必須是第2組對數機率的2倍,也就是0.25。因此,第1組中有5個(四分之一)申請人必須是信貸評級不良的!

係數統計具有通用標度,我們可以用它們來比較不同預測因子列的大小和效果。然而,要了解單個預測因子的效果,Delta-p統計量提供了一種更簡單的方法!讓我們來看看:

在圖4中,我們可以看到Delta-p統計量和計算它的中間結果,也如下所示,還展示了目的=教育的變量:

如何用Delta-p統計量解釋Logistic回歸模型 6

如何用Delta-p統計量解釋Logistic回歸模型 7

圖4. Delta-p統計量及其中間結果,以及用於預測信貸申請人信貸評級好壞的Logistic回歸模型的相應係數統計

Delta-p統計值0.159表明,與平均的信貸申請相比,以教育為目的信貸會使不良信貸評級的概率增加15.9%。

如果我們想將此效果與相反的情況進行比較,即信貸目的不是教育,而是一個平均信貸申請,我們需要重新計算先驗概率,同時也需要以均值為中心對權益xi的預測因子列的二項式值進行計算。在我們的數據中,有5%的人申請貸款是出於教育目的,所以”目的“(“purpose”)列的平均值是0.05。

如何用Delta-p統計量解釋Logistic回歸模型 8

Delta-p統計值0.158表明,與用於其他目的的人相比,用於教育的信貸使不良信貸評級的概率增加了15.8%。與之前的情況幾乎沒有任何區別,我們與一個普通的申請人進行比較,得到Delta-p的值為0.159(圖4)。這意味著除教育以外以其他目的申請信貸人在信貸評級方面非常接近樣本平均水平,這顯然是因為他們佔了總樣本的95%。

現在我們知道,以教育為目的申請信貸會對信貸評級產生負面的影響。哪一列可以產生積極的影響呢?讓我們檢查一下我們創建的另一個虛擬列的效果,即“檢查”(“checking”)列,它指示現有帳戶的餘額是否為負。校驗=有些資金或沒有帳戶的係數值為-1.063,p值為0,如圖3的第一行所示。

正如圖4中第一行所示,Delta-p統計值為-0.171,沒有負帳戶餘額的信貸申請人的不良信貸評級概率比平均信貸申請人的低17.1%。有趣的是,我們發現有兩個列,即“目的”列和“校驗”列,它們的大小幾乎相同,但方向不同。如果我們看一下圖4中這兩個變量的機率比,乍一看不會得到相同的信息:校驗=一些基金或沒有賬戶的機率比是0.345,目的=教育的機率比是1.979。

結論

在這篇文章中,我們介紹了Delta-p統計量作為解釋Logistic回歸模型係數的一種簡單方法。借助Delta-p統計量,非技術決策者可以很輕鬆地理解基於Logisti回歸模型的預測。

在本文中,我們使用Delta-p統計量來評估使信貸申請成功或失敗的各個影響因素。當然,Delta-p統計量的用例更多。例如我們可以使用它來確定最能降低或提高客戶滿意度的單個接觸點,或在檢測疾病時找到相關性最高的症狀。還要注意的是,並非總是需要完成從原始數據到模型訓練以及模型評估的整個過程,Delta-p統計量也可用於重新評估先前訓練的Logistic回歸模型的係數。

Delta-p統計量只能用於評估Logistic回歸模型中預測因子列的單個效應。當處理高維數據時,Logistic回歸可能不是最好的選擇,因為有許多相關的預測因子列,並且因子列與目標列不相關。目標類還需要在特徵空間中是線性可分的。

如果想複製本文中描述的過程,一種選擇是在筆記本電腦上安裝開源的KNIME分析平台,並免費下載本文附帶的KNIME工作流。無需安裝KNIME分析平台,就可以在KNIME Hub上查看可視化的工作流。其他選擇是在任何其他編程工具中實施計算,甚至可以用計算器手動執行。

作者簡介

馬里特·威德曼(Maarit Widmann)是KNIME的數據科學家。她開始於定量社會學,並獲得社會科學學士學位。在康斯坦茨大學(The University of Konstanz)完成理學碩士學位後,她就成為了“社會”的一員!她現在通過視頻和博客文章交流數據科學背後的概念。請在領英上關注Maarit。

阿爾弗雷多·羅卡托(Alfredo Roccato)是一位專注於數據科學的獨立顧問和培訓師。他曾在米蘭的天主教大學( Catholic University)學習過統計數據,35年來一直為企業提供商務智能和分析服務。請在領英上關注Alfredo。

原文鏈接:

https://www.infoq.com/articles/logistic-regression-model-with-delta-p-statistics/