怎樣發現機器學習模型中的缺陷？

作者 | Michael Berk

譯者 | 王強

策劃 | 劉燕

每次你用匯總統計來簡化資料時都肯定會丟失資訊。模型精度也不例外。如果你將模型擬合簡化為一份彙總統計資料，就沒辦法再確定性能最低 / 最高的位置和原因了。

圖 1：模型效能較低的資料區域示例。

為了解決這個問題，IBM 的研究人員最近開發了一種稱為 FreaAI 的方法，可以給出模型精度較低位置的可解釋資料切片。根據這些切片提供的資訊，工程師可以採取必要的步驟來確保模型按預期執行。

不幸的是，FreaAI 不是開源的，但它採用的許多理念都可以在你喜歡的技術棧中輕鬆實現。下面我們就來深入瞭解一番。

技術總結

FreaAI 能夠在測試資料中發現統計意義上效能顯著低下的切片，然後將它們返回給工程師進行檢查。方法步驟如下：

使用最高先驗後驗密度（HPD）方法以低精度查詢單變數資料切片。這些單變數資料切片減少了搜尋空間，並能揭示出我們的資料更可能出現問題的位置。

使用決策樹以低精度查詢雙變數資料切片

。這些雙變數資料切片減少了分類預測變數和二階互動的搜尋空間，以揭示我們的資料更可能出現問題的位置。

刪除所有不符合特定啟發式演算法（heuristic）的資料切片。只留下對測試集有最小支援的切片，它們的統計錯誤率顯著升高。

這到底說的是什麼意思？

一堆術語太難懂了，所以我們放慢一點，看看到底發生了什麼事情……

問題

在開發模型時，我們經常使用“精度”指標來確定擬合。一個例子是均方誤差，它用於線性迴歸，定義如圖 2。

圖 2：均方誤差公式。

但是這個平均誤差只告訴了我們

平均

表現是什麼樣的。我們不知道我們我們是不是在資料的某些部分表現很好，在其他一些部分表現很差。

這是預測建模中一個長期存在的問題，最近引起了很多關注。

解決方案

一種解決方案就是 FreaAI。該方法由 IBM 開發，旨在找出我們的模型在資料中的哪些部分表現不佳。

它分為兩大步驟。第一步是建立資料切片，第二步是確定模型在這些資料切片中是否表現不佳。FreaAI 的輸出是我們的資料中模型效能較低的一組“位置”。

2。1 資料切片

組合測試（CT）是一個框架，它按順序檢視所有預測變數組，以發現效能不佳的區域。例如，如果我們有兩個分類預測變數——顏色和形狀，我們會檢視所有可能的組合，看看精度下降的是哪些地方。

然而，想要在大型資料集上利用組合測試在計算上是不可能做到的——隨著列數越來越多，我們所需的組合數量會呈指數增長。因此，我們需要定義一種方法來幫助我們搜尋特徵以找到潛在的低精度區域。

圖 3：50% 最高密度區域（HDR）的示例，用藍色表示。

FreaAI 中利用的第一種方法使用稱為最高密度區域（HDR）（圖 3）。簡而言之，HDR 會尋找滿足一個數字特徵的資料達到一定比例的最小區域，即高密度區域。在圖 3 中，該區域由水平藍色虛線區分——我們 50% 的資料位於該線上方。

然後我們迭代地將這個範圍減小一個ε值（預設為 0。05），並尋找精度增加的情況。

如果在給定迭代中精度確實增加了，我們就知道模型在先前迭代和當前迭代之間的區域中表現是不佳的

。

為了找出不能很好滿足數值預測變數的區域，我們會對測試集中的所有預測變數迭代執行這個 HDR 方法。

很酷，對吧？

第二種方法利用決策樹來處理所有非數字預測變數以及兩個特徵的組合。簡而言之，我們擬合了一個決策樹，並尋找這些特徵的哪些分割最小化了精度。

圖 4：關於連續單變數預測變數“年齡”的決策樹示例。

在圖 4 中，每個決策節點（藍色）是我們特徵的一個分割（spilt），每個末端節點（數字）是該分割的精度。透過擬合這些樹，我們可以真正減少搜尋空間並更快地找到效能不佳的區域。

此外，由於樹對於許多型別的資料都非常穩健，我們可以在分類預測變數或多個預測變數上執行它以捕獲互動效應（interaction effects）

。

對於所有特徵組合以及非數字的單個特徵都會重複這種決策樹方法。

2。2 資料切片的啟發式演算法

到目前為止，我們只是在使用精度來開發資料切片，但還有其他啟發式演算法可以幫助我們找到

有用的

資料切片：

統計顯著性

：為了確保我們只查看準確率顯著下降的資料切片，我們只保留效能比誤差置信區間下限低 4% 的切片。這樣，我們就能以機率α宣告我們的資料切片具有更高的錯誤率。

可解釋性

：我們還希望對發現的問題區域採取行動，因此我們在建立組合時只檢視兩三個特徵。將互動限制到較低階後，我們的工程師就更有可能開發出解決方案。

最小支援

：最後，資料切片必須有足夠的錯誤率，值得我們去研究。我們要求必須至少有 2 個錯誤分類，或者它必須覆蓋 5% 的測試錯誤——以較大值為準。

值得注意的是，你可以根據業務需求定製其他啟發式演算法，精度 / 召回權衡就是一個例子。

總結和要點

FreaAI 的大致原理就講這麼多。

再次提醒，FreaAI 不是開源的，但將來大概會向公眾釋出。同時，你可以將我們討論過的框架應用於你自己的預測模型，找出模型效能不足的位置。

3。1 概括

回顧一下，FreeAI 使用 HDR 和決策樹來減少我們預測變數的搜尋空間。然後它會反覆檢視單個特徵和組合，以找出效能低下的位置。針對這些低效能區域還會用上一些啟發式演算法，可確保發現是可操作的。

3。2 這個方法的意義

首先這個框架可以幫助工程師識別模型的缺陷所在，並（希望）可以糾正它們，從而改進模型的預測能力。這種收益對於黑盒模型（例如神經網路）來說尤其有吸引力，因為這種模型中沒有能用的係數。

透過隔離表現不佳的資料區域，我們得到了一個窺探黑匣子的視窗。

FreaAI 還有很多有趣的潛在應用場景。一個例子是識別模型漂移，當經過訓練的模型隨著時間的推移變得效果越來越差時就會發生這種情況。IBM 剛剛釋出了一個用於確定模型漂移的假設檢驗框架。

另一個有趣的應用是確定模型偏見。在這種情況下，偏見是不公平的概念，例如根據某人的性別拒絕向某人提供貸款。透過檢視模型效能較低的資料分割，你可以發現存在偏見的區域。

原文連結：

https：//towardsdatascience。com/how-to-find-weaknesses-in-your-machine-learning-models-ae8bd18880a3

瓜分6666元現金紅包！領取8%+理財券，每日限額3000份！