Confusion Matrix 混淆矩陣與模型評估指標

2026-03-21 • 機器學習

什麼是混淆矩陣？

混淆矩陣（Confusion Matrix）是一個經常用於監督式學習中分類問題的評估工具。它會把『實際的標準答案』和『模型預測的結果』交叉列在一個矩陣中，藉由區分出真陽性、假陽性、真陰性和偽陽性等四種情況，讓我們知道模型哪裡判對或判錯，並進一步計算出精確率、召回率和F1-score等關鍵指標，來評估模型的表現。

Confusion Matrix

在二元分類（只有正、負兩類）時，混淆矩陣是一個 2×2 的表格，四個格子代表：

真陽性（True Positive）

真陽性（True Positive, TP）是指模型預測的結果與實際情況「完全吻合」，且兩者皆為「正向」的理想狀態。以科技執法為例，當系統判定某台車輛正在「違規臨停」（預測為正），而該車輛在現實中也確實違反了交通法規（實際為正），這種「系統成功抓對」的情況，就是標準的真陽性案例。從數據評估的角度來看，TP 數值越高，代表模型對目標特徵的捕捉越成功，它是我們在訓練模型時最希望最大化的指標，因為它直接反應了模型區分目標對象的實力。

不過，在現實的應用場景中，我們不能陷入單純追求 TP 數值的迷思。如果系統為了確保「不漏抓」而過度提高靈敏度，就可能誤將路邊停等紅燈的車輛也判定為違規，進而產生過多的 FP（假陽性），引發不必要的民怨與申訴。因此，一個完美的 AI 系統，必須在追求高 TP（確保執法覆蓋率）的同時，精準壓低 FP（避免冤枉民眾），在「精準」與「全面」之間取得最佳平衡。

真陰性（True Negative）

真陰性（True Negative, TN）是指模型預測的結果與實際情況同樣「完全吻合」，但兩者皆為「負向」的正常狀態。

在科技執法的情境中，我們可以將「違規」視為正向，而「守法」視為負向。因此，當一台車輛正常行駛、沒有任何違規行為時（實際為負），系統也精準地判定該車輛「無違規」（預測為負），這就是一個標準的真陰性案例。簡單來說，這代表系統具備良好的「辨識清白」能力，不會對遵守交通規則的駕駛者產生誤判。

從整體的評估指標來看，TN 數值越高，代表系統的穩定性與過濾雜訊的能力越強。雖然在執法績效上，我們往往更關注抓到了多少違規（TP），但真陰性卻是維護「執法公信力」的基石。如果一個系統的 TN 數值過低，意味著它頻繁地將正常的行車行為納入審核範圍，這不僅會大幅增加人工複核的工作量，也會讓大眾對科技執法的公正性產生懷疑。

因此，在訓練模型時，確保 TN 的高準確度與追求 TP 同樣重要，這兩者共同構成了模型最基礎的「準確率（Accuracy）」。

偽陽性（False Positive）

偽陽性（False Positive, FP）是指模型預測結果為「正向」，但實際情況卻是「負向」的錯誤判斷，也就是俗稱的「誤報」或「冤枉好人」。在科技執法的語境下，這通常是最令民眾反感、也最考驗系統公信力的指標。

想像在一個科技執法的路段，系統判定某台車輛「違規停車」（預測為正），並自動截圖準備開罰，但是該車輛只是因為前方紅燈或交通擁堵而暫時停下（實際為負），並未違反任何交通規則，這種「系統說你有罪，但你其實合法」的落差，就是典型的偽陽性案例。從數據評估來看，過高的 FP 數值代表模型的「虛警率」太高，會導致後端需要投入大量的人力進行人工複審，否則一旦罰單錯發，將會引發嚴重的民怨與行政申訴。

在機器學習的優化過程中，我們追求高精確率（Precision）的核心目標就是為了壓低 FP。一個成熟的科技執法系統，必須具備極強的辨識能力，能準確區分「真正的違規」與「正常的交通停等」，避免因為系統過於敏感而造成的誤判。

偽陰性（False Negative）

偽陰性（False Negative, FN）是指模型預測結果為「負向」，但實際情況卻是「正向」的錯誤判斷，也就是我們常說的「漏網之魚」。在科技執法的場景中，這代表系統失靈或未能識別出真實存在的違規行為。

想像在一個科技執法路段，有一台車輛確實「違規紅燈右轉」（實際為正），但系統可能因為拍攝角度不佳、天候昏暗或是辨識演算法的侷限，最終判定該車輛「無違規」（預測為負），進而沒有發出告警或記錄。這種「明明有罪，系統卻說沒事」的情況，就是典型的偽陰性案例。從數據評估來看，過高的 FN 數值代表模型的召回率（Recall）太低，意味著執法效能低落，無法有效遏止交通違規。

在優化模型的過程中，追求高召回率的核心目標就是為了壓低 FN。雖然偽陰性不會像偽陽性那樣引發直接的民怨（因為民眾不會因為「沒被罰」而申訴），但它會讓科技執法失去威懾力，甚至導致交通安全隱患。因此，一個理想的系統必須在「不冤枉好人（低 FP）」與「不放過違規（低 FN）」之間找到最佳的平衡點。

混淆矩陣 4 個常見的評估指標 (Metrics)

當我們掌握了混淆矩陣的四個基本象限後，接下來就要利用這些數據來計算出四個關鍵指標，這就像是幫 AI 模型進行「健康檢查」，從不同維度判斷它的執法效能。

準確率 (Accuracy)

Accuracy 公式

準確率是衡量模型最簡單的方式，它代表「在所有樣本中，模型判斷正確（包含抓對違規與放對守法）的比例」。在科技執法中，如果系統處理了 1,000 台車，其中有 950 台的判定與事實相符，準確率就是 95%。雖然直觀，但要注意在「違規極少數」的情況下（如 99% 的人都不違規），準確率可能會產生模型很完美的錯覺，因此不能作為唯一的評估標準。

精確度 (Precision)

Precision 公式

精確率關注的是「預測為正」的品質，也就是「在系統判定違規的所有案件中，有多少是真的違規？」。這直接關係到執法的公信力。如果精確率低，代表系統頻繁誤判（FP 高），會導致警察寄出大量錯誤罰單，引發民眾強烈反感與申訴。因此，追求高精確率的目標，就是為了確保「抓到的都要是對的」。

召回率 (Recall)

Recall 公式

召回率（又稱靈敏度）關注的是「實際為正」的涵蓋範圍，也就是「在所有真實發生的違規中，系統成功抓到了多少？」。這反映了系統的攔截力。如果召回率低，代表系統漏掉很多違規行為（FN 高），會讓違規者心存僥倖，導致執法失去威懾力。追求高召回率的目標，是為了確保「該抓的一個都別漏」。

F1 Score

F1 Score 公式

在現實中，精確率與召回率往往像翹翹板一樣，難以同時兼得（提高靈敏度可能導致誤判增加）。F1-Score 則是這兩者的「調和平均數」，它能給出一個綜合評分。當我們希望科技執法系統既能精準不擾民（高 Precision），又能有效攔截違規（高 Recall）時，F1-Score 就是衡量該模型整體「戰鬥力」最客觀的指標。

該如何選擇混淆矩陣指標？

在開發模型時，我們很難同時達到 100% 的精確率與 100% 的召回率。這兩者往往存在著「翹翹板」關係：你抓得越嚴（追求高召回），誤判率就可能上升；你抓得越慎重（追求高精確），就可能漏掉一些案件。到底哪一個重要？

選擇精確率 (Precision)

當「誤判」的代價極高時，我們應優先關注精確率（Precision）。以科技執法開罰單或法庭判刑為例，這類場景追求的是法律的公正性與公信力，若發生「偽陽性（FP）」，也就是誤抓守法公民或冤枉好人，將會引發嚴重的社會不公與民怨。

在這種邏輯下，系統的設計會趨向保守，寧可因為標準嚴格而漏抓一些違規者，也絕不能隨便將無辜者判定為有罪，確保每一個被標記為「正向」的結果都具有極高的真實性。

選擇召回率（Recall）

當「漏抓」的代價遠大於誤報時，召回率（Recall）則成為最重要的評估標準。典型的例子包括癌症篩檢、傳染病檢測或機場安檢，在這些生死攸關的場景中，「偽陰性（FN）」放過潛在的病患或威脅，可能導致無法挽回的悲劇。因此，我們寧可讓系統變得高度敏感，即便會產生較多的假警報（低 Precision），需要事後透過更多的人工複查來排除誤判，也絕對不能放過任何一個可能的風險點。

選擇F1-Score

當精確捕捉與全面涵蓋兩者同樣重要、缺一不可時，F1-Score 便是最佳的綜合衡量指標。以垃圾郵件過濾為例，一個理想的過濾系統既不希望使用者的收件匣塞滿廣告垃圾信（需要高 Recall 來攔截），也不希望誤將重要的客戶郵件或急件判定為垃圾信（需要高 Precision 來確保正確性）。

由於 Precision 和 Recall 往往像翹翹板一樣難以兼得，F1-Score 透過調和平均的方式，強制要求兩者必須同時達到一定水準，避免模型產生嚴重的偏科現象，進而在「不擾民」與「不遺漏」之間找到最穩健的平衡點。

結論

在機器學習的開發旅程中，混淆矩陣不僅僅是一組 2×2 的數據，它是我們理解 AI 決策邏輯的透視鏡。我們可以將複雜的指標歸納為以下三個核心重點：

核心四象限：判斷的基石

TP（真陽性）與 TN（真陰性）：代表系統「判斷正確」，是模型穩定度與準確度的基礎。
FP（偽陽性）：代表「誤報」，在執法情境中是「冤枉好人」，直接影響公信力。
FN（偽陰性）：代表「漏報」，在執法情境中是「漏網之魚」，會削弱執法的威懾力。

指標的選擇：場景決定價值

沒有完美的模型，只有「最適合場景」的模型。選擇指標時應考慮犯錯的代價： - 追求 Precision（精確率）：適用於容錯率低的場景（如：科技執法、法律判決），核心目標是「不冤枉好人」。 - 追求 Recall（召回率）：適用於風險極高的場景（如：疾病篩檢、安檢），核心目標是「不放過威脅」。 - 追求 F1-Score：適用於需要兩者兼顧的場景（如：垃圾郵件過濾），確保模型表現穩健且不偏科。

在設計模型時，請務必先問自己：「我們最承擔不起的錯誤是什麼？」有了這個答案，你就能從混淆矩陣中找到最適合的優化方向。

← 回到首頁