什麼是監督式學習（Supervised Learning）?

2026-03-21 • 機器學習

在機器學習中，如何讓電腦從資料中學習並做出預測，是整個領域的核心問題。監督式學習（Supervised Learning）作為最基礎且應用最廣泛的方法之一，幾乎是多數實務問題的起點。本篇文章將從監督式學習的基本概念出發，認識「迴歸」與「分類」兩大核心任務，並介紹常見的演算法與評估方式。

什麼是監督式學習（Supervised Learning）？

監督式學習的核心概念很直覺：在訓練模型時，我們同時提供「輸入特徵（Features）」與對應的「正確答案（Labels / Target）」，讓模型從中學習兩者之間的對應關係。

具體來說，模型會透過不斷調整內部參數，使預測結果與實際答案之間的誤差逐步縮小。訓練完成後，模型就能對未見過的新資料進行預測。不過，模型的表現高度依賴訓練資料的品質與標記的正確性，如果餵給模型的答案本身就有問題，學出來的結果自然也不可靠。

相較之下，非監督式學習（Unsupervised Learning）則不需要標記資料，而是讓模型自行從資料中發掘隱藏的結構或分群，例如客戶分群、異常偵測等。兩者的差異在於：監督式學習是「有老師帶著學」，非監督式學習則是「自己摸索規律」。

根據預測目標的不同，監督式學習可分為迴歸（Regression）與分類（Classification）兩種任務類型。

迴歸的目標是預測一個連續的數值結果，該數值可以落在某個範圍內的任意位置。

常見演算法：線性迴歸（Linear Regression）、決策樹迴歸（Decision Tree Regression）、隨機森林迴歸（Random Forest Regression）等。

常用評估指標： MAE（平均絕對誤差）、MSE（均方誤差）、R²（決定係數），這些指標衡量的都是「預測值與實際值之間的差距有多大」。

分類的目標是將資料歸入預先定義好的類別中。實務上，模型通常會先計算每個類別的機率，最後選擇機率最高的類別作為預測結果。常見類型：

常見演算法：邏輯迴歸（Logistic Regression）、支持向量機（SVM）、決策樹（Decision Tree）、K 近鄰演算法（KNN）等。

常用評估指標： Accuracy（準確率）、Precision（精確率）、Recall（召回率）、F1 Score，這些指標衡量的是「模型分對了多少、分錯了多少」。

監督式學習透過已標記的資料，讓模型學習輸入與輸出之間的對應關係，並根據任務需求選擇迴歸或分類來解決問題。

在真實世界中，建立模型往往只是挑戰的開始。監督式學習的背後有著兩個無法迴避的硬傷：

監督式學習極度依賴資料的品質與標記的正確性。取得大量且精準的標記資料往往需要耗費鉅額的人力成本；如果餵給模型的答案本身充滿偏見或錯誤，再先進的演算法也只會學到錯誤的邏輯。

有時候模型表現得「太好」反而是一件壞事。當模型把訓練資料裡的細枝末節和「雜訊」都死背下來時，就會發生過度擬合。這就像一個只會死背考古題的學生，一旦在考場上遇到沒看過的新題目，分數就會慘不忍睹。

為了解決這些問題，資料科學家們發展出了許多進階的優化武器！例如：透過加入懲罰機制來限制模型權重的「正規化（Regularization，像是 Ridge 與 Lasso）」，或是用來尋找最佳解答、帶領模型一步步走到誤差最小值的「梯度下降法（Gradient Descent）」。

總而言之，監督式學習為我們打開了預測未來的大門，而迴歸與分類正是我們手中最強大的兩把鑰匙。理解它們的運作原理與潛在限制，學會靈活運用各種優化技巧，就能讓模型真正為你所用。