在機器學習中,如何讓電腦從資料中學習並做出預測,是整個領域的核心問題。監督式學習(Supervised Learning) 作為最基礎且應用最廣泛的方法之一,幾乎是多數實務問題的起點。 本篇文章將從監督式學習的基本概念出發,認識「迴歸」與「分類」兩大核心任務,並介紹常見的演算法與評估方式。
什麼是監督式學習(Supervised Learning)?
監督式學習的核心概念很直覺:在訓練模型時,我們同時提供「輸入特徵(Features)」與對應的「正確答案(Labels / Target)」,讓模型從中學習兩者之間的對應關係。
具體來說,模型會透過不斷調整內部參數,使預測結果與實際答案之間的誤差逐步縮小。訓練完成後,模型就能對未見過的新資料進行預測。不過,模型的表現高度依賴訓練資料的品質與標記的正確性,如果餵給模型的答案本身就有問題,學出來的結果自然也不可靠。
相較之下,非監督式學習(Unsupervised Learning)則不需要標記資料,而是讓模型自行從資料中發掘隱藏的結構或分群,例如客戶分群、異常偵測等。兩者的差異在於:監督式學習是「有老師帶著學」,非監督式學習則是「自己摸索規律」。
迴歸與分類:監督式學習的兩大任務
根據預測目標的不同,監督式學習可分為迴歸(Regression)與分類(Classification)兩種任務類型。
Regression(迴歸):預測連續數值
迴歸的目標是預測一個連續的數值結果,該數值可以落在某個範圍內的任意位置。
- 根據身高與性別預測體脂率
- 根據坪數、地段、屋齡預測房價
- 根據歷史數據預測明日氣溫
常見演算法: 線性迴歸(Linear Regression)、決策樹迴歸(Decision Tree Regression)、隨機森林迴歸(Random Forest Regression)等。
常用評估指標: MAE(平均絕對誤差)、MSE(均方誤差)、R²(決定係數),這些指標衡量的都是「預測值與實際值之間的差距有多大」。
Classification(分類):預測離散類別
分類的目標是將資料歸入預先定義好的類別中。實務上,模型通常會先計算每個類別的機率,最後選擇機率最高的類別作為預測結果。常見類型:
- 二元分類(Binary Classification): 只有兩個類別,例如垃圾郵件 vs. 正常郵件、腫瘤良性 vs. 惡性
- 多類別分類(Multiclass Classification): 三個以上的類別,例如鳶尾花品種分類、手寫數字辨識(0–9)
常見演算法: 邏輯迴歸(Logistic Regression)、支持向量機(SVM)、決策樹(Decision Tree)、K 近鄰演算法(KNN)等。
常用評估指標: Accuracy(準確率)、Precision(精確率)、Recall(召回率)、F1 Score,這些指標衡量的是「模型分對了多少、分錯了多少」。
結論
監督式學習透過已標記的資料,讓模型學習輸入與輸出之間的對應關係,並根據任務需求選擇迴歸或分類來解決問題。
在真實世界中,建立模型往往只是挑戰的開始。監督式學習的背後有著兩個無法迴避的硬傷:
- Garbage in, garbage out(垃圾進,垃圾出)
- 過度擬合(Overfitting)的陷阱
Garbage in, garbage out(垃圾進,垃圾出)
監督式學習極度依賴資料的品質與標記的正確性。取得大量且精準的標記資料往往需要耗費鉅額的人力成本;如果餵給模型的答案本身充滿偏見或錯誤,再先進的演算法也只會學到錯誤的邏輯。
過度擬合(Overfitting)的陷阱
有時候模型表現得「太好」反而是一件壞事。當模型把訓練資料裡的細枝末節和「雜訊」都死背下來時,就會發生過度擬合。這就像一個只會死背考古題的學生,一旦在考場上遇到沒看過的新題目,分數就會慘不忍睹。
為了解決這些問題,資料科學家們發展出了許多進階的優化武器!例如:透過加入懲罰機制來限制模型權重的「正規化(Regularization,像是 Ridge 與 Lasso)」,或是用來尋找最佳解答、帶領模型一步步走到誤差最小值的「梯度下降法(Gradient Descent)」。
總而言之,監督式學習為我們打開了預測未來的大門,而迴歸與分類正是我們手中最強大的兩把鑰匙。理解它們的運作原理與潛在限制,學會靈活運用各種優化技巧,就能讓模型真正為你所用。