機器學習概論

本篇文章整理了機器學習的相關筆記,內容涵蓋人工智慧各子領域的發展脈絡、機器學習的定義、應用情境、學習方式分類,以及實作過程中可能會遇到的挑戰和模型評估指標。透過這些筆記,讀者能夠對「機器學習」有一個全面的理解,並且掌握從資料準備、模型訓練到模型評估的基本流程和核心概念。

人工智慧、機器學習與深度學習的關係與定義

  • AI、ML、DL 與生成式 AI 的層級關係
  • 核心定義探討

AI、ML、DL 與生成式 AI 的層級關係

AI、ML、DL 與生成式 AI 的層級關係

從技術發展的脈絡來看,人工智慧(AI)是最廣泛的研究領域,機器學習(ML)屬於 AI 的一個子領域,而深度學習(DL)則是機器學習中的一個重要分支。近年來,生成式 AI(Generative AI)則主要基於深度學習技術,並成為其中的熱門應用之一。這些技術並不是孤立存在的,而是隨著每次突破而不斷進化。

核心定義探討

  • 人工智慧(AI):旨在讓電腦模擬人類的思考與決策過程,並建立能夠像人類一樣解決問題的「智慧代理人」。
  • 機器學習(Machine Learning):是一種資料驅動的方法,通過大量資料讓電腦學習其中的規律,並建立預測模型。
  • 深度學習(Deep Learning):模仿大腦神經元的結構,利用多層神經網絡自動提取資料中的關鍵特徵。

什麼是機器學習?為什麼需要它?

  • 機器學習的定義
  • 機器學習解決了什麼問題?
  • 常見的應用領域

機器學習的定義

Arthur Samuel 在 1959 年提出機器學習的定義:「讓電腦在不明確寫出程式碼的情況下學習的領域」。

而學者 Tom Mitchell 在 1997 年的描述中則進一步規範了定義:如果一個程式在某個任務 (T) 上的表現(P)能夠隨著經驗(E)的增長而提升,那麼我們就可以說這個程式從經驗中學習了。

機器學習解決的問題

傳統解決問題的方法,如早期的垃圾郵件過濾器,通常需要手動編寫繁瑣的規則(例如針對某些促銷字眼寫 IF-ELSE 條件判斷)。但機器學習則能夠通過大量資料自動訓練並適應環境變化,特別適用於以下情境:

  • 規則過於複雜或經常變動的情況
  • 需要處理大量資料或變數的問題
  • 環境不斷變化,傳統方法難以應對的情況

機器學習的應用領域

機器學習在我們的日常生活中有著極為廣泛的應用,舉例來說:

  • 影像處理:如圖像分類、物件偵測、醫學影像輔助診斷(CAD)等。
  • 自然語言處理(NLP):如情感分析、文章摘要、語音辨識、聊天機器人等。
  • 其他領域:例如語音助理(Siri、Google Assistant)、遊戲(AlphaGo)、信用卡詐欺偵測、推薦系統、數值預測等。

機器學習的種類

  • 依人類監督程度分類
  • 依學習方式分類(批量學習與線上學習)
  • 依學習方法分類(實例學習與模型學習)

依人類監督程度分類

  • 監督式學習(Supervised Learning):資料帶有標籤,常見的應用包括分類問題(如垃圾郵件識別)與迴歸問題(預測數值)。
  • 非監督式學習(Unsupervised Learning):資料無標籤,系統需自行發現資料的結構,常見的技術有分群(Clustering)、異常檢測(Anomaly Detection)與降維(Dimensionality Reduction)等。
  • 自監督式學習(Self-supervised Learning):這是一種從完全無標籤資料中自動生成標籤的方式來訓練模型,例如生成式 AI 在圖像修復或物件移除中的應用。
  • 強化學習(Reinforcement Learning):代理人(Agent)透過與環境的互動來學習如何選擇最佳行為,獲得獎勳或懲罰來改進策略。例如掃地機器人或 AlphaGo Zero。

依學習方式分類(批量學習與線上學習)

  • 批量學習(Batch Learning):使用所有資料一次訓練模型,系統訓練完成後便不會再學習新知,若要適應新資料需要重新訓練。
  • 線上學習(Online Learning):資料被切分成小批次來即時更新模型,使其快速適應資料變動,特別適合需要快速反應的場景,如股市或社交媒體分析。

依學習方法分類(實例學習與模型學習)

  • 基於實例的學習(Instance-based Learning):系統不構建抽象的數學模型,而是將訓練資料保存下來,遇到新資料時直接比對相似的資料進行判斷,屬於懶惰學習(Lazy Learning)。
  • 基於模型的學習(Model-based Learning):系統會根據資料訓練一個數學模型,並利用這個模型進行預測。這類方法常見於線性回歸、支持向量機等。

機器學習面臨的挑戰

  • 資料方面的挑戰
  • 模型方面的挑戰

資料面的挑戰

建立強大的機器學習模型需要足夠且高品質的資料,常見的挑戰包括:

  • 資料量不足:有些問題可能需要數千甚至數百萬筆資料,才能達到準確的預測效果。
  • 資料不具代表性:如果資料存在「抽樣偏誤」,可能會導致訓練出來的模型無法有效處理真實世界中的各種情況。
  • 資料品質差:不清洗、不準確或不一致的資料會嚴重影響模型的預測結果。

模型方面的挑戰

  • 過度擬合(Overfitting):模型學習到訓練資料中的噪聲和細節,導致無法良好地泛化到新資料。解決方案包括簡化模型、增加資料量或使用正則化技術。
  • 欠擬合(Underfitting):模型過於簡單,無法捕捉資料中的模式。解決方案包括選擇更複雜的模型或進行特徵工程。

資料集劃分與模型評估指標

  • 資料集的劃分
  • 混淆矩陣與評估指標

資料集劃分

為確保評估的客觀性,資料集通常會被劃分:

  • 訓練集(Training set,約 60–70%):用於模型訓練,讓演算法學習資料特徵並擬合模型參數。
  • 驗證集(Validation set / Dev set,約 15–20%):用於比較不同模型,並調整超參數。
  • 測試集(Test set,約 15–20%):不參與訓練過程,僅在最後用來評估模型的實際表現。

混淆矩陣與模型評估指標

在評估分類模型(例如垃圾郵件過濾系統)時,通常會根據模型預測結果與實際標籤建立混淆矩陣(Confusion Matrix)。矩陣包含四種情況:

  • 真陽性(TP)
  • 真陰性(TN)
  • 假陰性(FN)
  • 假陽性(FP)

根據混淆矩陣,可計算出幾個常用的評估指標:

  • 準確度(Accuracy):所有預測中正確的比例 (TP+TN)/(TP+TN+FP+FN)。
  • 精確度(Precision):被模型判定為正例的資料中,實際為正例的比例 TP/(TP+FP)。
  • 召回度 / 靈敏度(Recall / Sensitivity):所有實際正例中,被模型成功識別的比例 TP/(TP+FN)。
  • F1-Score:綜合精確度與召回率的指標 2×Precision×Recall/(Precision+Recall) 或 2TP/(2TP+FP+FN)。

總結

機器學習的核心價值在於從資料中學習規律並建立預測能力。本篇文章從 AI 的層級結構出發,說明機器學習如何成為人工智慧的重要基礎,並介紹了不同的學習方式:依是否具有標籤可分為監督式與非監督式學習;依學習時機可分為批次學習與線上學習;依歸納方式則可區分為實例式與模型式學習。

在實務應用中,一個成功的機器學習模型通常取決於以下三個關鍵面向:

  1. 資料品質:是否具備足夠、具代表性且經過適當清理的資料。
  2. 泛化能力:模型是否避免「過度擬合」與「欠擬合」,並能對新的資料維持良好的預測能力。
  3. 嚴謹的評估方法:透過訓練集、驗證集與測試集的合理劃分,並使用精確度、召回率與 F1-Score 等指標,客觀評估模型的實際表現。

簡而言之,機器學習並不只是選擇演算法,而是一個涵蓋資料品質、模型設計與評估方法的完整系統工程。