The Moneyball Blueprint MLB選手表現預測、類型分群 & 擊球結果模擬
葛O亮、吳O恩、何O柚、彭O蓉、莊O程、謝O嘉
美國職棒大聯盟(MLB)的打者評估日益仰賴 Statcast 事件資料,然而如何將原始指標轉化為可靠的預測與分類框架,仍是尚未完善的課題。本研究以 2018–2024 年 MLB Baseball Savant Statcast 逐球事件資料及 Lahman Database 守備位置資訊為來源,建立涵蓋生涯表現預測、打者類型聚類與擊球結果分類三個面向的整合分析管線。
首先,在生涯表現預測方面,本研究自原始資料計算 wRC+、K%、BB% 與 BABIP 等核心指標,採嚴格時間切分策略(訓練集:2021–2022;驗證集:2023;測試集:2024;共 943 筆球員-球季觀測值),完全排除未來資料洩漏。Random Forest 的 Permutation Importance 分析顯示,三年累積打席數(PA)為最關鍵預測特徵,反映球員健康與出賽穩定性;早年四壞率(BB%)次之,說明選球眼力具有長期持續性;遠期 BABIP 重要性為負,確認其均值回歸的噪音屬性。接者在打者類型聚類方面,以 Statcast 多維打擊指標為特徵,結合 Silhouette Score 與 Elbow Method 確定最佳分群數為四類,並以 100 次 Bootstrap 模擬驗證模型穩定性,Adjusted Rand Index(ARI)達 0.865。所建立的類型體系可支援兩種應用:追蹤單一球員逐年類型變化,以及在球員因傷缺陣時尋找同類型的替補方案。最後在擊球結果分類方面,本研究探討僅憑擊球初速與擊球仰角能否預測安打結果,分別建立二分類(安打 vs. 非安打)與三分類(出局、短程安打、長打)任務。Random Forest 與 XGBoost 模型經 Grid Search 調參後,與兩種基準模型(全預測出局、依比例隨機預測)進行比較,以 ROC-AUC、Accuracy、Precision、Recall 及 F1-score 跨訓練、驗證、測試集進行全面評估。
