Copyright 2012-2025 家電庫 版權所有 京ICP備20132067號-1
機器之心編輯部
在 AI 領域,大家通常采取后訓練方式來讓模型獲取專項技能。然而后訓練一般依賴帶有標注參考的監督微調,或通過可驗證的程序化檢查器提供獎勵。
這就帶來一些問題,目前許多有價值的任務可能同時缺乏這兩種資源。例如在不可驗證的場景中(臨床、自由對話和創意寫作),可能存在多個有效答案,確定性規則檢查難以實施。
在這種情況下,實踐者往往只能依賴(i)繁瑣的標注流程,或(ii)通過另一個 LLM 對自由形式輸出進行粗略獎勵。
然而,當后訓練缺乏真實標注時,學習信號從何而來?
為了回答這一問題,來自牛津大學、Meta 超級智能實驗室等機構的研究者提出設想:
推理計算是否可以替代缺失的監督?
本文認為答案是肯定的,他們提出了一種名為CaT(Compute as Teacher)的方法,核心思想是把推理時的額外計算當作教師信號,在缺乏人工標注或可驗證答案時,也能為大模型提供監督信號。
結果顯示,推理時直接應用 CaT顯著提升了 Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B 的性能,即使在不可驗證領域(MATH-500 最高提升 27%;HealthBench 提升 12%)。結合強化學習的CaT(CaT-RL)可進一步獲得增益(最高提升 33% 和 30%),訓練后的策略甚至能超越初始教師信號。
