在最近 AI 領(lǐng)域內(nèi),智能體(Agent)的研究和應(yīng)用越來越多,原生多智能體工作的基礎(chǔ)模型也已開始出現(xiàn)。
作為一個能夠推理、規(guī)劃和行動的系統(tǒng),智能體正逐漸成為現(xiàn)實世界人工智能應(yīng)用的常見范式。從編程助手到私人健康教練,AI 應(yīng)用正從單次問答轉(zhuǎn)向持續(xù)的多步驟交互。盡管研究人員長期以來一直利用既定指標(biāo)來優(yōu)化傳統(tǒng)機器學(xué)習(xí)模型的準(zhǔn)確性,但 AI 智能體引入了新的復(fù)雜性。
與孤立的預(yù)測不同,AI 智能體必須應(yīng)對持續(xù)的多步驟交互,其中單個錯誤可能會在整個工作流程中引發(fā)連鎖反應(yīng)。這種轉(zhuǎn)變促使我們超越標(biāo)準(zhǔn)的準(zhǔn)確性進行思考:究竟該如何設(shè)計這些系統(tǒng)才能實現(xiàn)最佳性能?
在實踐上,我們常常依賴啟發(fā)式方法,例如「智能體越多越好」的假設(shè),認(rèn)為增加專業(yè)智能體就能持續(xù)提升結(jié)果。論文《More Agents Is All You Need》指出,大語言模型(LLM)的性能會隨著智能體數(shù)量的增加而提升,而《Scaling Large Language Model-based Multi-Agent Collaboration》發(fā)現(xiàn),多智能體協(xié)作「…… 通常通過集體推理超越單個智能體的性能」。
在 Google DeepMind 的新論文中,研究人員對這一假設(shè)提出了挑戰(zhàn)。通過對 180 種智能體配置進行大規(guī)模受控評估,DeepMind 推導(dǎo)出了智能體系統(tǒng)的首個定量規(guī)模化原則,揭示了「增加智能體數(shù)量」的方法往往會遇到瓶頸,如果與任務(wù)的具體屬性不匹配,甚至?xí)档托阅堋?/p>
