非營利 AI 研究機(jī)構(gòu) Epoch AI 最新發(fā)布報(bào)告,指出 AI 企業(yè)難以從推理模型中,持續(xù)榨取巨大性能收益,最快在一年內(nèi),推理模型的進(jìn)步將放緩。
報(bào)告基于公開數(shù)據(jù)和假設(shè),強(qiáng)調(diào)了計(jì)算資源的限制和研究開銷的增加。AI 行業(yè)長期依賴這些模型來提升基準(zhǔn)表現(xiàn),但這種依賴性正面臨挑戰(zhàn)。
該機(jī)構(gòu)分析師 Josh You 指出推理模型的興起,源于其在特定任務(wù)上的出色表現(xiàn)。例如,OpenAI 的 o3 模型在最近幾個(gè)月里,主要提升數(shù)學(xué)和編程技能。
而這些推理模型通過增加計(jì)算資源來解決問題,從而提升性能,不過作為代價(jià),這些推理模型需要更多計(jì)算來處理復(fù)雜任務(wù),因此比傳統(tǒng)模型耗時(shí)更長。

IT之家注:推理模型的訓(xùn)練過程先是基于海量數(shù)據(jù)訓(xùn)練一個(gè)常規(guī)模型,然后應(yīng)用強(qiáng)化學(xué)習(xí)技術(shù)。該技術(shù)像給模型提供“反饋”一樣,幫助它優(yōu)化對難題的解決方案。這種方法推動了 AI 的快速迭代,但也暴露了潛在的瓶頸。
OpenAI 等前沿 AI 實(shí)驗(yàn)室正加大對強(qiáng)化學(xué)習(xí)的投資。公司表示,在訓(xùn)練 o3 時(shí),使用了約 10 倍于前代 o1 的計(jì)算資源,大部分用于強(qiáng)化學(xué)習(xí)階段。研究者 Dan Roberts 透露,OpenAI 的未來計(jì)劃將優(yōu)先強(qiáng)化學(xué)習(xí),并投入更多計(jì)算力,甚至超過初始模型訓(xùn)練的水平。
這種策略加速了模型的改進(jìn),但 Epoch 的分析提醒,這種改進(jìn)并非沒有上限,計(jì)算資源的增加會遇到物理和經(jīng)濟(jì)約束。
Josh You 在分析中詳細(xì)解釋了性能增長的差異。標(biāo)準(zhǔn) AI 模型訓(xùn)練的性能目前每年翻番,而強(qiáng)化學(xué)習(xí)的性能每 3-5 個(gè)月增長十倍。這種快速增長可能到 2026 年與整體 AI 前沿進(jìn)展趨同。
他強(qiáng)調(diào),推理模型的規(guī)模化面臨不止計(jì)算問題,還包括高研究開銷:“如果研究需要持續(xù)的高開銷,推理模型可能無法達(dá)到預(yù)期規(guī)模”。