新加坡國(guó)立大學(xué)、清華大學(xué)和 Salesforce AI Research 的研究者們,提出了一項(xiàng)名為 “元能力對(duì)齊” 的創(chuàng)新性訓(xùn)練框架,旨在解決 AI 在復(fù)雜問(wèn)題推理中穩(wěn)定性不足的難題,賦予模型可靠且可控的推理能力。

1749003416655.jpg

在運(yùn)用純強(qiáng)化學(xué)習(xí)訓(xùn)練大模型時(shí),會(huì)出現(xiàn) “啊哈時(shí)刻”,即模型偶然展現(xiàn)出如自我糾正、回溯和驗(yàn)證等高級(jí)推理行為,DeepSeek - R1 便是例證。但這些行為的出現(xiàn)頻率與一致性難以預(yù)測(cè)和掌控,嚴(yán)重限制了大模型推理能力的拓展與可靠性。


為突破這一困境,研究者借鑒心理學(xué)家皮爾斯提出的經(jīng)典推理三元組理論,將人類推理能力拆分為假設(shè)、觀察和規(guī)則三個(gè)組件,兩兩組合可得出第三個(gè)組件?;诖?,他們構(gòu)建程序自動(dòng)生成演繹、歸納、溯因這三類推理的訓(xùn)練實(shí)例,對(duì)大模型輸出結(jié)果自動(dòng)驗(yàn)證。生成的任務(wù)由常見(jiàn)數(shù)據(jù)組合而成,卻不在原訓(xùn)練數(shù)據(jù)集中,以此訓(xùn)練模型的元推理能力。


舉例而言,演繹推理中,模型依據(jù)給定的邏輯規(guī)則和假設(shè),驗(yàn)證觀察結(jié)果是否成立;歸納推理時(shí),模型基于可觀察項(xiàng)和不完整輸入,抽象出底層生成規(guī)則;溯因推理里,模型根據(jù)觀察結(jié)果和規(guī)則圖,反向追蹤得出能解釋結(jié)論的最小隱藏假設(shè)集。每個(gè)訓(xùn)練實(shí)例由自動(dòng)化生成器產(chǎn)出,并經(jīng)驗(yàn)證器篩選,全程無(wú)需人工標(biāo)注,即可生成大規(guī)模、自我校驗(yàn)的訓(xùn)練數(shù)據(jù)。


該框架下的大模型類似混合專家模型架構(gòu),不同推理類型的 “專家” 利用訓(xùn)練數(shù)據(jù)提升各自能力。演繹推理 “專家” 能進(jìn)行假設(shè)生成、邏輯推論傳播等;歸納專家增強(qiáng)模型抽象與泛化能力;溯因?qū)<覄t以目標(biāo)為導(dǎo)向,高效進(jìn)行假設(shè)形成、驗(yàn)證和修訂。之后,研究者通過(guò)參數(shù)空間融合合并這些專家,并在數(shù)學(xué)、編程和社交互動(dòng)場(chǎng)景中,分別運(yùn)用強(qiáng)化學(xué)習(xí)訓(xùn)練專家模型,再融合訓(xùn)練好的模型。


研究針對(duì)任務(wù)難度分級(jí),采用循序漸進(jìn)策略訓(xùn)練模型。實(shí)驗(yàn)結(jié)果顯示,相比指令微調(diào)基線(Qwen - 2.5),基于元能力對(duì)齊的訓(xùn)練方法,使模型在數(shù)學(xué)、編程和科學(xué)問(wèn)題的 7 個(gè)未見(jiàn)基準(zhǔn)測(cè)試上,準(zhǔn)確率提升超 10%,經(jīng)特定領(lǐng)域強(qiáng)化學(xué)習(xí)后增益更明顯。在 7B 和 32B 規(guī)模下,該模型表現(xiàn)均優(yōu)于指令微調(diào)基線模型,尤其在數(shù)學(xué)任務(wù)上,合并三種推理模式后,模型性能提升 11.1%。這表明此框架為提升 AI 在多領(lǐng)域的推理能力,提供了可擴(kuò)展、可推廣且可控的有效途徑。

來(lái)【龍頭AI網(wǎng)】了解最新AI資訊!