紅杉中國(guó)近日推出 AI 智能體基準(zhǔn)測(cè)試工具 xbench,并發(fā)布技術(shù)報(bào)告,旨在搭建科學(xué)評(píng)估體系,推動(dòng)智能體技術(shù)發(fā)展。


xbench 聚焦兩大核心問(wèn)題:解析模型能力與實(shí)際效用的關(guān)系,以及實(shí)現(xiàn)不同時(shí)間維度下的能力對(duì)比。為此,紅杉中國(guó)確立 “創(chuàng)新任務(wù)設(shè)置與評(píng)估”“構(gòu)建長(zhǎng)青評(píng)估體系” 兩大方向,推出雙軌評(píng)估集。其中,“xbench-AGI Tracking” 用于檢測(cè) Agent 應(yīng)用落地的基礎(chǔ)實(shí)踐能力;“xbench-Profession Aligned” 則針對(duì)真實(shí)生產(chǎn)場(chǎng)景開(kāi)展進(jìn)階測(cè)試。


考慮到智能體更新迭代迅速、外部環(huán)境動(dòng)態(tài)變化的特性,xbench 引入 “長(zhǎng)青評(píng)估(Evergreen Evaluation)” 機(jī)制。紅杉中國(guó)團(tuán)隊(duì)將持續(xù)維護(hù)并動(dòng)態(tài)更新測(cè)試內(nèi)容,確保評(píng)估結(jié)果始終貼合實(shí)際需求,保持時(shí)效性與相關(guān)性。


在 xbench 首輪測(cè)試中,OpenAI 的 o3、Google Gemini 2.5 系列、Anthropic 的 Claude 3.7 Sonnet 等熱門(mén)模型均參與測(cè)評(píng)。測(cè)試結(jié)果顯示,o3 在多項(xiàng)基準(zhǔn)測(cè)試中拔得頭籌,展現(xiàn)強(qiáng)勁實(shí)力;字節(jié)跳動(dòng)的豆包 1.5 系列中的 doubao 1.5 thinking pro 表現(xiàn)亮眼,躋身 AGI Tracking 榜單前三,引發(fā)行業(yè)關(guān)注。xbench 的推出,有望為智能體技術(shù)發(fā)展提供客觀評(píng)估標(biāo)準(zhǔn),助力行業(yè)良性競(jìng)爭(zhēng)與技術(shù)迭代。

來(lái)【龍頭AI網(wǎng)】了解最新AI資訊!