如何讓 AI 在 3D 環(huán)境中如人類般思考,一直是具身智能領域亟待攻克的難題。如今,加州大學洛杉磯分校(UCLA)與谷歌研究院的聯(lián)合研究團隊取得重大突破,研發(fā)出 3DLLM - MEM 模型與 3DMEM - BENCH 基準,首次賦予 AI 在復雜 3D 環(huán)境中構建、維護和運用長時記憶的能力。

3DLLM - MEM 模型與 3DMEM - BENCH 基準.jpg

人類能在陌生房屋里,依靠強大的空間 - 時間長時記憶,記住房間物品特征與位置關系,據(jù)此完成任務。反觀現(xiàn)有大語言模型(LLMs),雖在文本理解方面表現(xiàn)出色,但面對動態(tài) 3D 環(huán)境卻困難重重。在多房間任務中,模型常因無法關聯(lián)不同時空觀察、缺失空間表征,以及難以動態(tài)管理環(huán)境變化導致的記憶過時等問題,致使任務失敗。究其根本,是缺乏針對 3D 空間 - 時間的記憶建模。


為解決這一困境,研究團隊構建了 3DMEM - BENCH,這是首個 3D 長時記憶評估基準。其規(guī)模龐大且任務多樣,涵蓋 26,000 + 軌跡、1,860 個具身任務,涉及從簡單物品收集到復雜跨房間推理,覆蓋 182 個 3D 場景(平均每個場景 18 個房間)。該基準從具身任務、時空問答(EQA)、場景描述等多維度進行評估,任務難度分簡單、中等、困難,并設有 “野外挑戰(zhàn)”,用于考察模型泛化能力,與以往基準相比,首次聚焦 “長時記憶” 與 “3D 空間理解” 結合。


同時,研究團隊提出由雙記憶系統(tǒng)驅(qū)動的具身智能體 ——3DLLM - MEM 模型。該模型借鑒人類認知結構,擁有工作記憶存儲當前觀察,情景記憶以密集 3D 表征留存歷史觀察與交互,二者通過記憶融合模塊,利用注意力機制,依據(jù)任務選擇性提取情景記憶特征,避免記憶過載又保障關鍵信息留存。并且,模型具備動態(tài)更新機制,環(huán)境變化時自動同步記憶。


實驗數(shù)據(jù)顯示,在 3DMEM - BENCH 上,3DLLM - MEM 優(yōu)勢顯著。在 “野外困難任務” 中成功率達 27.8%,遠超 “最近記憶” 等基線模型;“野外任務” 整體成功率比最強基線高出 16.5%。在 EQA 任務的 “空間關系” 等子任務上,準確率超 60%,遠高于傳統(tǒng) 3D - LLM。此外,模型通過 “動態(tài)融合” 降低計算成本,保持高推理精度。例如在 “準備早餐” 任務中,能靈活調(diào)用記憶調(diào)整策略完成任務。


盡管 3DLLM - MEM 取得重大突破,但研究團隊也指出,目前模型依賴模擬器高層動作預設,未來需與底層導航和控制融合,以實現(xiàn)更廣泛應用 。

來【龍頭AI網(wǎng)】了解最新AI資訊!