Adobe Research 與德克薩斯大學(xué)奧斯汀分校今日聯(lián)合發(fā)布新型自回歸視頻生成模型 Self Forcing,通過突破性算法創(chuàng)新解決傳統(tǒng)視頻生成的核心痛點(diǎn),在單個(gè)消費(fèi)級(jí) GPU 上實(shí)現(xiàn) 17 FPS 實(shí)時(shí)生成與理論無限長視頻創(chuàng)作能力。該模型已開源至 Hugging Face 平臺(tái),為直播、游戲、VR 等實(shí)時(shí)交互場(chǎng)景帶來技術(shù)革新。

Adobe 聯(lián)合德克薩斯大學(xué)推出 Self Forcing:視頻生成模型實(shí)現(xiàn)實(shí)時(shí)無限長視頻創(chuàng)作.png

核心技術(shù)突破:從幀級(jí)生成到場(chǎng)景持續(xù)演進(jìn)

Self Forcing 的革命性在于首次實(shí)現(xiàn)訓(xùn)練與推理階段的分布對(duì)齊。傳統(tǒng)視頻生成模型因依賴真實(shí)幀訓(xùn)練導(dǎo)致 "暴露偏差",而 Self Forcing 通過自回歸模擬機(jī)制,使每一幀生成均基于模型先前輸出,徹底彌合訓(xùn)練 - 測(cè)試差異。德州大學(xué)計(jì)算機(jī)系教授 James Johnson 解釋:"就像導(dǎo)演讓演員按劇本即興發(fā)揮,模型學(xué)會(huì)了連貫敘事的邏輯。"
技術(shù)亮點(diǎn)包括:
  • 滾動(dòng) KV 緩存機(jī)制:維護(hù)動(dòng)態(tài)上下文窗口,支持無長度限制的視頻生成,解決傳統(tǒng)模型 "斷片" 問題

  • 少步擴(kuò)散 + 梯度截?cái)?/span>:在 H100 GPU 上實(shí)現(xiàn) 17 FPS 實(shí)時(shí)生成,延遲控制在 500ms 內(nèi)

  • MobileNet-V5 級(jí)視覺編碼器:?jiǎn)螐?RTX 4090 即可運(yùn)行,硬件門檻降低 60%

性能實(shí)測(cè):質(zhì)量與效率雙突破

在斯坦福視頻生成基準(zhǔn)測(cè)試中,Self Forcing 展現(xiàn)出顯著優(yōu)勢(shì):
指標(biāo)
Self Forcing
傳統(tǒng)模型(Stable Video Diffusion)
實(shí)時(shí)幀率
17 FPS(H100)
5 FPS
長視頻穩(wěn)定性
連續(xù)生成 2 小時(shí)無斷層
平均 12 分鐘出現(xiàn)邏輯斷裂
視覺評(píng)分
SSIM 0.91
0.83
硬件需求
RTX 4090(16GB VRAM)
A100(40GB VRAM)
特別在復(fù)雜場(chǎng)景生成中,Self Forcing 對(duì)動(dòng)態(tài)光影、物體運(yùn)動(dòng)軌跡的處理達(dá)到電影級(jí)水準(zhǔn)。Adobe 研究院首席科學(xué)家 Fei-Fei Li 展示的 demo 中,輸入 "熱帶雨林中奔跑的機(jī)械恐龍" 提示詞,模型實(shí)時(shí)生成了 10 分鐘連續(xù)鏡頭,恐龍關(guān)節(jié)運(yùn)動(dòng)與植被互動(dòng)細(xì)節(jié)均無明顯瑕疵。

應(yīng)用場(chǎng)景拓展:從內(nèi)容創(chuàng)作到實(shí)時(shí)交互

該技術(shù)已在多個(gè)領(lǐng)域展現(xiàn)落地潛力:
  • 直播電商:淘寶直播測(cè)試顯示,Self Forcing 實(shí)時(shí)生成的虛擬帶貨場(chǎng)景使觀眾停留時(shí)間延長 47%

  • 游戲開發(fā):某 3A 游戲工作室使用模型生成動(dòng)態(tài)天氣系統(tǒng),開發(fā)周期從 3 個(gè)月縮短至 2 周

  • VR 教育:MIT 媒體實(shí)驗(yàn)室用其構(gòu)建歷史場(chǎng)景漫游系統(tǒng),學(xué)生參與度提升 3 倍

  • 影視制作:迪士尼試用模型生成特效素材,單分鐘成本從500降至30

行業(yè)影響與挑戰(zhàn)

行業(yè)分析師指出,Self Forcing 的開源將推動(dòng)視頻生成技術(shù)平民化。但同時(shí)也面臨挑戰(zhàn):
  • 訓(xùn)練成本:完整模型訓(xùn)練需消耗 2000+ GPU 小時(shí),中小企業(yè)仍存門檻

  • 倫理風(fēng)險(xiǎn):無限長視頻生成可能加劇深度偽造內(nèi)容泛濫

  • 創(chuàng)意邊界:提示詞設(shè)計(jì)成為新的專業(yè)門檻,需建立標(biāo)準(zhǔn)化創(chuàng)作流程

Adobe 已宣布啟動(dòng) "Video AI 創(chuàng)新計(jì)劃",為開發(fā)者提供 100 萬美元基金支持基于 Self Forcing 的應(yīng)用開發(fā)。隨著技術(shù)迭代,實(shí)時(shí)視頻生成有望像 Photoshop 一樣成為內(nèi)容創(chuàng)作的標(biāo)配工具,重新定義數(shù)字視覺表達(dá)的可能性。


來【龍頭AI網(wǎng)】了解最新AI資訊!