OpenAI的Sora掀起文生視頻革命之際,中國科技巨頭字節(jié)跳動悄然亮出了一張王牌——Boximator。這款創(chuàng)新性AI視頻生成模型通過獨特的“框選控制”技術(shù),解決了當(dāng)前AI視頻生成領(lǐng)域的關(guān)鍵痛點:精準(zhǔn)動作控制。它讓用戶能夠像導(dǎo)演一樣指揮視頻中的每個元素,徹底改變了動態(tài)內(nèi)容的創(chuàng)作方式。

Boximator AI視頻工具.png

核心突破:為什么Boximator是游戲規(guī)則改變者?

傳統(tǒng)AI視頻工具Runway Gen-2或Pika 1.0僅依賴文本提示生成視頻,導(dǎo)致動作控制粗糙且不可預(yù)測。而Boximator引入了雙約束機制,實現(xiàn)像素級操控:

  • 硬框約束(Hard Box):精確鎖定對象輪廓,嚴(yán)格定義其在每幀中的位置和形狀

  • 軟框約束(Soft Box):劃定對象運動區(qū)域,允許路徑內(nèi)的自然隨機性,保持運動流暢度

這種技術(shù)讓Boximator在對比測試中完勝競品:

  • 當(dāng)輸入“英俊男士從口袋掏玫瑰并注視花朵”時,僅Boximator完整生成掏花+凝視動作,Pika和Gen-2均失敗

  • 在“往酒杯倒酒”場景中,Boximator是唯一同時實現(xiàn)傾倒動作與酒面上升的模型

實戰(zhàn)演示:如何用Boximator生成精準(zhǔn)動態(tài)視頻?

操作三步法(基于官方Demo及論文)

  1. 圈選主體:在靜態(tài)圖像中用矩形框標(biāo)記要動畫化的對象(如人物、動物或物體)

  2. 設(shè)定軌跡:繪制箭頭或終點框定義運動路徑,支持多對象獨立路徑設(shè)計

  3. 生成視頻:輸入輔助文本提示,模型輸出帶精準(zhǔn)動作的視頻片段

驚艷案例展示

  • 一只小貓藏進(jìn)杯子后又探出頭,頭部運動自然連貫

  • 穿藍(lán)襯衫的浣熊跳起接球,肢體動作精準(zhǔn)同步

  • 無人機在沙灘上空完成轉(zhuǎn)向盤旋,軌跡完全貼合預(yù)設(shè)路徑

技術(shù)架構(gòu):雙階段訓(xùn)練+插件化集成

Boximator的卓越性能源于其創(chuàng)新架構(gòu):

  1. 自追蹤預(yù)訓(xùn)練
    模型首先生成視頻內(nèi)容及對應(yīng)邊界框,學(xué)習(xí)對象與框的關(guān)聯(lián)規(guī)律。此階段使用WebVid-10M數(shù)據(jù)集中110萬動態(tài)視頻片段,包含220萬自動標(biāo)注的對象框

  2. 控制模塊強化
    凍結(jié)基礎(chǔ)模型權(quán)重,專注訓(xùn)練控制網(wǎng)絡(luò)。通過Fourier編碼+MLP映射將框坐標(biāo)轉(zhuǎn)換為控制向量,再與視頻幀視覺特征融合

  3. 無縫插件兼容
    可作為插件集成至PixelDance、ModelScope等視頻擴散模型,無需修改原模型即增強動作控制能力

對標(biāo)競品:Boximator的差異化優(yōu)勢

功能維度BoximatorRunway Gen-2Pika 1.0
動作控制精度? 硬框/軟框雙軌制? 僅文本粗略控制? 動作隨機性高
多對象處理? 同步控制多主體路徑?? 單對象優(yōu)化?? 常出現(xiàn)對象混淆
生成一致性? 對象ID跨幀追蹤? 幀間連貫性弱?? 部分場景斷裂
輸出質(zhì)量(FVD分)21.7 (最優(yōu))28.926.5

數(shù)據(jù)來源:MSR-VTT數(shù)據(jù)集測試及人類評估

適用場景與實用價值

  • 短視頻創(chuàng)作者:快速生成精準(zhǔn)運鏡的劇情片段,例如“雨傘被風(fēng)吹走”等復(fù)雜動態(tài)

  • 動畫工作室:替代手繪關(guān)鍵幀,通過框選批量生成角色行走、取物等基礎(chǔ)動作

  • 電商廣告制作:演示產(chǎn)品使用路徑(如“口紅旋轉(zhuǎn)出鞘”),提升轉(zhuǎn)化率

  • 教育內(nèi)容開發(fā):可視化科學(xué)實驗中的物體運動軌跡,如拋物線運動或化學(xué)分子碰撞

Boximator的顛覆性在于將物理世界運動規(guī)律編碼進(jìn)AI生成流程。它不必替代專業(yè)動畫工具,而是為普通創(chuàng)作者提供導(dǎo)演級控制權(quán)——無需學(xué)習(xí)復(fù)雜的關(guān)鍵幀技術(shù),一個方框+一條路徑即可讓靜態(tài)元素“活”起來。

AI還能顛覆哪些領(lǐng)域?上【龍頭AI網(wǎng)】,探索前沿應(yīng)用!