其中 S3 階段被定義為“世界模擬器”(World Simulators),即能夠生成完全符合物理規則,并且可用于指導具身任務的高級視頻生成模型。
值得注意的是,世界模擬器這一概念早在 2018 年就被提出,反映了研究人員希望將視頻生成模型從單純的視覺生成擴展到具有真實物理環境交互能力的目標,從而為未來的具身智能發展奠定基礎。
為了驗證 WorldSimBench 評估框架的有效性,他們在多個具身智能任務場景中對多種視頻生成模型進行了評估。
分別在 MineRL、CARLA 和 CALVIN 三個仿真環境中測試了模型的表現,對應了開放式具身環境、自動駕駛 和機器人操控三種重要的智能任務。
MineRL 是一款基于“我的世界”(Minecraft)的模擬環境,主要用于測試視頻生成模型在復雜、開放式環境中的表現。
智能體的任務是在虛擬環境中完成諸如采集物品、導航等任務。評估框架負責判斷生成視頻能否有效引導智能體執行這些操作。
CARLA 是一個用于自動駕駛研究的仿真平臺,評估視頻生成模型在交通場景中的表現。
研究人員通過模擬復雜的城市路況、行人交通等情景,考察模型生成的視頻能否幫助自動駕駛系統做出正確決策。評估指標包括路線完成度、碰撞率、違規行為等。
CALVIN 則是一個用于機器人操作的仿真環境,評估視頻生成模型能否幫助機器人完成精確的物理操作任務,如抓取物體、搬運等。
該環境的操作復雜度較高,需要生成的視頻能夠準確反映物體的位置、運動軌跡和速度變化,其評估指標包括成功率和軌跡生成質量等。
在顯性感知評估中,研究人員使用了 HF-Embodied 數據集,并訓練了一個基于人類偏好反饋(Human Preference Evaluator)的評估器,通過人類反饋對生成視頻進行了打分。
圖 | 顯性感知評估概述(來源:arXiv)在顯性感知評估中:
上半部分是指令提示生成。研究人員使用來自互聯的大量視頻字幕和預定義的體現評估維度。它們經過了 GPT 擴展并由人工驗證,以創建相應的任務指令提示列表,用于數據生成和評估。
下半部分是 HF-Embodied 數據集生成。使用了大量帶有字幕的互聯具身視頻訓練數據生成模型。然后根據相應的任務指令提示列表,將細粒度的人工反饋注釋應用于視頻上,涵蓋多個體現維度。
在隱性操作評估中,研究人員通過將生成的視頻轉換為控制信號,并觀察其在各種閉環具體任務中的表現來隱性評估模擬器的能力。
圖 | 隱性操作評估概述(來源:arXiv)在隱性操作評估中:
不同場景下的具身任務被分解為可執行的子任務。視頻生成模型根據當前指令和實時觀察生成相應的預測視頻。使用預先訓練的 IDM 或基于目標的策略,代理執行生成的動作序列。
在固定的時間步長之后,通過再次從視頻生成模型中采樣來刷新預測視頻,并重復此過程。最后,通過模擬環境中的監視器獲得各種具身任務的成功率。
實驗結果表明,該評估器在判斷視頻的視覺質量和物理一致性方面,表現大多優于傳統的大型語言模型(如 GPT-4o)。
圖 | 人類偏好評估器與 GPT-4o 的整體性能比較(來源:arXiv)這些數據顯示,使用基于兩種評估方法的 WorldSimBench 框架,研究人員能夠更精確地捕捉到模型在視覺生成中的細微差異,并且能夠更好地反映人類對視頻生成的實際期望。
盡管 WorldSimBench 框架在視頻生成模型評估方面取得了進展,但其依然面臨一些挑戰。
比如,HF-Embodied 數據集是依賴于大規模人工標注數據,而且現有的評估場景集中在虛擬仿真環境中,如何擴展到許多真實世界的場景仍需要繼續探索。
最后,基于整體的顯性感知評估和隱性操作評估結果,該課題組得出結論:當前的視頻生成模型仍然無法有效捕捉許多物理規則。
作者在論文最后強調,“這表明在它們成為真正的世界模擬器之前,還需要進行很多改進。”
參考資料:
https://arxiv.org/pdf/2410.18072v1?
運營/排版:何晨龍