TripoSR 簡介:從單張影像快速產生 3D 物件 — Stability AI
]
將 TripoSR 3D 重建與 OpenLRM 的重建進行比較。
技術細節
我們的訓練資料準備結合了多種資料渲染技術,可以更接近複製現實世界中的影像分佈,從而顯著提高模型的泛化能力。我們精心策劃了一個 CC-BY,這是 Objaverse 資料集的一個更高品質的子集,用於訓練資料。在模型方面,我們也對基礎 LRM 模型進行了多項技術改進,包括通道數最佳化、掩模監督和更有效率的裁剪渲染策略。您可以閱讀技術報告以了解更多詳細資訊。
我們邀請開發人員、設計師和創作者探索其功能,為其發展做出貢獻,並發現其改變他們的工作和行業的潛力。
TripoSR 模型的程式碼現已在 Tripo AI 的 GitHub 上提供,模型權重可在 Hugging Face 上取得。有關 TripoSR 模型的更多詳細信息,請參閱我們的技術報告。
要了解我們的最新進展,請在 Twitter、Instagram、LinkedIn 上關注我們,並加入我們的 Discord 社群。
]
Stable Diffusion 創建者 Stability AI 和 AI 3D 建模新創公司 Tripo AI 發布了 TripoSR,這是一種新的開源 AI 模型,用於從單一來源影像生成 3D 模型。
它可以在不到一秒的時間內產生“高品質的 3D 模型”,並且“旨在滿足娛樂、遊戲、工業設計和建築專業人士日益增長的需求”。
TripoSR 是做什麼的?
TripoSR 從單一來源影像產生帶有紋理的 3D 網格,自動產生原始視圖中不可見的幾何形狀和紋理。
該模型使用 Creative Commons CC BY 許可下提供的 3D 模型,在公開可用的 Objaverse 研究資料集的子集上進行訓練。
TripoSR 與其他影像到 3D 重建人工智慧模型相比如何?
在發布的技術報告中,Stability AI 和 Tripo AI 將 TripoSR 與 OpenLRM 和 One-2-3-45 等其他開源 3D 重建模型進行了比較。
它在生成模型的準確性方面優於測試的其他模型,並且在處理時間方面表現得相當好。
那麼這對 3D 藝術家來說在實踐中意味著什麼?
Tripo AI 的演示(在本文頂部)中的結果看起來相當不錯,儘管 Stability AI 部落格文章(上面)的影片中的更簡單的模型可能是更典型的輸出。
早期的用戶測試(例如來自 GamesFromScratch 的影片)表明,硬表面物件的結果可用作遊戲或 AR 應用程式的背景模型,儘管有機角色的結果…很有趣。
許可證和系統要求
TripoSR 的原始程式碼可在 GitHub 上取得,並獲得 MIT 許可,並附有依賴項清單。模型權重可在 Hugging Face 上找到。
在預設設定下,該模型需要大約 6GB 的 VRAM 才能輸入單一影像,但根據 Stability AI 的說法,它可以在沒有 GPU 的機器上運行。
在 Stability AI 的部落格文章中閱讀開源 3D 生成模型 TripoSR 的概述
]
Reddit 投票翻轉分享 0 分享
在 3D 生成 AI 領域,3D 生成和透過少量視圖進行 3D 重建之間的界限已經開始模糊。這種融合是由一系列突破推動的,包括大規模公共 3D 資料集的出現和生成模型拓撲的進步
新的研究涉及使用 2D 擴散模型從輸入照片或文字提示生成 3D 對象,以避免 3D 訓練資料的缺乏。 DreamFusion 就是一個例子,它透過使用 2D 擴散模型優化 3D 模型,開創了分數蒸餾採樣 (SDS)。為了產生詳細的 3D 對象,此方法改變了遊戲規則,因為它使用 2D 先驗進行 3D 生成。然而,由於計算和最佳化要求高,且難以準確管理輸出模型,這些方法通常會遇到生成速度慢的限制。前饋 3D 重建模型在運算能力方面要有效率得多。這方面的幾種較新方法已經證明了在各種 3D 資料集上進行可擴展訓練的潛力。這些新方法透過允許快速前饋推理,或許還可以更好地控制產生的輸出,顯著提高了 3D 模型的效率和實用性。
Stability AI 和 Tripo AI 的一項新研究提出了 TripoSR 模型,該模型可以使用 A100 GPU 在半秒內從單一影像生成 3D 前饋模型。該團隊提供了資料管理和渲染、模型設計和訓練方法的各種增強功能,同時擴展了 LRM 架構。對於單一影像的 3D 重建,TripoSR 使用 Transformer 架構,與 LRM 非常相似。它採用單一 RGB 照片中的物件並產生三維模型。
TripoSR 模型包含三個主要部分:
影像編碼器
基於三平面的神經輻射場(NeRF)
影像到三平面解碼器
影像編碼器使用名為 DINOv1 的預訓練視覺變換器模型進行初始化。該模型在TripoSR模型中起著至關重要的作用。它將 RGB 影像轉換為一系列潛在向量,這些向量對重建 3D 物件所需的全域和局部圖片屬性進行編碼。
所提出的方法避免了顯式參數調節,以建立更耐用、更靈活的模型,該模型可以在不依賴準確的相機資料的情況下處理各種現實環境。重要的設計因素包括變壓器層數、三平面尺寸、NeRF 模型細節和主要訓練設定。
為了回應資料的重要性,我們對訓練資料收集進行了兩項增強:
資料管理:資料管理涉及挑選在 CC-BY 許可下分發的 Objaverse 資料集的子集,提高了訓練資料的品質。
資料渲染:他們實作了各種資料渲染策略來提高模型的通用性,即使僅使用 Objaverse 資料集進行訓練也是如此。這些技術更好地模仿了現實世界照片的分佈。
實驗表明,TripoSR 模型在數值和品質上均優於競爭對手的開源解決方案。這與預訓練模型、線上互動演示以及 MIT 許可下的原始程式碼的可用性一起,展現了人工智慧 (AI)、電腦視覺 (CV) 和電腦圖形 (CG) 領域的重大進步)。該團隊預計透過為研究人員、開發人員和藝術家配備這些用於 3D 生成人工智慧的尖端工具,將對這些領域產生變革性影響。