Pixvana基于云端的VR管道現在包含了NVIDIA VRWorks 360 Video SDK。Pixvana希望利用云計算的力量來幫助解決VR創意人士所面臨的諸多挑戰。Pixvana VR管道的亮點包括:
兼容所有主要VR頭顯的視頻播放器,方便進行視頻分發。后期處理工具和選項,可為頭顯提供最佳質量的360度視頻。提供拼接工具(利用VRWorks),可根據各種相機系統創建360度視頻。基于Web的平臺,支持Chrome瀏覽器共享,編輯和資源管理。可定制的交互式視頻允許圖形疊加與測試。用于創建交互式視頻的頭顯內編輯工具。…
Pixvana聯合創始人兼首席技術官Scott Squires,以及高級計算機視覺科學家Paul Barsic日前撰文概述了制作360度視頻的基礎知識,并且介紹了Pixvana基于云端的工具套件,以及VRWorks中的關鍵流程,目的是幫助大家充分利用相關程序來開發360度/度VR項目。以下是映維網的具體整理:
1. 創建360度視頻
Pixvana專注于幫助創作者在不減損視頻質量的情況下制作360度視頻。高質量的360度視頻需要在專門的相機系統來捕捉環境的所有角度圖像。如下圖所示,相關的相機系統一般都會搭載多個傳感器和多個攝像頭。
圖1:左邊是Kandao Obsidian R Professional 3D 360 Camera;右邊是Insta360 Pro Camera。
各個攝像頭捕獲的視頻這些視頻視圖需要校準,曝光補償,并在名為“拼合”的過程中進行組合,如圖2所示。其他后期制作功能允許編輯者對圖像進行細化操作,旋轉和顏色校正。拼合和處理一系列圖像會產生通常為8K或更大的等量矩形視頻。
圖2:SPIN Studio后期處理工具和360度拼接工具
盡管等量矩形是360度視頻的標準格式,但它存在明顯的缺點,包括圖像最高點區域和最低點區域的像素浪費。所以除了等量矩形視頻外,我們同時支持多種包含不同幾何形狀和打包方式的專業格式,如菱形平面和FOVAS(視場自適應流式傳輸)。菱形平面是一種特殊的投影格式,可以縮減數據大小。FOVAS則采用特殊的平鋪格式和流媒體技術。即使用戶轉頭,它都可以在活動視場中提供高分辨率內容。所述格式旨在克服標準視頻的限制,最終目標是在較低帶寬下生成更高質量的視頻。
圖3是海灘情景的等量矩形投影。請注意,最高點位置和最低點位置的畸變情況。所述像素都是過度采樣,需要更多的帶寬進行傳輸,而這是一種浪費。
圖3:海灘情景的等量矩形投影
圖4是菱形平面投影的格式,其中圖像被投影至二十面體之上。圖像的小平面會被重新排列以適合平面。這種投影格式解決了過采樣問題,使得圖像更小,并而流式傳輸效果更高。
圖4:海灘情景的菱形平面投影
FOVAS方法則需要創建同一視頻的多個視圖,而每個視圖都可以調整至特定的瀏覽方向。然后,播放器根據需要切換至正確的視頻。
無論格式如何,VR視頻制作的下一步都是創建具有不同比特率的多個文件版本,以便視頻可以作為可變比特率視頻進行流式傳輸和下載。對于拼合,顏色調整,格式改動等流程,它們都可以利用云端和GPU來高效快速地生成所需輸出。
1.2 基于云端的系統:分發,后期制作和處理
分發是球形視頻創作者面臨的主要挑戰之一。目前最先進的技術是將視頻側載至各臺設備。但這需要相當漫長的時間,并且需要頭顯和視頻制作者位于同一位置。Pixvana的SPIN Play功能簡化了這個工作流程,支持遠程管理和跟蹤變化。它同時允許在未網時將完整內容下載至配對的頭顯并進行播放。
SPIN Play提供兩種播放模式:Share Mode和Guide Mode。Share Mode用于短期瀏覽,例如與遠程同事協作。要訪問這一模式,你只需在視頻播放器中輸入唯一的九位密碼,如圖5所示。所述密碼可以標識相應的播放列表。接下來,用戶可以進行完全控制,并且能夠輕松退出共享會話。
圖5:共享模式設置
Guide Mode則針對需要更高管理權限的體驗,例如VR電影或企業培訓場景。運行Guide Mode的頭顯可以跟蹤在線內容,響應更改,并且可以切換至可供管理的播放模式。單位演示者可以同步數十款頭顯,開始和停止播放,甚至可以跟蹤所有用戶的注視點。這樣特殊的功能使其成為了VR電影節和企業客戶的理想選擇。圖6是Guide Mode的管理屏幕。
圖6:Guide Mode
為了提高360度視頻的用處和吸引力,我們添加了創建交互式視頻的工具,如圖7所示。制片可以在VR里面編輯交互式視頻,并直接在頭顯中為最終瀏覽環境添加端口,圖形和文本。
圖7:SPIN Plau允許你創建交互式360度視頻
處理VR視頻所需的系統性能是VR創作者面臨的又一重大挑戰。典型的VR相機裝置由大約六個或更多高分辨率的攝像頭組成。無論編輯決策如何,攝像頭圖像都必須對齊,拼合,并渲染成最終的超高分辨率(8K)視頻。這需要大量的處理能力。英偉達顯卡明顯是個正確的解決方案,但渲染所需的性能和時間大幅度占用了工作站。一些編輯工作者得不得在一天工作結束后令設備繼續處理,從而影響了工作流程。
SPIN Studio是Pixvana基于云端的平臺,借助VRWorks 360 Video,它可以在合理的時間內渲染高質量的VR視頻。Amazon Web Services (AWS)托管的智能資源管理系統允許用戶同時編輯和渲染多個視頻。一旦用戶請求渲染,系統就將視頻分成多個片段,然后將其分發到多個實例。這樣的系統可以管理不同云服務平臺之間的工作,從而實現更高的吞吐量。在當前的架構中,Pixvana利用了AWS和Microsoft Azure。
完成工作后,最后一個進程是收集結果,從而完整地生成最終視頻。每個GPU實例都運行Callisto,亦即我們內部的視頻處理引擎,它位于Docker容器的一個實例之中。Callisto集成了行業標準計算機視覺庫,包括FFMPEG和OpenCV,我們自家基于C ++和CUDA的圖像處理算法,以及VRWorks 360 Video SDK。
所有VR視頻處理都涉及以下步驟:
校準,或確定旋轉和扭曲輸入圖像的規則編輯,裁剪,顏色處理,拼合調整,以及定向渲染和編碼
借助云端技術,新的專業格式,以及Pixvana突破性的VR管道,創建360度視頻變得前所未有的輕松。接下來,我們將討論在VRWorks中的圖形,360度視頻和空間化音頻,以及Pixvana VR管道的未來計劃。
2. 云端的VRWorks
現在我們來討論如何利用VRWorks和基于云端的處理來優化VR視頻制作。我們同時將介紹在這一過程中開發出的最佳實踐。
2.1 VRWorks的工作原理
VRWorks是一組特定于VR的API,庫和引擎。VRWorks由三個主要組件組成:VRWorks Graphics(適用于應用程序和頭顯開發者),VRWorks 360 Video和VRWorks Audio(適用于空間化的光追音頻)。Pixvana主要利用了360 Video。
NVIDIA VRWorks 360 Video SDK支持基于文件,基于流傳輸數據,以及基于幀的工作流程。它包括五個模塊:High-Level拼合器,校準器,Low-Level拼合器,打包器,以及空間音頻處理器。High-Level管道包括GPU加速解復用器,復用器,解碼和編碼,并可直接處理視頻文件和流傳輸數據。
盡管經過了優化,但High-Level拼合器并沒有提供給交互的能力。相反,我們選擇使用校準器和Low-Level拼合器的組合來實現用戶交互。Low-Level拼合管道直接配合CUDA設備存儲中的幀,并為執行和數據傳輸的線程提供了更大的靈活性和應用程序控制。高度優化的、基于CUDA的打包器可以在透視,魚眼和等量投影之間轉換圖像,從而執行圖像扭曲和失真消除。扭曲操作同時可以將等量矩形拼合輸出轉換為投影格式(如立方體貼圖),以便消除過度采樣并減少所需的流式傳輸帶寬。
圖8是校準工作流程。左側框標有“Sources”,這表示用戶輸入。英偉達校準器根據至少一幀來確定每個攝像頭的一組完整內部參數(焦距,畸變系數,視場)和外部參數(方向和位置)。
圖8:校準流程示例
存在一定的注意事項,如特征距離,足夠的特征和適當的照明。場景特征不應該位于相機裝置的一米或兩米以內,因為顯著的視差會混淆算法。具有大片無特征區域(如墻壁)的場景可能會產生對齊問題。最后,場景應該要提供足夠的照明,不能太暗,也不能太亮。
圖9是易于校準的情況。
圖9:后期校準,簡單的照明
圖10則是非常有挑戰性的案例。你可以看到場景非常光亮。在這種情況下,向校準系統提供焦距估計可以提供幫助。但是,你可以顯著看到明顯的對齊問題。
圖10:更為復雜和多變的照明產生了校準方面的挑戰
下面的代碼片段是一個名為NVcalib的VRWorks校準器函數。它分為7個關鍵的步驟:
創建校準實例設置相機裝置屬性設置校準選項將輸入圖像指針(Pointer)傳輸至校準實例指令校準器執行校準檢索結果銷毀校準實例
nvssVideoStitch底層拼合器函數同樣易于調用。下面是粗略的示意性步驟,并不代表最佳工作流程:
設置拼合器屬性初始化拼合器實例 (每個視頻需要一次)將輸入數據加載至nvstitch實例執行拼合將拼合器的拼合圖像復制到outputRGBA銷毀校準實例(每個視頻需要一次)
曝光補償是VR視頻的一個重要問題。由于在室外拍攝360度場景將包括太陽光和陰影,因此動態范圍會發生很大變化。相機傳感器的動態范圍有限,所以相機裝置中的每個攝像頭通常會自動設置曝光。對于最終的拼合圖像而言,重疊的區域會出現不同的亮度。我們測量亮度差異,并且進行曝光補償,然后再將它們傳輸至VRWorks拼合器。Pixvana正在與英偉達團隊合作優化拼合器,并提供更多的控制和功能以產生更好的拼合。
3. 云處理的優點,缺點及解決方案
圖11說明了云計算的其中一個主要優勢。示例視頻中的每個輸入分成短節段,然后分配給多個計算機以進行拼合。收集拼合節段,并編碼成單個拼合視頻。接下來,將最終視頻放到用戶的媒體asset庫中,這樣用戶隨時都可以觀看。
圖11:SPIN Studio的云處理為360度視頻提供了大量的并行處理
我們基于云端的方法存在四個重要的局限性。首先,我們對GPU的控制有限。其次,我們必須維護一個基于Web的VR編輯器。第三,我們需要管理一系列服務之間的協同工作。最后,用戶必須上傳源視頻,而這可能是一個耗時的過程。
為了解決將文件傳輸至云端系統的問題,Pixvana為Windows和Mac OS開發了云攝取功能和桌面上傳器。桌面上傳器在中斷后可以恢復(如網絡丟失或系統斷電),從而為用戶提供了最大的靈活性。上傳器同時理解文件夾層次結構,可以在云端復制用戶定義的文件結構。上傳狀態將同時報告給Web UI和上傳器,允許遠程編輯器跟蹤進度。
Pixvana同時創建了一套工具來解決VR創建者面臨的主要問題。亮點包括通用播放器,頭顯內后期處理工具,以及基于Web的編輯與管理系統。云計算令所有這些創新成為可能。這個基于云端的VR視頻編輯平臺以英偉達的VRWorks為核心,同時將成為Pixvana實現XR故事敘述潛力的方式。
4. 未來計劃
為繼續提升電影制作體驗與質量,Pixvana致力于改進我們基于云端的VR管道。
隨著視頻處理量的增加,我們正在尋求利用機器學習和人工智能來探索360度電影制作的可能性。我們同時在研究如何利用圖像識別功能,支持內容感知填充,以及優化視頻內容元數據來改善拼合過程。盡管我們目前專注于面向VR頭顯的360度視頻,但我們期望涵蓋AR和MR的專門用例。體三維捕獲正繼續發展,并可提供完整的六自由度捕獲體驗。隨著它變得越加實用,對這項功能的支持將整合至管道之中。光場是另一種VR視頻技術,可以在六自由度環境中提供完全復制的實時捕捉。
當然,所有這一切將需要云端提供更多的GPU性能。
原文鏈接:https://yivian.com/news/60068.html
來源:映維網