什麼是虛擬分身？

July 18, 2021

內容目錄

虛擬環境中以虛擬形象為媒介的協作正變得越來越普遍。然而，當前的消費者係統並不適合完全複製現實世界的非語言交流。我們提出了一種用於虛擬現實協作的新型化身系統，該系統通過追蹤身體運動、手勢和麵部表情等行為來支持高水平的非語言表達。該系統僅使用相機追蹤技術構建。因此，與許多其他高級追蹤系統相比，它不需要使用者在身上佩戴額外的追蹤器。在一項二元研究中，我們將我們的高表現力系統與由兩個穿戴式追踪器擴展的消費者設置進行了比較。我們調查了使用者的表現，例如完成時間和準確性，以及使用非對稱控制方案的虛擬字謎遊戲中的存在和人際吸引力。結果表明，與表現力強的化身互動的參與者比與表現力低的化身代表的伙伴互動的參與者感受到更多的社會存在感和吸引力，並表現出更好的任務表現。因此，我們得出結論，虛擬現實化身系統受益於更高水平的非語言表達能力，無需額外的穿戴式追踪器即可實現。

什麼是虛擬分身？

當前的虛擬現實 (VR) 技術可以讓人們在共享虛擬環境 (SVE) 中獨立於其地理位置進行交流和協作。然而，VR 中通信和協作的質量和效率往往受到一些因素的影響，例如虛擬環境渲染（Gergle 等人，2013 年；McVeigh-Schultz 等人，2019 年）、虛擬形象表示（Bombari 等人，2019 年）。 2015）、延遲（Friston and Steed 2014）和狀態同步（Pan and Steed 2017）。特別是虛擬人物在社交VR中扮演著重要的角色，虛擬人物的真實感是影響存在感、人際互動和共存感的主要因素之一。駿馬和施羅德 2015 年；榮格和休斯，2016 年；榮格等人，2017 年；榮格等人，2018 年）。

化身寫實度常用於衡量頭像質量，可分為外觀寫實和行為寫實。以前的大部分工作都是在視覺保真度上完成的（Latoschik 等人，2016 年；Latoschik 等人，2017 年），並且頭像外觀影響所有共享VE 中的交互（Nilsson 等人，2002 年；Schroeder，2012 年）。虛擬角色代表使用者並呈現真實世界玩家的所有語言和非語言行為。對於交流，人類積極使用語言和非語言行為來最好地表達他們的意圖。然而，人們傾向於通過非語言行為進行更多的交流（Matsumoto et al., 2012) 與口頭管道相比，在社交互動中。因此，研究非語言行為對虛擬現實交流的影響至關重要。

先前的研究研究了非語言行為的某些方面，例如眼睛凝視（Garau 等人，2003 年）和麵部表情（Bailenson 等人，2006 年），這些已被證明是 SVE 中的重要因素。由於感官技術，表達化身系統（整合非語言行為，如身體運動、手勢、面部表情和眼睛凝視）在當前的沉浸式系統中受到限制。儘管我們仍然有改善外觀真實感的需求（Bombari et al., 2015），但尚未在具有完全體現化身的交流和協作虛擬環境中系統地研究化身在非語言行為方面的表現力的影響。

在本文中，我們提出了一個協作 VR 平台，該平台支持在非語言行為方面的不同化身表達水平上的非對稱化身介導的交流。我們在 SVE 中實施了一個具有不同表達化身條件的字謎遊戲，以衡量共存、社交存在和人際吸引力。“Charades 是一種啞劇遊戲：你必須在不說話的情況下“表演”一個短語，而你團隊的其他成員則試圖猜測這個短語是什麼。目標是讓你的團隊盡快猜出短語”（Dana，2000）。我們選擇這個遊戲的原因是鼓勵參與者執行非語言行為來完成一項引人入勝的協作任務。我們通過二元使用者研究評估了虛擬形象控制系統，調查了準確性和完成時間方面的性能。

這項研究做出了以下主要貢獻：1）我們構建了一個完全具有表現力的化身控制系統，該系統支持眼睛注視和嘴巴渲染，並結合追蹤自然的非語言行為。該系統無需額外的身體佩戴傳感器即可工作，並通過組合多個 Leap Motion 追蹤攝像頭在大範圍內追蹤手勢。2) 我們評估了不同級別的虛擬形象非語言表達對共享虛擬環境中的交流和協作的影響。

虛擬分身的相關技術有哪些？

2.1 共享虛擬環境中的協作

不同物理位置的多個使用者之間的遠程通信和協作越來越多地發生在 SVE 中。先前關於 SVE 中溝通的研究探索了有關績效、社交互動和領導力的問題（Steed 等人，2019 年；Bailenson 等人，2002 年；Becker 和 Mark，2002 年；Slater 和 Steed 2002 年；Schroeder，2012 年））。如果所有使用者感知到的 VE 狀態不同，則 SVE 質量會影響同步多使用者虛擬體驗。支持社交互動的 VR 系統需要復制使用者的外觀和行為。虛擬角色在協作虛擬環境中傳遞的非語言線索會影響任務執行的效率（Roth 等人，2018 年），與面對面的交互相比，使用者的體現可以導致更高的社交存在等級（Smith 和內夫 2018 年）。

Pan and Steed ( Pan and Steed 2017 ) 開發了一個 SVE，通過 HTC Vive 和 Unity UNET 系統使用虛擬拼圖來探索自我化身對信任和協作的影響，該系統廣泛用於支持多使用者網絡。他們比較了自我化身、無化身和麵對面的情況，但化身只是一種視覺表現，並且只追蹤控制器的運動而不是實際手的運動。

Smith and Neff ( Smith and Neff 2018 ) 實施了一個 SVE，用於協商公寓佈局並將模型家具放置在公寓樓層，以探索具身化身的交流行為。參與者只能使用控制器驅動的有限手勢進行通信。羅斯等人。（羅斯等人，2019 年) 提出了一種使用四個數據層的軟體架構，通過將身體、眼睛注視和麵部表情等行為追蹤集成到 SVE 中來增強社交互動。他們的系統能夠支持社交交流，但參與者錯過了手勢提示。總之，之前的研究要么省略了對非語言行為的追蹤，要么依賴於控制器對某些有限手勢的追蹤。這促使我們在本研究中探索提高化身在非語言行為方面的表達水平是否會影響溝通和協作行為。

2.2 Avatar 控制系統和表示

化身是使用者的虛擬表示，由使用者在虛擬世界中的動作驅動（Bailenson 等，2004）。化身系統可以提供具體的體驗（Slater 等人，2010 年）)，並且使用者可以從第一人稱的角度通過虛擬化身的眼睛與虛擬世界進行交互。由於追蹤技術（追蹤區域和精度）有限，早期的化身控制系統無法提供完整的具身體驗，這導致交互性降低，例如虛擬身體運動、手勢和麵部表情的可能性有限或沒有。目前，不存在可以捕獲和表示所有非語言行為的單一系統。因此，要創建極具表現力的化身，需要集成多個傳感器和系統，但在技術上具有挑戰性。

身體運動是控制虛擬化身的主要數據來源。為了獲得高質量的體現體驗，專業的動作捕捉系統和套裝經常用於虛擬形象相關的研究（Kilteni et al., 2013 ; Roth et al., 2016 ; Spanlang et al., 2014）。然而，這些系統價格昂貴，運動捕捉套件佩戴起來很麻煩，儘管提供了高精度和潛在的大追蹤區域。相比之下，帶有空間控制器的 Oculus Rift 或 HTC Vive 等消費類 VR 設備是追蹤身體部位的替代解決方案。但是，如果需要追蹤更多身體部位（例如腳），則需要額外的傳感器。目前大部分 VR 系統都是基於三點追踪（一個 HMD 加兩個控制器）的解決方案，只支持“浮動”化身，例如 Facebook 空間1、VR Chat 2和 Mozilla Hubs 3。如果需要虛擬表示手臂或腿部的運動，則需要額外的追蹤器以及復雜的逆運動算法（阿里斯蒂杜等人，2017 年；Caserman 等人，2019 年）。與 HMD 和追蹤器解決方案相比，基於 RGB-D 攝像頭的身體追蹤是一種非接觸方式，可以提供有關身體運動的更多訊息。RGB-D 傳感器和 VR 設備的組合是另一種無需佩戴追蹤傳感器即可支持身體追蹤的解決方案（Kwon 等人，2017 年）。使用這些方法，使用者可以體驗對他們的化身的改進的清晰度控制。

手勢是另一個重要的數據源，它可以呈現重要的非語言訊息。普通 VR 控制器可以在按下某些按鈕時觸發特定手勢，但重新映射策略是有限的。為了彌補這些限制，基於相機的追蹤設備，例如 Leap Motion 控制器 (LMC)，可以在不使用任何控制器的情況下捕捉自然手勢。例如，吳等人。(2019a)開發了一個多傳感器系統，該系統集成了多個 Kinect 和一個 LMC 來控制化身。控制虛擬形象的其他非語言線索是眼睛注視和麵部表情。羅斯等人。(2017)使用 RGB-D 傳感器追蹤面部表情和眼睛注視，然後將數據映射到化身。在他們的工作中 ( Roth et al., 2019)，他們提出了一個系統架構，用於在多使用者環境中增強社交行為。他們的頭像框架可以呈現面部表情和身體姿勢等非語言行為，但缺乏手勢；因此，它並不完全適合需要手勢的通信和協作任務。

3 技術設置

實驗設置是在一個大房間裡實現的，房間有兩個不同的物理系統。兩個參與者，每個系統一個，可以通過本地網絡連接的非對稱化身控制同時玩遊戲。二元組中的兩個參與者都可以在他們 2 m 的圓圈內自由移動，並且追蹤的運動和手勢被映射到他們在 SVE 中的化身上。本節提供了頭像系統、網絡架構和軟體的詳細訊息。

3.1 阿凡達控制系統

在這個實驗中，我們採用了兩個具有不同表達水平的頭像系統。

3.1.1 極具表現力的頭像控制系統

使用此頭像控制系統的參與者可以通過非接觸式追蹤系統控制極具表現力的頭像表示。

3.1.1.1 身體追踪

全身運動數據由放置在追蹤區域角落的四個 Kinect v2 設備收集。該系統基於 Wu 等人的工作。( Wu et al., 2019a ; Wu et al., 2019b ) 包括身體（21 個關節，包括軀幹、手臂和腿）和手勢追蹤（19 個關節具有指向、抓握和捏合）。然而，與Wu 等人的算法相比，我們改進了頭像控制算法。(2019a) 在以下幾個方面：1) 我們根據關節位置重新計算關節旋轉，並且僅使用 Kinect 相機提供的關節旋轉訊息作為參考。2) 通過在算法中加入骨架樹和關節層次關係的訊息，減少了不自然的關節扭曲。添加父子節點關係可以限制異常關節旋轉。3）通過計算每個關節的速度和骨骼方向來平滑化身運動，使化身控制更加自然和逼真。

3.1.1.2 手部追踪

工作中使用的解決方案（Wu et al., 2019b）具有有限的追蹤範圍和區域（單個 LMC），這需要使用者將手放在眼前以避免追蹤丟失。如果使用者將手移出追蹤區域，數據將切換到 Kinect 系統，手將只被追蹤，手指不會移動。為了解決這個問題，我們構建了一個多 LMC 系統，其中五個 LMC 安裝在我們連接到 HMD 的專用安裝框架上（圖 1A）。每個 LMC 傳感器都連接到客戶端機器，將手的幀數據發送到服務器機器。使用基於最小二乘擬合（LSF）算法的共享視圖校準方法對多手數據進行處理和整合。為了避免來自單個LMC的錯誤追蹤數據干擾融合結果，我們實現了基於兩級評估方法的多LMC融合算法，即基於預測的方法和基於位置的方法。之後，我們根據評估結果使用卡爾曼濾波器組合來自多個 LMC 的數據。與單個 LMC 相比，我們的系統可以將手部追蹤範圍擴大到水平 202.16° 和垂直 164.43°。

3.1.1.3 眼口運動

虛擬形象的視線方向與頭戴式顯示器 (HMD) 的方向相同，但小幅調整使其看起來更自然。虛擬形象的視線方向每隔幾秒鐘隨機移動一次，以模擬眼球的運動。例如，使用者看向與面向方向不同的某個方向。此外，虛擬化身執行隨機眨眼（每 3 秒閃爍一次）。15 個視位（Oculus Lipsync，2019 年）作為混合形狀添加到虛擬角色中。每個視位描繪了一組特定音素的嘴形，與Wu 等人相比，這擴展了嘴巴運動渲染的可能性。(2019a )。這組嘴型由 Salsa LipSync v2（Crazy Minnow Studio，2019 年）驅動) Unity 插件，從音頻對話中實時模擬嘴唇運動。

3.1.2 有關多 LMC 系統的更多訊息

系統設置

我們的系統中使用了五個 LMC。中央 LMC 連接在 HMD 的中間，用於捕捉使用者面前的手部運動數據。HMD 四個角的橫向 LMC 提供左上、右上、左下和右下區域的補充追蹤。橫向 LMC 相對於觀察坐標系定位，其原點位於頭顯前表面的中心，_x_軸朝左，_y_軸朝上，_z_軸朝前。根據人手所能達到的最大位置（MacAtamney and Corlett 1993），四個橫向LMC的定位參數如表1所示. 這些參數確保追蹤區域足夠大以覆蓋整個手部運動範圍，同時保持重疊區域足以進行校準。我們的配置中由紅外干擾引起的誤差可以忽略不計（Placidi et al., 2017）。

＜回到列表

線上諮詢

與我們合作，馬上展開全新的創作里程碑

與創辦人交流

📅 立即預約，30 秒完成！
🎯 與創辦人 1 對 1 交流，獲得專屬建議！ 🎯 與創辦人 1 對 1 交流！