什麼是虛擬主播? 使用什麼技術合成？

July 19, 2021

內容目錄

什麼是虛擬主播？

AI虛擬主播——由中國科技公司搜狗和新華社聯合出品的全球首個虛擬真人主持人，將以更加生動的面部表情和手勢進行量產，為國內外媒體和觀眾提供實時直播。

在 11 月在浙江省烏鎮舉行的第五屆世界網路大會上首次亮相七個月後，機器人化身已經於 5 月在阿拉伯聯合酋長國的阿布扎比媒體和 6 月初的俄羅斯新聞機構 ITAR-Tass 找到了新工作。

就像他們在新華社的同行一樣，他們可以根據文字內容輸入以真人主持人的形象播放新聞。適當的嘴巴動作、發音和語調以及自然的面部表情使他們幾乎與真人無法區分。搜狗語音交互技術中心總經理王延峰表示，唯一的區別是他們說的是阿拉伯語或俄語，而不是中文。

他說，阿布扎比媒體的新“員工”將準備在 2019 年底前報導新聞，並在 2020 年報導迪拜世博會。

阿聯酋人工智能國務部長 Omar bin Sultan Al Olama 表示，人工智能的應用將為當地媒體行業帶來重大變化，並服務於建設知識型社會和經濟的國家戰略。

6 月 6 日至 8 日，新華社、ITAR-Tass 和搜狗在第 23 屆聖彼得堡國際經濟論壇上發布了世界上第一個講俄語的 AI 新聞主播。

據中國報紙 Cankaxiaoxi 報導，ITARTass 的國際關係專家 Elizaveta Zelenskaya 的圖像和聲音被用來創建 AI 主播，她說她閱讀新聞和拍攝影片時具有多種情緒 - 例如喜悅和悲傷。

虛擬主播使用什麼技術合成？

AI虛擬主播可以利用智能綜合模擬，同步提取真人主播的語音、表情等特徵。AI主播訓練難度極大，涉及深度學習、機器翻譯、多語言語音合成等多項核心技術。需要讓虛擬主播在聲音、情感、肢體動作等方面都像人一樣。因此，像使用人工智能技術分析文字內容和情感一樣，需要多維度考慮。

學術界和私營部門的研究人員致力於開發可以創建虛擬錨的技術。由於大數據分析驅動的面部識別、唇讀和機器學習等人工智能技術的發展，這類研究近年來發展迅速。在開發虛擬主播技術時，人工智能研究人員團隊分析了來自直播主播廣播的音頻和影片數據，使他們能夠開發一個模型，然後可以生成一個廣播文字內容輸入的逼真虛擬主播。

該技術有可能在各種不同的場景中實現人與機器之間更自然的交互。除了生成娛樂內容外，人工智能生成的角色還可以通過交互式語音操作系統啟用，並用於在教育、醫療和法律領域提供個性化內容。

虛擬主技術專注於自然語言處理和機器學習，在語音識別、圖像識別和直觀問答方面擁有行業領先的能力。其技術之語音識別技術準確率超過97%，圖像識別技術準確率達到96%。此外，在備受矚目的 2017 WMT 漢英機器翻譯比賽中獲得第一名，同樣在中文短文字內容對話比賽中獲得第一名，該比賽評估機器生成人類的能力。比如對文字內容查詢的響應。

＜回到列表

線上諮詢

與我們合作，馬上展開全新的創作里程碑

與創辦人交流

📅 立即預約，30 秒完成！
🎯 與創辦人 1 對 1 交流，獲得專屬建議！ 🎯 與創辦人 1 對 1 交流！