什麼是虛擬主播? 使用什麼技術合成?

July 19, 2021

什麼是虛擬主播?

AI虛擬主播——由中國科技公司搜狗和新華社聯合出品的全球首個虛擬真人主持人,將以更加生動的面部表情和手勢進行量產,為國內外媒體和觀眾提供實時直播。

在 11 月在浙江省烏鎮舉行的第五屆世界網路大會上首次亮相七個月後,機器人化身已經於 5 月在阿拉伯聯合酋長國的阿布扎比​​媒體和 6 月初的俄羅斯新聞機構 ITAR-Tass 找到了新工作。

就像他們在新華社的同行一樣,他們可以根據文字內容輸入以真人主持人的形象播放新聞。適當的嘴巴動作、發音和語調以及自然的面部表情使他們幾乎與真人無法區分。搜狗語音交互技術中心總經理王延峰表示,唯一的區別是他們說的是阿拉伯語或俄語,而不是中文。

他說,阿布扎比媒體的新“員工”將準備在 2019 年底前報導新聞,並在 2020 年報導迪拜世博會。

阿聯酋人工智能國務部長 Omar bin Sultan Al Olama 表示,人工智能的應用將為當地媒體行業帶來重大變化,並服務於建設知識型社會和經濟的國家戰略。

6 月 6 日至 8 日,新華社、ITAR-Tass 和搜狗在第 23 屆聖彼得堡國際經濟論壇上發布了世界上第一個講俄語的 AI 新聞主播。

據中國報紙 Cankaxiaoxi 報導,ITARTass 的國際關係專家 Elizaveta Zelenskaya 的圖像和聲音被用來創建 AI 主播,她說她閱讀新聞和拍攝影片時具有多種情緒 - 例如喜悅和悲傷。

虛擬主播使用什麼技術合成?

AI虛擬主播可以利用智能綜合模擬,同步提取真人主播的語音、表情等特徵。AI主播訓練難度極大,涉及深度學習、機器翻譯、多語言語音合成等多項核心技術。需要讓虛擬主播在聲音、情感、肢體動作等方面都像人一樣。因此,像使用人工智能技術分析文字內容和情感一樣,需要多維度考慮。

學術界和私營部門的研究人員致力於開發可以創建虛擬錨的技術。由於大數據分析驅動的面部識別、唇讀和機器學習等人工智能技術的發展,這類研究近年來發展迅速。在開發虛擬主播技術時,人工智能研究人員團隊分析了來自直播主播廣播的音頻和影片數據,使他們能夠開發一個模型,然後可以生成一個廣播文字內容輸入的逼真虛擬主播。

該技術有可能在各種不同的場景中實現人與機器之間更自然的交互。除了生成娛樂內容外,人工智能生成的角色還可以通過交互式語音操作系統啟用,並用於在教育、醫療和法律領域提供個性化內容。

虛擬主技術專注於自然語言處理和機器學習,在語音識別、圖像識別和直觀問答方面擁有行業領先的能力。其技術之語音識別技術準確率超過97%,圖像識別技術準確率達到96%。此外,在備受矚目的 2017 WMT 漢英機器翻譯比賽中獲得第一名,同樣在中文短文字內容對話比賽中獲得第一名,該比賽評估機器生成人類的能力。比如對文字內容查詢的響應。

< 回到列表