什麼是 AI Dubbling 人工智慧配音

August 25, 2024

兩全其美:人工智慧配音與真正的語音人才

影像]

Dubformer 的實驗室開發了一種用於情感視訊配音的開創性內部解決方案,同時為不斷變化的人工智慧領域創造新的就業機會。當真人演員參與製作時,人工智慧配音會受到真實情感的誘導,聽起來非常自然。

Dubformer 的人工智慧技術捕捉角色的真實情感和魅力,將導演創意變為現實,並確保無縫內容吸引觀眾。

此外,該團隊還整合了混音和對口型等先進技術,以及人類專家嚴格的雙重品質控制。這個複雜的過程確保結果符合全球觀眾的高標準要求。

人工智慧驅動的配音流程高效且可擴展,與傳統替代方案相比,成本降低高達 60%,週轉速度加快 70%。另一個優點是內容量不受限制,這使得業務合作夥伴可以快速擴展在地化規模。與僅在技術配音方面表現出良好效果的早期解決方案不同,Dubformer 的混合方法在所有需要情感和微妙音調的娛樂形式中都表現出色:電視劇、戲劇、動畫電影等。

無論是針對電視、YouTube 還是 FAST 發布,內容製作商和發行商已經將 AI 配音整合到他們的工作流程中。

用 YFE 營運長 Bernd Vendeln 的話說:「Dubformer 團隊的工作非常出色,成功地用 AI 捕捉了節目特有的幽默和基調。這是一項偉大的成就,我們對結果感到非常滿意。

在 6 月下訂單可享特價,每分鐘 15 美元起,具體價格根據語言對而有所不同。

影像]

2023 年 11 月 29 日,SlatorCon Remote 與會者聆聽了 BBC 工作室本地化營運經理 Vanessa Lecomte 的演講。 Lecomte 負責 40 多種語言的高端媒體娛樂內容,並分享了她對人工智慧字幕和配音創新的局限性的見解,而 BBC 尚未部署,僅在評估。

Lecomte 首先向與會者介紹了 BBC 工作室的背景信息,將其描述為“英國最受讚譽的製作公司、英國最大的英國內容發行商以及世界上閱讀最廣泛的英語新聞網站的所在地。”她的部門為 BBC 品牌頻道和串流媒體以及本地客戶等提供在地化內容。

當 Lecomte 反思她的團隊在地化的內容量從未如此之高時,她強調需要認識到人工智慧的風險和潛力,以提高其有效性和效率。她還解釋說,她的重點是了解長篇媒體在地化的可用方法,並嘗試不同的解決方案以了解哪些方法有效。

這位本地化高管表示,“BBC 是一個與品質相關的品牌,我們的觀眾非常關心”,並描述了人工智慧在本地化方面的優勢(包括合成語音)必須至少符合 BBC 的品質標準。她繼續說,主要問題是人工智慧是否可以改善當前流程、加快上市速度並降低成本。

為了了解人工智慧可以在哪些方面發揮其潛力,進行了多項測試,其中一項測試包括使用文字轉語音技術從英語音訊生成英語字幕。這項特殊測試是針對 BBC 的五個自然歷史節目進行的,要求使用自動語音識別 (ASR) 技術的精選提供者提供英文字幕。

Slator 專業指南:為買家和 LSP 提供的字幕和字幕專業指南,介紹如何利用影片內容的字幕和字幕來增加收視率和提高參與度。具有 10 x 1 頁用例。 $290 立即購買包含在我們的專業版和企業版計劃中。

一項測試是在幾分鐘內即可獲得完全自動化的輸出,另一項測試是由專家花費幾天時間進行後期編輯的版本。然後對字幕進行了審查,全自動字幕不符合品質標準。還存在格式和佈局問題,包括無法閱讀和錯誤分解的標題。

最後,ASR 和人工幹預測試驗證了後者以及 Lecomte 所說的「設定過程中的適當指導」。該模型可以更快地以更低的成本產生高品質的字幕。

關於人工智慧和配音

在談到配音中的人工智慧時,勒孔特將配音描述為“一個耗時且昂貴的過程,涉及許多技術和創意人才。”她表示,她的部門正在探索人工智慧配音技術的能力,以嘗試更快地提供更多內容,同時仍然滿足品質標準,並補充說,這應該在人才權利方面負責任地採取行動。

BBC 工作室對合成聲音進行實驗的一個例子是使用來自不同公司的人工智慧生成的聲音進行的德語配音測試,並將其與現有的人類配音錄音進行比較。勒孔特解釋說,合成聲音具有更廣泛的人類表情,並且與影像非常吻合,但每一步仍然需要人工幹預。與會者聽到了這些樣本,並被要求選擇一個聽起來像人類的樣本。大多數人選擇了其中一種合成聲音。

對於 Lecomte 來說,這些測試幫助該部門認識到,了解技術和流程是在目前提供的眾多解決方案中找到最佳解決方案的關鍵。在她看來,需要進行許多測試來確定哪些有效、哪些無效,隨著技術的不斷快速發展,利害關係人必須不斷學習和適應,並補充說「今天不起作用的東西明天可能會起作用。 」

勒孔特建議與會者「平衡機會與風險。這些技術提供了加快流程的潛力,使您能夠在地化更多內容、開拓新市場,但不應損害品質或損害受人尊敬的行業。因此,做正確的事並致力於深思熟慮的本地化策略。

對於那些錯過了 2023 年 11 月 SlatorCon Remote 即時會議的人,將在適當的時候透過 Slator 的 Pro 和 Enterprise 計劃提供錄音。

影像]

Deepdub 正在利用人工智慧降低提供真實、高品質語言配音所需的成本和時間,從而降低本地化內容的准入門檻,從而使節目能夠傳播到新的受眾和市場。

自四年前推出以來,Deepdub 在第一季出現了顯著增長,自2023 年第一季以來,其作品數量增加了一倍多(同比增長120%)。配音了數千小時,但沒有給出具體數字。

他告訴 StreamTV Insider,「每個月的工作時間已經達到了一定範圍……規模相當驚人」。 Krakowski 表示,主要的傳統配音工作室每月可為多種語言配音數百小時甚至更多,從容量上看,他將 Deepdub 比作中型傳統配音工作室。他預計到 2024 年底或 2025 年初,容量將與大型配音工作室相當。

在宣布成長時,該公司提到了行業需求的飆升,以及在長片和優質內容的配音經驗基礎上擴展到免費廣告支援的串流電視 (FAST) 頻道、新語言和真人秀內容等領域。

「我們第一季內容的增加顯示全球媒體和娛樂產業的需求快速成長。 Deepdub 執行長 Ofir Krakowski 在一份聲明中表示:“為了提高效率、創新和觀眾成長,製作人現在正在轉向所有內容類型的先進高端、優質人工智慧配音。” “同時,透過我們最近與主要技術和媒體服務提供商的戰略合作夥伴關係,我們在全球範圍內顯著增強了我們的人工智慧配音和畫外音解決方案。”

Deepdub 支援 130 種語言和方言,已經與 Hulu、FilmRise 等合作。它也是亞馬遜 AWS 的在地化合作夥伴,並於今年 4 月在拉斯維加斯 NAB 期間在這家科技巨頭的展位上展示了演示。

好的配音有什麼?

當談到高品質配音的要素時,奧茲·克拉科斯基承認這是一種非常主觀的做法,其中一些與正在觀看的內容類型和觀眾的期望有關。

但對於一般的配音,DeepDub 的觀點是,配音的關鍵在於配音「將原始體驗反映到目標語言中」的程度以及沉浸感如何。該公司的專業知識部分在於提供和調整配音的能力,這些配音始終反映目標語言的地區細微差別(例如習語和口音),同時保留原始故事講述的真實性。

並且在人工智慧的幫助下仍然可以快速、有效、大規模地完成任務。

根據 Krakowski 的說法,當談到人工智慧配音時,相同的參數仍然適用,但問題是如何保持真實性。他說,科技已經進步到消費者無法在聽起來自然方面區分人工智慧語音和真實語音的區別。但當翻譯不正確或配音的情感語氣等方面與螢幕上的動作或故事情節不匹配時,事情就會變得危險,破壞內容的沉浸感並影響觀眾享受他們正在觀看的內容的能力。正是這些細微差別和情感面,Deepdub 也重視各種語言的技能和支援。

最初從語音轉語音配音開始,大約一年半前,它推出了 eTTS(基於情感的文本轉語音)技術,該技術可以從文本中大規模創建人聲,並支持一系列26種情緒。這也用於無腳本的配音(配音與完整配音不同,後者涉及更多,並且具有自己的各種級別,但通常涉及口型同步等功能)。

Krakowski 認為,人工智慧配音的兩個主要動機是降低成本和時間——客戶會問“我們能否實現更快、更便宜的目標?”

這點在與 FilmRise 合作開發的《法證檔案》真實犯罪系列 IP 中得到了體現。該公司利用 Deepdub 在不到五週的時間內將 100 集劇集從英語配成了意大利語。該計畫的案例研究表明,該公司的周轉時間縮短了 75%,成本降低了 72%。

Krakowski 表示,其專有的配音技術和使用人工智慧的產品集都是為了「實現否則不可能實現的在地化版本」。

使用人工智慧意味著它可以在緊迫的時間內以多種語言大規模提供配音(他引用了一位未透露姓名的客戶需要三週的周轉時間),否則這是不可能的,或者需要「數十甚至數百人才能完成”相同水平的內容,否則將花費大量時間。”

FAST的崛起

有助於推動 Deepdub 成長的是向新的內容類型和語言的擴張,收入負責人將其大部分成長歸因於 FAST。

2022 年,Deepdub 的類型細分主要集中在劇本劇上,佔其配音組合的 94%。 2024 年第一季度,這一比例顯著增長,紀錄片佔 34%,電視劇佔 8%,電子學習佔 6.3%。動畫(佔投資組合的 6.5%)、遊戲節目和新聞(3.5%)等類型也取得了顯著成長。 2024 年 4 月和 5 月,真人秀節目受到關注,在過去兩個月中成長到投資組合的近 12%。

Krakowski 指出,內容所有者可以擁有 20 季的優質節目,這些節目已經在他們的圖書館中保存了十多年,但當新的本地語言障礙被消除時,這些節目可以透過 FAST 恢復並貨幣化。

他說,FAST 領域的進入門檻很低,因為內容所有者不需要對基礎設施進行大規模投資。 FAST 通路也代表了一種試水新語言和市場的方式。

他表示,在美國,他們的客戶擁有數千小時的內容和現有的 FAST 頻道,但為了讓內容所有者成長,他們需要擴展到來源或英語之外。

在將英語內容配製成其他語言的同時,該公司還將外語內容引入美國市場(Deepdub 最初的增長來自將其他語言配製成英語,儘管現在它可以翻譯多種語言)——Krakowski 指出,迄今為止最大的FAST。

他指出:“我們看到美國以外的廣播公司和內容所有者有興趣在美國市場、美國 FAST 頻道中分一杯羹。”

各種語言的配音“也是人工智能降低進入門檻的事情之一……我可以更輕鬆地獲取內容並在區域之間傳輸或移動它。”

Deepdub 的人工智慧技術意味著它不需要擔心原始語言或需要配音多少聲音——這在歷史上一直是使用傳統方法的關鍵因素。

Deepdub 也看到了拉丁西班牙語市場的興趣——不一定只意味著拉丁美洲,而是為全球西班牙語國家配音,包括美國和其他地方。他表示,從那時起,FAST 將進入歐洲的早期階段,其中包括作為新興市場的德國。

SaaS 服務、配音藝術家

Deepdub 最初是一項白手套託管服務,它將處理配音從開始到結束的各個方面。但大約一年後,它推出了 DeepDub Go,這是一個軟體即服務平台,可在與 AI 元素協作的 DIY 設定中提供對 AI 工具的存取。

克拉科夫斯基表示,多家配音工作室客戶已經註冊了該工具,例如專門為短片內容創作者配音的代理商 Babelto。

SaaS 代表了 Deepdub 的新興模式,而託管服務仍佔其業務的大部分,Krakowski 表示目前的比例為 80-20。他預計這一組合將保持不變,因為預計 SaaS 和託管服務將同步成長。

其產品路線圖上最近還推出了語音到語音克隆技術以及口音控制工具,該工具可以立即添加、更改或刪除 130 多種語言的語音中細微的口音。

去年,SAG-AFTRA 代表的好萊塢演員在敲定新合約之前在美國舉行罷工,在電視和電影中使用人工智慧是談判的一個重點。當被問及對人工智慧配音和人才的影響時,克拉科斯基承認了合理的擔憂,並表示該公司以多種方式「積極參與這一過程」。

他說 Deepdub 希望確保一切都在合法、道德的情況下進行,並確保適當的隱私。為此,它努力建立基礎設施,包括文件和自己的聲音庫,以及專業配音藝術家或演員,他們是 Deepdub 在罷工後啟動的配音藝術家版稅計劃的一部分。客戶可以選擇在內容中使用原始聲音、從合成聲音庫中進行選擇或使用透過 Deepdub 計劃獲得補償的專業聲音藝術家。

展望未來,該公司專注於擴展和最前沿的技術,例如其口音控制產品,Krakowski 表示,該產品擴展了「能夠將內容帶到以前無法到達的地方的最初願景」。

影像]

與 ElevenLabs 合作,透過 AI 配音/與 RONZHEIMER 一起發布來增強音訊內容的覆蓋範圍和可訪問性。和拜仁內部人士

從現在起,由於 BILD 和 ElevenLabs 之間的新合作,精選的 BILD 播客也將提供英語版本。 ElevenLabs 專注於開發 AI 音訊模型,以 29 種語言創建逼真且情感細膩的語音。他們的人工智慧配音工具可以在任何這些語言之間翻譯音頻,同時保持原始說話者的聲音和風格。此次合作使 BILD 能夠使用 ElevenLabs 的 AI 和 Axel Springer 內部開發的音訊 AI aravoices 來擴展其主要的德語音訊產品,以涵蓋更多語言。

與 RONZHEIMER 一起推出。和拜仁內部人士

使用 ElevenLabs 為 BILD 產生的第一批英語節目包括成功的播客系列 RONZHEIMER 的當前劇集。和 FC BAYERN INSIDER,國際觀眾特別感興趣。使用合成聲音的劇集被透明地標記為人工智慧生成,並出現在播客入口網站上專用於該格式的單獨播放清單中,例如 BILD.de、亞馬遜音樂、Apple 播客、Spotify 以及所有提供播客的地方。

BILD 集團執行長 Claudius Senst:「在 Axel Springer,我們正在積極探索利用人工智慧加強新聞業和擴大數位影響力的可能性和機會。例如,2023 年底,我們在 BILD 推出了 Hey_,這是一款人工智慧助手,自那時以來已經回答了超過 4500 萬個問題。透過與 ElevenLabs 的合作,我們現在想要測試 BILD 如何製作具有個性化聲音的合適音頻內容,對英語受眾更具吸引力。

“我們很高興與德國最大的媒體品牌 BILD 合作”,ElevenLabs 聯合創始人 Mati Staniszewski 說道。 「BILD 播客現在可以覆蓋全球更多人,消除語言障礙並提高可訪問性。由於我們的人工智慧在翻譯中保留了原始聲音和風格,全世界的觀眾現在都可以體驗像 Paul Ronzheimer 那樣用自己的語言、以其創作者的真實風格呈現的播客。

Axel Springer 的音訊 AI aravoices 每月為 BILD 和 WELT 產生超過 200 萬個音訊串流

從 2020 年開始,BILD 和 WELT 已經擁有 Axel Springer 專有的音訊 AI 語音創建的特定合成品牌聲音。在這些品牌聲音和完全自動化的分發流程的幫助下,aravoices 每月為這兩個品牌生成並發布超過 200 萬個音訊串流。 aravoices 提供的服務不僅可以透過音訊廣告提高音訊使用率並增加貨幣化,還可以無障礙地存取新聞內容。目前,僅 BILD 每年就發布多達 40,000 篇音訊文章,這些文章用於多種格式,例如 BILD.de 上的朗讀功能、Spotify 和 Apple Podcast 上的播放清單以及 Alexa News Update。

Axel Springer 產品與工程總監 Anne Küpper:「透過 aravoices,我們在 Axel Springer 的早期階段開發了自己令人印象深刻的人工智慧技術,我們用該技術將 BILD 和 WELT 的新聞文章即時設定為音訊並成功分發。許多積極的用戶評論表明了音訊串流在我們聽眾中的受歡迎程度和成功。透過與 ElevenLabs 的合作,我們現在可以透過具體、逼真的作者聲音來擴展我們的品牌聲音。

影像]

想像世界上最迷人的 TED 演講觸手可及,用自己的語言進行演講。

在 TED,我們相信想法是普遍的,並且每個人都應該能夠理解它們。然而,語言障礙常常阻礙我們的演講,其中許多演講都是用英語進行的。為了正面解決這個問題,我們在 TED 字幕專案成功的基礎上,透過結合人類和人工智慧,擴大了我們的多語言計畫。這種方法旨在增強包容性並豐富 TED 全球多元化受眾的體驗。

啟動 TED 試點計劃

透過整合生成人工智慧(包括語音克隆和口型同步功能),我們與Panjaya.ai 和TED 的全球翻譯社群合作,創建了第一個適應人工智慧的TED 演講,以多種語言進行,同時保留了每位演講者獨特的聲音和內容。與傳統的配音方法不同,TED 的人工智慧改編優先考慮無縫的觀看體驗。這標誌著多語言內容交付的新時代。

說話者的聲音適應多種語言

這項措施的一個關鍵方面是優先考慮不同發言者聲音的個性。為了實現這一目標,我們與每位演講者密切合作,徵得他們的同意,並確保他們的訊息以多種語言忠實傳達,讓他們的演講引起全世界觀眾的共鳴。該試點計畫以巴西葡萄牙語、法語、德語、義大利語和西班牙語啟動,並計劃很快擴展到更多語言。

環保意識

考慮到對環境的影響,我們優先考慮永續發展,同時最大限度地減少生態足跡。與即時人工智慧產品不同,我們的方法著重於一次性人工智慧適應,減少對環境的影響,同時提供創新的解決方案。

與我們一起體驗解鎖跨語言和跨文化知識的新方式。觀看世界上第一個人工智慧適應的多語言 TED 演講,並與世界各地的朋友分享!


< 回到列表