AI 看了 600 小時的電視,它能準確預測未來的事嗎?

December 22, 2021

用電視更聰明?

麻省理工學院的計算機科學和人工智能實驗室創建了一種利用的算法,該算法使人工智能 (AI) 能夠使用人類交互模式來預測接下來會發生什麼。研究人員為該程序提供了具有人類社交互動的影片,並對其進行了測試,看看它是否“學習”得足夠好,能夠預測它們。

研究人員的首選武器?600 小時的 Youtube 影片和情景喜劇,包括_《辦公室》_、《絕望的主婦》和《磨砂》。雖然這個陣容似乎有問題,但麻省理工學院博士生和項目研究員 Carl Vondrick 認為可訪問性和現實主義是標準的一部分。

“我們只是想使用 YouTube 上的隨機影片,”Vondrick 說。“電視的原因是我們很容易獲得這些數據,而且在描述日常情況方面有點現實。”

他們展示了距離執行以下四種動作之一一秒鐘的人的計算機影片:擁抱、親吻、擊掌和握手。與人類 71% 的時間相比,人工智能能夠正確猜測 43% 的時間。

潛在的未來

賦予人工智能以人類方式理解視覺的能力,可能成為可以提前呼叫救護車或警察的智能安全攝像頭的先驅。

雖然這不是影片預測的第一次嘗試,但它是迄今為止最準確的。原因是,首先,新算法與之前的影片預測嘗試不同,其中逐像素表示是優先考慮的。它使用抽象表示進行預測並關注重要標誌:它自己學習並使用“視覺表示”來區分在社交互動中重要的視覺線索和不重要的視覺線索。這對人類來說很自然,但在人工智能中要復雜得多。

華盛頓大學機器學習專家兼教授佩德羅·多明戈斯 (Pedro Domingos) 表示:“這與人們所做的其他一些事情並沒有太大的不同,但他們從中獲得的結果比以前在這一領域的人們要好得多。”

電視形成一個重要的來源 訊息 與數字化印刷品和在線的文字內容世界相比,對世界各地的人們的研究卻很少。與此同時,深度學習已經發展到今天我們有人工智能算法,不僅可以豐富地註釋文字內容,還可以註釋語音,圖像甚至影片。使用谷歌現成的雲 AI 算法“觀看”會是什麼樣子一周來自 Internet Archive 的電視新聞檔案的電視新聞?AI在觀看時“看到”了什麼新聞報? 最重要的是,這種新的非消費模式能否分析 提供強大的新工具來打擊在線錯誤訊息, 訊息化、“假新聞”和 外國影響?

網路檔案館的電視新聞檔案館一直在為過去保存廣播新聞的短暫世界十年. 今天,這個存檔的幾乎有兩百萬節目被分析,主要是通過對隱藏式字幕的關鍵字搜尋,研究人員和記者可以探索每個電台如何報導過去最重要的故事十年。

FiveThirtyEight 的Dhrumil Mehta和Oliver Roeder、華盛頓郵報的Philip Bump、Vox 的Alvin Chang等記者廣泛使用電視瀏覽器來研究電視新聞如何報導過去的主要故事的趨勢十年.

同時,深度學習已經成熟到現成的雲端 AI API 可以同時觀看電視並檢查圖像,對它們以非凡的方式描繪的物體和活動進行精確編目。

此外,這些人工智能工具不需要任何人工干預,不僅可以無限擴展,而且最重要的是,它們是非消耗性的。 隨著深度學習算法的成熟,同樣的非消費工作流程現在可以擴展到影片和圖像,使機器可以觀看數百萬甚至數十億霍拉斯的電視 並在沒有人的情況下總結關鍵的視覺和口語敘述,曾經能夠看到任何潛在的源材料。

為了更詳細地探索這一願景,我與網路檔案館的電視新聞檔案館 分析一個 穆勒報告於 4 月 18 日發布),一個是國際性的(4 月 15 日的巴黎聖母院火災)。周刊 電視新聞 覆蓋面,涵蓋 CNN、MSNBC 和 Fox News 以及 早上 以及舊金山附屬公司KGO(ABC)、KPIX(CBS)、KNTV(NBC)和KQED(PBS)於2019年4月15日至4月22日的晚間廣播,共計812 小時電視新聞。這星期 被選中是因為它有兩個主要故事,一個是全國性的(每個影片都使用谷歌的Video AI 啟用了所有功能的 API,包括逐秒識別主題和活動, 進行分析,並Vision AICloud Speech-to-Text埃塞納 更改,OCR 文字內容 認出 和對象追蹤。 埃爾影片 然後被分成每秒 1 幀的預覽縮略圖,並通過谷歌的分析 API 檢查如何處理 影片 因為靜止圖像序列會影響分析結果,同時在圖像之間產生更遠的距離 分析報和原始來源內容。雖然 Video AI API 支持自動轉錄生成,但在這種情況下,每個影片都是使用 Google 的轉錄 API,因為它支持 120 種語言,提供更簡單的 語小路為將來擴展到英語電視新聞之外。最後,電台提供的隱藏式字幕和自動生成的成績單都使用谷歌的自然語言用於清點提到的所有主要人物、地點、組織和其他主要主題的 API。總共,幾乎 2TB 的 數據 經過分析,產生了 615GB 的 機器 註釋。

這四個 API 共同代表了當前深度學習內容理解方法的四種主要模式:影片、圖像、語音和文字內容。

為什麼要使用深度學習來分析電視新聞? 也許最重要的是,因為這將使我們能夠擴大我們的努力,以打擊從文字內容領域到視覺世界的錯誤訊息、虛假訊息和外國影響,通過它我們越來越多地“看到”我們周圍的世界。 電視新聞攝影機通常是重大事件現場的第一個,提供對實時發生的事情的可信和經過驗證的記錄。量化電視新聞的雙重視覺和口語敘事使其能夠與這些事件的在線新聞和社交媒體報導相關聯。因此,一條宣布巴黎圣母院著火的推文可以連結到來自主要電視網絡的確認事件的現場鏡頭。反過來,火災的電視報導可以與來自世界各地的在線報導聯繫起來,提供關於大教堂對每個國家人民的意義的全球視角,以及與大教堂歷史的歷史和其他背景的聯繫。

以一秒為間隔將 Google Vision AI API 應用到每個影片,允許其“ Web 實體”功能執行與 Google 圖片反向搜尋等效的操作,以識別來自開放網絡中與給定電視鏡頭在視覺上最相似的圖像。反過來,Vision AI API 會編譯那些類似 Web 圖像的標題中的熱門主題,本質上是“眾包”開放的 Web 以估計螢幕上隨時顯示的主題。 因此,雖然谷歌的 Vision AI API 不執行任何類型的面部識別,但它可以將羅伯特穆勒的鏡頭標記為他自己、唐納德特朗普、白宮、俄羅斯和相關主題,只需注意網絡上看起來相似的圖像是最經常用這些主題做標題。

反過來,這種視覺相似性匹配甚至可以用來幫助識別針對媒體的“深度偽造”。一個聲稱是主要電視網絡上的突發新聞公告的剪輯的推文可以立即與實際電台的鏡頭進行比較,以確認有問題的剪輯從未真正播出過,而是一個騙局。

展望未來,想像一個全球 財團 不同的公共利益相關者共同努力探索如何 技術比如深度學習可以以創造性和創新的方式用於打擊數字虛假訊息的傳播。圍繞一個中央“虛擬閱覽室,” 研究人員可以應用非消耗 分析 研究和探索全球傳播的虛假訊息,從識別“深度造假”和偽造記錄虛假訊息如何通過媒介和方式傳播到新的貸款方法文檔語境進行複雜的辯論。這樣的合作將提供一個強大的非消耗性測試平台,以探索記錄、理解和打擊錯誤訊息的下一代方法,虛假訊息 和 外國影響. 快速啟動這個對話, 一個 初始數據集 被今天發布的所有機器生成的標註註釋 由 Google 的現成影片 AI、視覺 AI 和自然語言 API 在他們觀看時生成 星期來自 Internet Archive 的電視新聞檔案的電視新聞。雖然底層影片、字幕和抄本本身不可用,但這些可下載的機器,共 615GB,提供強大的測試平台 誤傳 有興趣了解深度學習如何為影片世界提供全新視角的研究人員,AI電視台的未來也就不遠了。

綜上所述,深度學習已經成熟到可以讓 AI 以完全非消費的方式觀看電視新聞並對其所看到的內容進行編目,而無需任何人工干預。反過來,這些註釋可用於將電視新聞連接到相關的在線新聞和社交媒體,啟用多模式方法來理解和對抗誤傳。最重要的是,非消費分析弗洛霍-德特拉巴霍,此處介紹打開門到一個全球合作機構,將來自世界各地的利益相關者聚集在一起,探索創新的非消費性方法來記錄、理解並最終打擊錯誤訊息, 訊息化 和 外來影響. 最終,今天的人工智能看電視將成為明天的人工智能,打擊數字虛假世界,提高可靠訊息的重要性。

< 回到列表