封面傳媒的主流媒體算法研究與實踐

July 16, 2021

智媒體時代的價值觀構建

——深入主流媒體算法的研究與實踐

摘要: 技術賦能在傳統媒體融合轉型的過程中起到越來越大的作用,將人工智能算法應用在媒體生產傳播的各個環節。 但是以內容個性化推薦為代表的算法技術在為使用者提供精準化、智能化服務的同時,也帶來了安全風險因素增高、不良訊息氾濫風險增加以及傳統權利保護難度加大等風險和問題。 如何解決人工智能算法技術在賦能同時所帶來的問題,封面新聞早在2015年就自建團隊投入對AI算法在媒體應用的研究,經過近5年時間與實際業務的磨合,也逐漸摸索出一套適合主流媒體應用的算法模型。 同時發布智媒雲3.0,基於封面智媒體轉型經驗打造了主流媒體算法平台,賦能更多傳統媒體轉型。

關鍵詞: 主流媒體算法;人工智能;推薦算法;智媒雲;封面新聞

本文著錄格式: 徐楨虎,張華,余欣.智媒體時代的價值觀構建——深入主流媒體算法的研究與實踐[J].中國傳媒科技,2020(12):13-17.

作者簡介: 徐楨虎(1986-),四川達州,四川日報報業集團特聘首席工程師兼封面傳媒首席數據官;張華(1973-),男,重慶,封面傳媒副總經理、技委會主任;餘欣(1977-),男,四川,封面傳媒首席安全官。

展开全文

作者單位: 四川封面傳媒有限責任公司

NO.1

智能媒體的發展痛點

近年來,技術賦能在新聞領域的土壤裡蓬勃生長,已經逐漸形成了當前人工智能應用的一個重要分支。 在移動網路、大數據、人工智能等新技術的驅動下,再加上硬件設備如智能手機普及、軟體環境如移動網路崛起、技術發展如算力提升和算法進化,數據資源如社會化大數據進程,交互場景變革如虛擬現實人機對話的廣泛應用, 這些因素為傳統媒體融合轉型的快速發展提供了環境鋪墊。

人工智能並不是一個新概念,但是技術應用尚處於初級階段,即“弱人工智能時代”。 目前在發展成熟的新聞領域,對於人工智能技術的應用側重點聚焦在提升效率上。 在新聞的“策採編審發”這五大內容生產環節中對重複性較高的人力勞動的替代。 較為常用的人工智能應用包括:通過全網監控熱點來篩選新聞選題,利用抓取技術獲取及時的全網訊息,進行各種類型的快訊機器寫稿,算法實現自動審核校對,借助個性化推薦實現內容精準分發等。 但是以內容個性化推薦為代表的人工智能算法技術在為使用者提供精準化、智能化服務的同時,也帶來了安全風險因素增高、不良訊息氾濫風險增加以及傳統權利保護難度加大等風險和問題。 如何解決人工智能算法技術在賦能同時所帶來的問題,尤其是在技術實力還不夠強大,處於轉型期的傳統媒體來說,成了擺在媒體行業的一個大問題。

NO.2

主流媒體算法的研究與應用

2.1 應用基本情況

封面新聞早在2015 年就投入對人工智能技術在媒體應用研究,經過近5 年時間與實際業務的磨合,逐漸摸索出一套適合主流媒體應用的算法模型。 封面推出的主流媒體算法包括內容質量、內容分發、內容傳播、內容生產四大類算法模型,已經實際應用在封面的各個業務場景中穩定運行。 對於每個算法模型的具體研究與應用,我們從各方向做出了詳細解答。

2.2 內容分發算法

內容分發算法以App 應用為主要載體,包括推薦算法、相關新聞算法、搜尋算法等。 其中推薦算法一直處於輿論的討論熱點中。 《人民日報》曾連續三天撰文從內容生產、訊息分發和社會創新等角度對某算法型訊息分發平台進行了全方位立體式的批判。 [1] 在目前主流的推薦算法中,使用者的內容閱讀習慣成為內容推薦的主要指標。 個性化內容推送讓使用者過濾掉自己不感興趣的訊息內容,沉迷於最初想看的訊息內容中,實現“看我想看,聽我想听”的體驗。 這無形間強化了使用者的偏好,影響了使用者對於訊息內容的自主選擇,導致使用者對於訊息內容接觸面越來越狹隘、單一和固化,形成“訊息繭房”效應。 [2]

因此,推薦算法的改革勢在必行,各訊息平台應該履行其責任意識,國家網信辦也多次發文要對網絡訊息環境進行專項整治。 2019 年12 月20 日,國家網路訊息辦公室發布了第5 號令《網絡訊息內容生態治理規定》[3],其中針對當前網絡訊息內容服務平台採用個性化算法推薦技術推送訊息所帶來的問題,給出了一套全新的解決方案。 即將算法推薦模型+ 人工干預+ 使用者自主選擇三者進行有機結合,旨在構建一個具備整體性、群體性以及個體性的網絡訊息內容生態,實現訊息內容的高度和寬度。

隨之而來的問題是,傳統媒體通常並不具有高水平的技術團隊進行算法研發,而網路資訊平台又不具有傳統媒體那麼強的訊息安全敏銳性和內容生產專業性,因此適合於主流媒體的推薦算法並沒有在很大程度上達成共識。 封面現在應用的主流媒體推薦算法,經過了多個版本的迭代,在封面新聞App6.0 上線的最新版本。 其推薦策略與《網絡訊息內容生態治理規定》的要求是高度一致的,即將算法推薦模型+ 人工干預+ 使用者自主選擇三者有機結合生成實時推薦流,確保內容的範圍、尺度可控,同時更加突出正能量訊息和主流價值觀。

2.2.1 健全人工干預機制

保證訊息內容的多樣化,在推薦訊息流中增加內容綠區和電子圍欄,增加媒體原創稿件和重大事件的曝光權重,限制低質量UGC 內容進入推薦頻道,保證主流價值引導,同時也能夠彌補算法無法判斷訊息內容所體現的價值傾向的弊端。 人工干預機制的健全,對於算法偏見和主流媒體自身內容生產的優化也能起到重要作用。 同時業務部門通過對推薦頻道各類型新聞的發稿量、曝光率、閱讀轉換率等指標進行數據分析、針對性的內容補充和算法策略優化,以達到使用者獲取訊息多樣性的目的。

2.2.2 建立使用者自主選擇機制

強化使用者的自我決定和主觀能動性,防止人類成為算法的奴隸。 傳統的推薦算法僅僅是在使用者第一次使用App 時,採用冷啟動的方式讓使用者進行興趣選擇。 依托封面的使用者分析模型,使用者不僅能實時看到個人的興趣標籤畫像,同時還能以可交互的方式自主選擇內容興趣及其權重,選擇結果會通過系統分析計算並實時生效。 想要實現使用者自主選擇機制,前提是要構建一個完善的使用者標籤系統和數據倉庫,以支撐對於使用者個性化的服務應用。

2.2.3 優化個性化算法推薦機制

個性化的算法推薦,依然是推薦系統中不可缺少的一部分。 封面的推薦算法由使用者興趣分析、使用者場景分析、新聞內容分析、行為實時計算、新聞推薦召回五大模塊構成,採用算法包括:基於使用者興趣標籤的tag算法,基於協同過濾的CF算法、以及基於NLP的召回算法等。 個性化推薦的流程主要包含三層邏輯,第一層是內容召回,主要看重新聞內容特徵的應用和搜尋排序,對於文字內容、影片的標籤編目是核心; 第二層是興趣召回,主要根據第一層的排序結果,再與使用者的行為特徵訊息進行匹配,第三層主要是敏感訊息的過濾,包括黑白名單以及文章分類的權重的判定,通過內容質量算法模型提供支撐。

對於內容分發來說,推薦算法是核心,而相關新聞算法和搜尋算法中不僅應用到推薦的部分算法策略和具體技術,也應用了內容質量、內容傳播的一些基礎算法,在後面會詳細講到。

2.3 內容質量算法

內容質量算法以智能化內容生產系統“封巢”為主要載體,包括熱點聚合算法、內容審核算法、新聞標籤算法、價值判斷算法等。

熱點聚合算法通過對全網數據的抓取和分析,進行實時熱點的判斷。 我們已經建立了全網抓取平台,通過實時監測匯聚網站、微信、微博、論壇社區等各大媒體平台內容大數據,現已經支持超過1000 個國內主流媒體的圖文、影片源採集。 可作為輿情訊息匯集、區域資訊同步、記者編輯素材,支持二次編輯或自動發布,同時支持將採集資源進行敏感詞、重複度等策略過濾。 結合實時採集的多平台熱榜熱點進行分析,為編輯提供熱點選題參考。

2.4 內容傳播算法

內容傳播算法主要包括媒體區塊鏈算法、使用者分析算法、輿情分析算法等,這部分的算法通常都不是獨立的算法模型,而是由多個基礎算法整合應用到具體的業務場景中。

比如媒體區塊鏈算法是由智能合約算法、共識算法、哈希算法、公鑰密碼算法等基礎算法組成,目前應用在封面傳媒自主研發的區塊鏈數字內容版權存證系統裡。 每一篇記者創作的原創稿件,發布即“上鍊”,並生成獨一無二的存證證書,可以在封面新聞App 的新聞詳情頁看到實時上鍊訊息。 在當前媒體行業中,數據的共享交換往往是個難題,直接開放自己的數據庫會帶來安全隱患,開放接口服務又需要自己去維護繁瑣的權限關係,目前主流的爬蟲方式又面臨穩定、法律限制等諸多因素的影響。 在基於區塊鏈數字內容版權存證系統的聯盟鏈中,聯盟各成員只需要經過授權就可實時獲取其他節點的數據。 極大地降低了數據共享成本和復雜性。 [4]

使用者分析算法主要應用於使用者閱讀行為研究,應用到的算法包括相關分析、對應分析、聚類分析、因子分析等。 我們建立了智能分析雲系統,通過對使用者分類分層、事件漏斗、閱讀偏好、使用者行為路徑等各個維度提供日常數據分析能力和自動生成報表。 利用數據輔助App 精準運營。 不僅支持對App 使用者閱讀興趣、個人偏好、觀看時長、點評贊等互動訊息的數據分析,提供新增使用者、使用者留存率、使用者活躍度、使用時段等維度的數據分析功能,還能夠提供對圖文、影片、發布量、發布管道內容傳播情況等多維度的數據分析。

作為主流新聞媒體來說,輿情分析算法是非常有必要的。 通過全網抓取平台對全網訊息進行監測,當網路上有與話題相關的輿情產生時能及時發現,對這些輿情訊息進行分析,包括全網的各大新聞媒體網站以及各類社交平台。 具體可以從時間、情感、網友討論度、主題等幾個方面入手進行分析,並以此來了解輿情的情感傾向。 應用到的基礎算法包括分類聚類、線性和非線性、時間序列以及決策樹等。

2.5 內容生成算法

內容傳播算法主要包括機器寫作算法、影片生成算法、文字內容生成算法等。 傳統媒體在轉型過程中的另外一大問題是原創生產內容效率不夠。 現在這個訊息爆炸的時代,使用者注意力不再像以前紙媒時代那樣集中,如果媒體還是以以前的內容生產方式來做新聞App,生產內容的量級是遠遠滿足不了使用者的需求的。 而UGC 平台的大部分流量都被頭條、騰訊幾家頭部網路平台所佔據,再加上自媒體的興起,所以在原創內容生產上主流媒體也要擁抱人工智能技術。 利用機器撰寫時效性要求高、強調客觀事實的新聞快訊,能在時效性和產出量同時得到保證,從而使有限的人力資源能夠投入在更加專業深度的報導中去。 除了在報導質量上能滿足要求之外,機器寫作的主要優勢在於極大地提升了新聞產出的效率。 生成一篇新聞耗時短,可同時生成多篇新聞,機器寫作已經幫助新聞生產掙脫時間和人力的桎梏。 [5] 並且技術進步正在逐步實現機器人進行基於理解的新聞創作。 語法分析使語言流暢,深度學習能夠自適應多種場景、更多訊息粒度和維度構建的知識圖譜、多樣化的輸出形式。

封面從2016 年開始試水機器寫作,現在自研的AI自動化寫作平台每月寫稿量已超過50000 篇,包括文字內容和影片兩種類型,寫稿的領域涉及體育、財經、生活、科技等10大類40 多個小類。 頻道採用機器輔助編輯管理,實現了全國34 個省區市新聞內容的自動抓取、地理定位、智能分發。 並將這些新聞接入聊天機器人語料、語音查詢功能、個性化推薦定制化寫作等多種交互管道中去。

NO.3

應用路徑與未來規劃

在業內提出了“主流算法”的基礎上,封面進一步把主流媒體算法的概念進行了豐富和完善。 在應用路徑上,需要從以下4 個維度執行算法實踐的具體工作:

3.1 明確目標方向

也就是需要解決業務場景中的哪些問題和創新應用點。 要跟業務部門保持常態化的溝通機制,了解業務的痛點在哪。 把業務痛點細化為業務需求。

3.2 明確能力模型

也就是對算法本身要達到的應用能力的要求。 明確哪些算法能力是需要完全自主研發,哪些能力是自身不具備可以通過先合作共建,後期再學習借鑒的。

3.3 明確產品化製定

也就是對算法在業務中的實際應用場景要製定詳細的方案,有了明確的規劃並要在具體的工作安排中同步推進情況。

3.4 明確評估體系

也就是對算法效果要有相應的評估標準,才能找准升級優化的重點。 包括曝光率、點擊率、召回率等,都需要明確每次算法迭代時需要提升的指標,量化算法的效果。

總結下來,就是從制定目標方向-到明確能力模型-到算法產品場景-到應用評估提升,紮紮實實走好這四步,主流媒體算法的構建與應用工作才能落到實處,這也絕不是一個短期內就能做完的項目,需要長時間在業務場景的實踐。 經過長期與業務部門磨合的積累,封面在主流媒體算法的應用逐漸成熟,把算法應用平台化希望能夠賦能給更多的媒體。 以具有價值觀判斷的主流媒體算法為核心,貫穿內容質量、內容分發、內容傳播、內容生成這四大場景,這也是我們目前正在做的事情。 其中智能推薦、搜尋、內容審核等算法場景已經應用到多個對外輸出項目。

封面一直以來專注智媒技術的聚能進化,在主流媒體算法的研究與應用只是今年重點推進的一個方向,在智媒體的路上還有更長遠的規劃。 作為封面傳媒的又一重磅產品,“智媒雲”3.0 版本進一步通過數據驅動、算法重構,為媒體在影片傳播、社群行銷等領域強力賦能。 智媒雲對外的定位,是封面傳媒自主研發的全系統解決方案。 智媒雲對內的定位,是智能技術賦能智慧內容、智庫運營的創新引擎。 以人工智能為代表的新技術正在深度重構傳播,催生智媒體新物種。 這是封面智媒體“新物種進化論”的科技+ 媒體發展觀與認識論,智媒雲正是基於智媒體的創新引擎與解決方案。 智媒雲創新引擎賦能封面新聞核心產品,是持續推進媒體深度融合“封面智媒體模式”的路徑探索:智媒云通過智能技術、智慧內容、智庫運營、智媒新基建4 大矩陣的研發升級,實施數據驅動首位戰略,持續豐富智媒體多領域、市場化的應用場景,拓展“科技+ 傳媒”業務領域,提升中國封面品牌影響力,完成重新連接世界的使命,構建引領人工智能時代的泛內容平台。 [6]。

參考文獻

[1] 喻國明,韓婷. 算法型訊息分發:技術原理、機制創新與未來發展[J]. 新聞愛好者,2018(04):8-13.

[2] 楊婕. 中心研究| 善用算法——個性化內容推送的中國智

慧[EB/OL]. 信通院網路法律研究中心,2019-12-20.

https://mp.weixin.qq.com/s/Nrxq-Vrv1nskJQD9vCpeGw

[4] 徐楨虎.“機器寫作”驅動智媒時代[J]. 青年記者,2017(31):54-55.

[5]張華,徐楨虎.封面新聞智媒雲的探索與實踐[J].青年記者,2020(21):17-18.

[6] 徐楨虎. 當科技“鏈”上傳媒:區塊鏈在封面新聞的應用[J]. 中國報業,2020(05):29-31

< 回到列表