MMLU 是什麼

August 17, 2024

什麼是 MMLU

MMLU(大規模多任務語言理解)是一個新的基準,旨在透過僅在零樣本和少樣本設定中評估模型來衡量預訓練期間獲得的知識。這使得基準測試更具挑戰性,也更類似於我們評估人類的方式。該基準涵蓋 STEM、人文、社會科學等領域的 57 個學科。它的難度從初級到專業高級,既考驗世界知識,也考驗解決問題的能力。學科範圍從數學和歷史等傳統領域到法律和倫理等更專業的領域。主題的粒度和廣度使基準成為識別模型盲點的理想選擇。

TIGER-Lab 推出 MMLU-Pro 資料集,用於對大型語言模型的功能和效能進行全面基準測試

影像]

人工智慧模型的評估,特別是大型語言模型(LLM),是一個快速發展的研究領域。研究人員致力於開發更嚴格的基準來評估這些模型在各種複雜任務中的能力。該領域對於推進人工智慧技術至關重要,因為它可以深入了解各種人工智慧系統的優缺點。透過了解這些方面,研究人員可以在改進和完善這些模型方面做出明智的決策。

評估法學碩士的一個重要問題是現有基準不足以充分捕捉模型的能力。傳統的基準測試,例如原始的大規模多任務語言理解(MMLU)資料集,通常無法提供全面的評估。這些基準通常包括有限的答案選項,並且主要關注不需要廣泛推理的基於知識的問題。因此,它們無法準確反映法學碩士真正的解決問題和推理能力。這一差距凸顯了對更具挑戰性和包容性的資料集的需求,這些資料集可以更好地評估這些先進人工智慧系統的不同功能。

目前評估 LLM 的方法(例如原始 MMLU 資料集)提供了一些見解,但有明顯的限制。原始 MMLU 資料集每個問題僅包含四個答案選項,這限制了複雜性並減少了模型的挑戰。這些問題大多是知識驅動的,因此不需要對人工智慧綜合評估至關重要的深度推理能力。這些限制導致對模型性能的不完全理解,凸顯了改進評估工具的必要性。

TIGER-Lab 的研究人員引入了 MMLU-Pro 資料集來解決這些限制。這個新資料集旨在為評估法學碩士提供更嚴格、更全面的基準。 MMLU-Pro 將每個問題的答案選項數量從四個增加到十個,從而提高了評估的複雜性和真實性。包含更多以推理為中心的問題解決了原始 MMLU 資料集的缺點。這項工作涉及領先的人工智慧研究實驗室和學術機構,旨在製定人工智慧評估的新標準。

MMLU-Pro 資料集的建置過程非常細緻,以確保其穩健性和有效性。研究人員首先過濾原始 MMLU 資料集,僅保留最具挑戰性和相關性的問題。然後,他們使用最先進的人工智慧模型 GPT-4 將每個問題的答案選項數量從 4 個增加到 10 個。這個增強過程不僅僅是添加更多選項;它涉及產生看似合理的干擾因素,需要辨別性推理來導航。該資料集的問題來自高品質的 STEM 網站、基於定理的 QA 資料集和大學程度的科學考試。每個問題都經過十多名專家組成的小組的嚴格審查,以確保準確性、公平性和複雜性,使 MMLU-Pro 成為強大的基準測試工具。

MMLU-Pro 資料集每個問題採用十個答案選項,減少了隨機猜測的可能性並顯著增加了評估的複雜性。透過整合更多跨學科的大學層級議題,MMLU-Pro 確保了強大且全面的基準。此資料集對不同提示較不敏感,從而增強了其可靠性。雖然 57% 的問題來自原始 MMLU,但它們經過精心過濾,具有更高的難度和相關性。每個問題及其選項都經過十多位專家的嚴格審查,旨在最大限度地減少錯誤。如果沒有思想鏈 (CoT) 提示,表現最好的模型 GPT-4o 僅獲得 53% 的分數。

對 MMLU-Pro 資料集上各種 AI 模型的性能進行了評估,結果顯示與原始 MMLU 分數相比存在顯著差異。例如,GPT-4 在 MMLU-Pro 上的準確率為 71.49%,較原始 MMLU 分數 88.7% 顯著下降。 17.21% 的下降凸顯了新資料集難度和穩健性的增加。其他模型,如GPT-4-Turbo-0409,效能從86.4%下降到62.58%,Claude-3-Sonnet的效能從81.5%下降到57.93%。這些結果強調了 MMLU-Pro 的挑戰性,它需要模型具有更深入的推理和解決問題的技能。

總之,MMLU-Pro 資料集標誌著人工智慧評估的關鍵進步,提供了嚴格的基準,以複雜的、以推理為重點的問題向法學碩士提出挑戰。透過增加答案選項的數量並納入不同的問題集,MMLU-Pro 可以更準確地衡量 AI 能力。在 GPT-4 等模型中觀察到的顯著性能下降凸顯了該數據集在突出需要改進的領域方面的有效性。這種綜合評估工具對於推動未來人工智慧的進步至關重要,使研究人員能夠完善和提高法學碩士的表現。

隆重介紹我們的新基準 MMLU-Pro,這是一個更強大、更具挑戰性的大規模多任務語言理解基準,包含 12K 個問題。

什麼是新的?

  1. MMLU-Pro 使用 10 個選項而不是… pic.twitter.com/pWCgzEmxBP — Wenhu Chen (@WenhuChen) 2024 年 5 月 15 日

影像]

有時,解決複雜問題的最佳方法是藉用兒童讀物。這是微軟研究人員透過研究如何將更多功能裝入更小的封裝中學到的教訓。

去年,微軟的羅南·埃爾丹 (Ronen Eldan) 在工作日思考機器學習謎題的潛在解決方案後,在給女兒讀睡前故事時,他心裡想:「她是怎麼學會這個詞的?她怎麼知道如何連接這些詞?

這讓微軟研究院的機器學習專家想知道,僅使用4 歲孩子能理解的單詞,人工智慧模型能學到多少東西,並最終找到一種創新的訓練方法,產生一類新的功能更強大的小語言模型,該模型有望讓更多人更容易接觸到人工智慧。

大型語言模式 (LLM) 創造了令人興奮的新機會,可以利用人工智慧來提高生產力和創造力。但它們的規模意味著它們可能需要大量的運算資源才能運作。

雖然這些模型仍然是解決許多類型的複雜任務的黃金標準,但微軟一直在開發一系列小型語言模型(SLM),它們提供許多與法學碩士相同的功能,但尺寸更小,並且接受更小的語言訓練。

該公司今天發布了 Phi-3 系列開放模型,這是目前功能最強大、最具成本效益的小語言模型。由於 Microsoft 研究人員開發的培訓創新,Phi-3 模型在評估語言、編碼和數學能力的各種基準測試中均優於相同尺寸和更高尺寸的模型。

微軟表示,現在正在公開推出該系列更強大的小語言模型中的第一個:Phi-3-mini,測量了 38 億個參數,其性能比兩倍大小的模型要好。

從今天開始,它將在 Microsoft Azure AI 模型目錄、機器學習模型平台 Hugging Face 以及用於在本機電腦上運行模型的輕量級框架 Ollama 上提供。它還將作為 NVIDIA NIM 微服務提供,具有可部署在任何地方的標準 API 介面。

微軟也宣布 Phi-3 系列的其他型號即將推出,以在品質和成本方面提供更多選擇。 Phi-3-small(70 億個參數)和 Phi-3-medium(140 億個參數)很快就會在 Azure AI 模型目錄和其他模型園中提供。

該圖展示了新 Phi-3 模型的品質(透過大規模多任務語言理解 (MMLU) 基準測試的表現來衡量)與其他類似規模的模型的比較。 (圖片由微軟提供)

小語言模型旨在執行更簡單的任務,對於資源有限的組織來說更易於存取和使用,並且可以更輕鬆地進行微調以滿足特定需求。

「我們將開始看到的不是從大到小的轉變,而是從單一類別模型到模型組合的轉變,客戶能夠決定最適合他們的模型。場景,」微軟生成人工智慧首席產品經理 Sonali Yadav 說。

微軟人工智慧副總裁 Luis Vargas 表示:“有些客戶可能只需要小型模型,有些客戶需要大型模型,而許多客戶則希望以各種方式將兩者結合起來。”

選擇正確的語言模型取決於組織的特定需求、任務的複雜性和可用資源。小語言模型非常適合希望建立可在裝置(而不是雲端)上本地運行的應用程式的組織,並且任務不需要大量推理或需要快速回應。

影像]

語言模型是基準專家還是現實世界的問題解決者?

AI 學生在教室裡參加考試。圖片由作者和 DALL-E 3 創建。

在教育領域,最好的考試是那些挑戰學生以新的、不可預測的方式應用所學的考試,超越記憶事實,展現真正的理解。我們對語言模型的評估應該遵循相同的模式。我們每天都看到新模型充斥著人工智慧領域,無論是來自OpenAI 和Anthropic 這樣的巨頭,還是來自較小的研究團隊和大學,因此我們的模型評估必須比標準基準的性能更深入,這一點至關重要。新興研究表明,我們用來衡量模型能力的基準並不像我們曾經想像的那麼可靠。為了讓我們能夠適當地支援新模型,我們的基準必須發展得像我們要求這些模型和新興人工智慧代理架構解決的現實世界挑戰一樣動態和複雜。

在本文中,我們將透過回答以下問題來探討語言模型評估的複雜性:

如今如何評估語言模型?在基準測試中表現出色的語言模型有多可靠?語言模型和人工智慧代理能否將知識轉化為行動?為什麼語言模型(或基礎模型)應該掌握比文本更多的東西?

那麼,今天該如何評估語言模型呢?

如今,大多數模型,無論是大型語言模型(LLM) 或小型語言模型(SLM),都是根據一組通用的基準進行評估,包括大規模多任務語言理解(MMLU)、小學數學(GSM8K) 和Big-Bench Hard (BBH)資料集等。

為了更深入了解每個基準測試評估的任務類型,以下是每個資料集的一些範例問題:

MMLU:旨在使用多項選擇題來衡量模型在各種基於 STEM 和人文學科的預訓練期間學到的信息以及從初級到高級專業理解的難度級別。

MMLU 中的大學醫學問題範例:「在新生兒的基因測試中,發現一種罕見的遺傳性疾病,具有 X 連鎖隱性傳播。關於該疾病的譜系,下列哪一項敘述可能是正確的? A. 母方的所有後代都會患有這種疾病 B. 家庭中女性受影響的程度大約是男性的兩倍。 C. 所有受影響男性的女兒都會受到影響。 D. 受影響的男性和女性將是平等分配的。 (正確答案是C)[2]

:旨在使用多項選擇題衡量模型在各種 STEM 和人文學科的預訓練期間學到的信息以及從初級到高級專業理解的難度級別。 MMLU 中的大學醫學問題範例:「在新生兒的基因測試中,發現一種罕見的遺傳性疾病,具有 X 連鎖隱性傳播。關於該疾病的譜系,下列哪一項敘述可能是正確的? A. 母方的所有後代都會患有這種疾病 B. 家庭中女性受影響的程度大約是男性的兩倍。 C. 所有受影響男性的女兒都會受到影響。 D. 受影響的男性和女性將是平等分配的。 (正確答案是 C) [2] GSM8K:語言模型通常很難解決數學問題,GSM8K 資料集使用 8.5k 個不同的小學數學問題來評估模型推理和解決數學問題的能力。

例如:「Dean 的媽媽給了他 28 美元讓他去雜貨店。 Dean 買了 6 輛玩具車和 5 隻泰迪熊。每輛玩具車售價 12 美元,每隻泰迪熊售價 1 美元。他的母親覺得很慷慨,決定額外給他 10 美元。迪恩還剩多少錢? [3]

:語言模型通常很難解決數學問題,GSM8K 資料集使用 8.5k 個不同的小學數學問題來評估模型推理和解決數學問題的能力。例如:「Dean 的媽媽給了他 28 美元讓他去雜貨店。 Dean 買了 6 輛玩具車和 5 隻泰迪熊。每輛玩具車售價 12 美元,每隻泰迪熊售價 1 美元。他的母親覺得很慷慨,決定額外給他 10 美元。迪恩還剩多少錢? [3] BBH:此資料集由 Big Bench 資料集中的 23 個任務組成,傳統上語言模型很難解決這些任務。這些任務通常需要多步驟推理才能成功完成任務。

例如:「如果您遵循這些說明,您會回到起點嗎?左轉。右轉。採取 5 個步驟。採取 4 個步驟。迴轉。採取 9 個步驟。選項:——是——否”[4]

Anthropic 最近發布的 Claude-3 表明他們的 Opus 模型超越了 GPT-4,成為大多數常見基準測試中的領先模型。例如,Claude-3 Opus 在 MMLU 上的表現為 86.8%,略高於 GPT-4 的 86.4%。 Claude-3 Opus 在 GSM8K 上的得分為 95%,在 BBH 上的得分為 86.8%,而 GPT-4 的得分分別為 92% 和 83.1% [1]。

雖然 GPT-4 和 Claude 等模型在這些基準上的表現令人印象深刻,但這些任務並不總是代表企業想要解決的挑戰類型。此外,越來越多的研究表明模型正在記住基準問題而不是理解它們。這並不一定意味著這些模型不能推廣到新任務,我們每天都看到 LLM 和 SLM 表現出驚人的壯舉,但這確實意味著我們應該重新考慮如何評估、評分和推廣模型。

在基準測試中表現出色的語言模型有多可靠?

微軟、中科院自動化研究所和中國科學技術大學的研究表明,當詢問各種語言模型重新表述或修改的基準問題時,模型的表現明顯比詢問未經修改的相同基準問題時要差。出於 DyVal 2 論文中展示的研究目的,研究人員從 MMLU 等基準中提取了問題,並透過重新表述問題、為問題添加額外答案、重新表述答案、排列答案或添加來修改它們問題的額外內容。當將「普通」資料集上的模型效能與修改後的問題進行比較時,他們發現效能下降,例如GPT-4 在普通MMLU 問題上得分為84.4,在修改後的MMLU 問題上得分為68.86 [5]。

資料來源:DyVal2,普通基準上的模型效能與偵測基準的比較

同樣,亞利桑那大學計算機科學系的研究表明,語言模型中存在大量數據污染[6]。這意味著基準中的資訊正在成為模型訓練資料的一部分,實際上使基準分數變得無關緊要,因為模型是根據它們訓練的資訊進行測試的。

復旦大學、同濟大學和阿里巴巴的其他研究強調了人工智慧代理自我演化動態評估的必要性,以解決資料污染和基準記憶問題[7]。這些動態基準將有助於防止模型在預訓練期間記憶或學習訊息,而這些資訊將在稍後進行測試。儘管新基準的反覆湧​​入可能會在將舊模型與新模型進行比較時帶來挑戰,但理想情況下,這些基準將減輕資料污染問題,並更容易衡量模型對訓練主題的理解程度。

在評估特定問題的模型能力時,我們需要了解模型對預訓練過程中學到的資訊的理解程度,以及它對訓練資料以外的新任務或概念的概括能力。

語言模型和人工智慧代理能否將知識轉化為行動?

當我們希望使用模型作為人工智慧代理來代表我們執行操作時,無論是預訂假期、撰寫報告或為我們研究新主題,我們都需要額外的基準或評估機制來評估模型的可靠性和準確性。代理。大多數希望利用基礎模型力量的企業都需要讓模型能夠存取與其獨特資料來源整合的各種工具,並要求模型能夠推理和規劃何時以及如何有效地使用可用的工具。這些類型的任務在許多傳統的法學碩士基準中並未反映。

來源:AgentVerse,在涉及工具呼叫和程式碼執行的軟體開發任務上,代理團隊與單一代理程式進行比較的結果

為了解決這一差距,許多研究團隊正在創建自己的基準和框架,以評估代理在涉及模型訓練資料之外的工具使用和知識的任務上的表現。例如,AgentVerse 的作者評估了代理團隊執行涉及活動規劃、軟體開發和諮詢的現實世界任務的能力。研究人員創建了自己的 10 項測試任務,對這些任務進行手動評估,以確定智能體是否執行了正確的操作、使用了正確的工具並獲得了準確的結果。他們發現,與獨立代理相比,在具有定義的代理招募、任務規劃、獨立任務執行和後續評估階段的循環中運行的代理團隊會帶來更好的結果[8]。

超越單一模式,進入現實世界。為什麼語言模型(或基礎模型)應該掌握比文本更多的東西?

在我看來,新興的代理架構和基準測試是理解語言模型在面向業務的問題上的表現的一大進步,但一個限制是大多數仍然以文本為中心。當我們考慮世界和大多數工作的動態性質時,我們將需要代理系統和模型來評估基於文字的任務以及視覺和聽覺任務的表現。 AlgoPuzzleVQA 資料集是評估模型推理、閱讀和直觀解釋數學和演算法難題的能力的範例之一 [9]。

資料來源:語言模式是謎題神童嗎? AlgoPuzzleVQA 資料集的範例問題

雖然企業可能對模型解決難題的能力不感興趣,但這仍然是理解模型如何推理多模態資訊的正確方向的一步。

結論

當我們在日常生活和專業工作中繼續採用基礎模型時,我們需要反映現實世界問題的額外評估選項。動態和多模式基準是其中的關鍵組成部分之一。然而,當我們引入額外的代理框架和架構,讓許多人工智慧代理協作解決問題時,跨模型和框架的評估和比較變得更具挑戰性。基礎模型的真正衡量標準不在於它們克服標準化測驗的能力,而是它們在複雜且往往不可預測的現實世界中理解、適應和採取行動的能力。透過改變我們評估語言模型的方式,我們挑戰這些模型從基於文本的智力和基準專家發展成為能夠應對多方面(和多模式)挑戰的綜合思考者。

有興趣進一步討論或合作嗎?聯絡 LinkedIn!

影像]

模型根據其能力(例如編碼、常識和推理)進行基準測試。其他功能包括自然語言處理,包括機器翻譯、問答和文字摘要。

LLM 基準在開發和增強模型方面發揮著至關重要的作用。基準展示了法學碩士在學習過程中的進展,並透過定量措施突出了模型的優點及其需要改進的領域。這反過來又指導了微調過程,幫助法學碩士研究人員和開發人員推進該領域的發展。 LLM 基準也提供不同模型的客觀比較,幫助軟體開發人員和組織選擇更適合其需求的模型。

影像]

自從阿聯酋 TII 推出 Falcon 以來,Hugging Face Open LLM 排行榜一直因正確和錯誤的原因而流行。該模型在各種評估指標上都成為開源的冠軍。有趣的是,目前還沒有該模型的論文。研究人員可能會使用其他一些指標或資料集來評估模型。

Hugging Face 的創始人,包括 Thomas Wolf ,他因 Falcon 登上排行榜榜首而大肆宣傳,他們在最新模型的評估指標中偶然發現了這個問題。根據Open LLM Leaderboard,大規模多任務語言理解(MMLU)的基準顯示,Meta AI的LLaMa的分數明顯低於模型論文中公佈的分數。

這遭到了很多人的質疑。首先,Andrej Karpathy 對 Falcon 相對於 LLaMa 的排行榜和升級表示擔憂。後來艾倫研究所的姚付評論說,在沒有花哨的提示和解碼的情況下,LLaMa 在 MMLU 評估上比 Falcon 表現更好。

MMLU-Pro 是 MMLU 資料集的增強版本,具有十個答案選擇而不是四個,並且需要對問題進行更多推理。它經過專業審查,可降低噪音,使其成為更高品質和更具挑戰性的基準。

GPQA(Google-Proof Q&A Benchmark)是由領域專家設計的高難度知識資料集,對於外行人來說具有挑戰性,但對於專家來說卻易於管理。此資料集受到存取限制,以最大限度地減少污染並確保準確評估模型的知識和推理能力。

MuSR(多步驟軟推理)是一個由演算法產生的複雜問題的資料集,長度約為 1,000 個單詞,包括謀殺之謎和團隊分配優化。解決這些問題需要高階推理和遠端上下文解析,大多數模型的效能並不比隨機模型好。

MATH(啟發式數學能力測驗)是高中程度競賽數學問題的彙編,其格式與方程式的 LaTeX 和圖形的 Asymptote 一致。這個基準測試著重於最難的問題,測試模型的數學推理和解決問題的能力。

IFEval(指令追蹤評估)測試模型準確遵循明確指令的能力,例如遵守特定格式或包含關鍵字。評估強調遵循指示的準確性,而不是內容品質。

BBH(Big Bench Hard)是 BigBench 資料集中 23 個具有挑戰性的任務的子集,這些任務是根據其客觀指標、難度和足夠的樣本量以實現統計顯著性而選擇的。這些任務包括多步驟算術、演算法推理、語言理解和世界知識,與人類偏好密切相關。


< 回到列表