大型語言模型 LLM 是什麼 ?

August 17, 2024

拇指後

什麼是大型語言模型?

大型語言模型 (LLM) 是一類基礎模型,經過大量資料訓練,使其能夠理解和產生自然語言和其他類型的內容,以執行各種任務。

大型語言模型已成為家喻戶曉的名字,這要歸功於他們在將生成式人工智慧帶到公眾利益的前沿方面所發揮的作用,以及組織關注在眾多業務功能和用例中採用人工智慧的重點。

在企業環境之外,隨著生成式人工智慧的新發展,大型語言模型似乎突然出現了。然而,包括 IBM 在內的許多公司花了數年時間在不同層級實施大型語言模型,以增強其自然語言理解 (NLU)自然語言處理(NLP) 能力。這與機器學習、機器學習模型、演算法、神經網路和為這些人工智慧系統提供架構的變壓器模型的進步一起發生。

LLM 是一類基礎模型,它們經過大量資料的訓練,以提供驅動多個用例和應用程式以及解決大量任務所需的基礎功能。這與為每個用例單獨構建和訓練特定領域模型的想法形成鮮明對比,這種想法在許多標準(最重要的是成本和基礎設施)下是令人望而卻步的,會抑制協同作用,甚至可能導致性能下降。

LLM 代表了 NLP 和人工智慧領域的重大突破,公眾可以透過 Open AI 的 Chat GPT-3 和 GPT-4 等介面輕鬆存取,這些介面已獲得 Microsoft 的支援。其他範例包括 Meta 的 Llama 模型以及來自 Transformer (BERT/RoBERTa) 和 PaLM 模型的 Google 雙向編碼器表示。 IBM 最近也在 watsonx.ai 上推出了Granite 模型系列,該系列已成為 watsonx Assistant 和 watsonx Orchestrate 等其他 IBM 產品的生成 AI 骨幹。 

簡而言之,大型語言模型旨在根據用於訓練的大量數據,像人類一樣理解和生成文本以及其他形式的內容。他們有能力從上下文中推斷,產生連貫且與上下文相關的回應,翻譯成英語以外的語言,總結文本,回答問題(一般對話和常見問題解答),甚至協助創意寫作或程式碼生成任務。 

他們之所以能夠做到這一點,要歸功於數十億個參數,這些參數使他們能夠捕捉語言中的複雜模式並執行各種與語言相關的任務。大型語言模型正在徹底改變各個領域的應用程序,從聊天機器人和虛擬助理到內容生成、研究協助和語言翻譯。

隨著大型語言模型的不斷發展和改進,大型語言模型將重塑我們與技術互動和獲取資訊的方式,使它們成為現代數位景觀的關鍵部分。大型語言模型已成為家喻戶曉的名字,這要歸功於他們在將生成式人工智慧帶到公眾利益的前沿方面所發揮的作用,以及組織關注在眾多業務功能和用例中採用人工智慧的重點。

大型語言模型如何運作

大型語言模型透過利用深度學習技術和大量文本資料來運作。這些模型通常基於變壓器架構,例如生成式預訓練變壓器,它擅長處理文字輸入等順序資料。 LLM 由多層神經網路組成,每個層都具有可以在訓練期間微調的參數,這些參數透過稱為注意力機制的多層進一步增強,該機制針對資料集的特定部分。

在訓練過程中,這些模型學習根據前面單字提供的上下文來預測句子中的下一個單字。該模型透過將機率分數歸因於已標記化的單字的重複出現(分解為較小的字元序列)來實現這一點。然後,這些標記被轉換為嵌入,即該上下文的數字表示。

為了確保準確性,這個過程涉及在大量文本語料庫(數十億頁)上訓練大型語言模型,使其能夠透過零樣本和自我監督學習來學習語法、語義和概念關係。一旦接受了這些訓練資料的訓練,大型語言模型就可以根據他們收到的輸入自動預測下一個單詞,並利用他們獲得的模式和知識來產生文字。其結果是產生連貫且上下文相關的語言,可用於廣泛的 NLU 和內容生成任務。

還可以透過即時工程、即時調整、微調和其他策略(例如透過人類回饋進行強化學習 (RLHF))來消除偏見、仇恨言論和被稱為「幻覺」的事實錯誤答案(這些通常是不需要的副產品)來提高模型性能對如此多的非結構化資料進行訓練。這是確保企業級大型語言模型可供使用且不會讓組織承擔不必要的責任或對其聲譽造成損害的最重要方面之一。

AI 研究人員推出了能夠產生最多 10,000 個單字的文字輸出的大型語言模型

影像]

本文已根據 Science X 的編輯流程和政策進行審查。編輯在確保內容可信度的同時強調了以下屬性:

由於現有的 LLM 無法產生足夠長的輸出,AgentWrite 採用 plan-thenwrite 管道,透過現成的 LLM 獲得足夠長度的輸出。圖片來源:arXiv (2024)。 DOI:10.48550/arxiv.2408.07055

清華大學的人工智慧研究人員團隊與智普人工智慧的同事合作開發了一種名為 LongWriter 的大型語言模型 (LLM),他們聲稱該模型能夠產生最多 10,000 個單字的文字輸出。該小組撰寫了一篇論文,描述了他們的努力和新的大型語言模型,該論文可在 arXiv 預印本伺服器上取得。

隨著大型語言模型已成為主流,許多人注意到他們無法產生很長的答案,例如完整的書籍或手稿 - 目前的限制似乎約為 2,000 字。研究人員認為這是因為他們都接受過簡短文件的訓練。在他們的新努力中,他們發現,如果大型語言模型稍微改變,然後使用更長的文件進行培訓,他們就能夠產生更長的文件。

為了測試他們的想法,研究團隊首先使用傳統資料集訓練了 90 億參數的 LLM,其中包含的文件大多長度不到 2,000 個單字。正如預期的那樣,在查詢時,它無法創建長度超過 2,000 字的文字。

接下來,團隊使用他們命名為 AgentWrite 的管道修改了傳統的大型語言模型,以便在處理培訓材料時將其分解為子任務。然後,他們組裝了一個名為「LongWriter-6k」的資料集,該資料集包含 6,000 個書面文檔,長度從 2,000 到 32,000 字不等。然後,他們使用新資料集 LongWriter-6k 訓練修改後的 LLM,發現這樣做可以將其產生的文件的字長增加到大約 10,000 個單字。

圖片來源:Yushi Bai 等人

在審查大型語言模型新產生的長文件時,團隊發現它們在各種情況下都是連貫且可用的。他們已在 GitHub 上發布了模型的開源程式碼,此舉將允許其他人在中國團隊所做的基礎上進行開發。他們還發布了一段視頻,顯示LongWriter為在中國旅遊的人們製作了一份萬字的旅遊指南。

研究人員承認,既然已經發現大型語言模型可以產生完整的研究論文、書籍、手稿甚至電影劇本,那麼必須考慮道德因素。

更多資訊:Yushi Bai 等人,LongWriter:從長上下文大型語言模型中釋放 10,000 多個單字生成,arXiv (2024)。 DOI:10.48550/arxiv.2408.07055 Github:github.com/THUDM/LongWriter 期刊資訊:arXiv

影像]

在本節中,我們首先展示 LLM-Twin 在計算和通訊消耗方面的數值實驗結果,並透過將其性能與傳統的基於 FL 的 DTN 進行比較來展示 LLM-Twin 的優勢。然後,為了進一步論證LLM-Twin的可行性和優勢,我們提出了智慧家庭DTN的案例研究。所有實驗均部署在高效能伺服器上,配置為 Intel Xeon Gold 6226R 3.90 GHz CPU、256 GB RAM、Ubuntu 20.04 LTS 和 Python 3.8。

大型語言模型的內心世界

這次調查幫助金親眼目睹了這項進展。它的作用是解釋大型語言模型認為指令的含義,揭示大型語言模型開發了自己的內部模擬來模擬機器人如何回應每條指令。隨著模型解決難題的能力提高,這些概念也變得更加準確,顯示大型語言模型開始理解這些指示。不久之後,該模型就能夠始終如一地將各個部分正確地組合在一起,形成工作指令。

金指出,大型語言模型對語言的理解是分階段發展的,就像孩子分多個步驟學習言語一樣。一開始,它就像嬰兒牙牙學語:重複且大多難以理解。然後,語言模型取得語法或語言規則。這使它能夠產生看起來像真正的解決方案的指令,但它們仍然不起作用。

不過,大型語言模型的指導逐漸完善。一旦模型獲得了意義,它就會開始產生正確實現所請求規範的指令,就像孩子形成連貫的句子一樣。

大型語言模型 (LLM) 大大改變了自然語言處理的格局,使機器能夠比以往更有效地理解和產生人類語言。通常,這些模型是在巨大且並行的語料庫上進行預訓練,然後進行微調以將它們與人類任務或偏好聯繫起來。因此,這個過程導致了該領域的巨大進步,大型語言模型已成為從語言翻譯到情緒分析等不同應用的非常有用的工具。目前仍在積極研究解決預訓練和微調之間的關係,因為這種理解將導致模型的進一步優化,以獲得更好的性能和實用性。

大型語言模型培訓中的挑戰性問題之一是預訓練階段和微調階段的收益之間的權衡。預訓練是賦予模型對語言廣泛理解的關鍵,但在微調之前這個預訓練點的最佳程度常常存在爭議。儘管有時這對於針對特定任務調整模型是必要的,但有時可能會導致先前學習的資訊遺失或嵌入模型預訓練期間最初不存在的一些偏差。這是保持一般知識和針對特定任務表現微調之間的微妙平衡。

現有的方法將預訓練和微調作為兩個獨立的步驟:在預訓練中,向模型提供具有大量詞彙的大量文本資料集,模型學習這些文本資料集以找到語言的底層結構和模式。微調繼續對較小的、特定於任務的資料集進行訓練,使其專注於某些任務。通用預訓練後進行針對特定任務的微調方法可能只能實現兩個階段中的一些潛在協同作用。研究人員已經開始研究一種更全面的方法,即在預訓練過程中的幾個十字路口引入微調,是否可以獲得更好的表現。

約翰霍普金斯大學的研究小組提出了一種新穎的方法,探索了預訓練和微調之間的權衡。作者透過微調預訓練模型的許多中間檢查點,進一步研究了持續預訓練如何影響微調模型的能力。這些實驗是在大數據、預先訓練的大規模模型上進行的,使用預訓練過程不同階段的檢查點。模型開發各點的微調檢查點是透過監督和基於指令的方法完成的。這種新穎的方法幫助研究人員比較他們的模型在開發過程的不同階段與其他模型的運作方式,並揭示了培訓大型語言模型的最佳策略。

該方法很深入,討論了模型在超過 18 個資料集的多個任務中的性能,例如自然語言推理、釋義檢測和摘要。他們的結論是,持續的預訓練會導致模型中潛在的隱藏方式,只有在微調後才會顯現出來。具體來說,對於模型在預訓練時表現不佳的任務,經過微調後可以觀察到顯著的改進,任務的整體改進在 10% 到 30% 左右。相較之下,模型在預訓練階段表現令人滿意的函數在微調階段表現得不太明顯,這意味著微調有利於那些事先沒有充分學習的任務。

研究期間也揭示了與微調過程相關的具體微妙特徵。雖然微調通常會增強模型的性能,但另一方面,它會導致模型忘記已經學習的信息,因為大多數時候,當微調目標與預訓練目標不匹配時,就會發生這種情況,其中這是任務方面的,與微調的目標沒有直接關係。例如,在對幾個自然語言推理任務進行微調後,模型在釋義辨識任務上進行評估時會惡化。這些行為顯示了改進微調任務和擁有更通用能力之間的權衡。透過實驗,他們表明,透過在微調階段繼續進行大量預訓練步驟,可以部分緩解這種遺忘,從而保留大型模型的知識庫。

微調模型的性能結果很有趣。在自然語言推理任務中,與僅預先訓練的模型相比,微調後的模型表現出了 25% 的最高效能。釋義檢測任務的準確性提高了 15%,而兩個摘要任務的準確性提高了約 20%。這些結果強烈強調了微調的重要性,以真正釋放預訓練模型的全部潛力,特別是在基線模型表現不佳的情況下。

總之,約翰霍普金斯大學研究人員的這項工作非常有趣,因為它提供了其他大型語言模型中預訓練和微調之間動態關係的見解。前期打好基礎後,後續很重要;沒有它,微調建模過程將不會提高模型的能力。研究表明,這兩個階段之間存在適當的平衡,為 NLP 帶來了進一步的新方向。這個新方向將有可能提高訓練範式的有效性,同時應用預訓練和微調,從而有利於更強大、更靈活的語言模型。

查看論文。這項研究的所有功勞都歸功於該計畫的研究人員。另外,不要忘記在 Twitter 上關注我們並加入我們的 Telegram 頻道和 LinkedIn 群組。如果您喜歡我們的工作,您一定會喜歡我們的時事通訊。


< 回到列表