LLM 系列

[LLM 01] 大語言模型的前世今生

說到2022年尾到2023年中在行業間最火的單字,非ChatGPT莫屬,從生活中的規畫行程到工作中編寫程式、回覆信件等等,雖不能堪稱上完美,但無疑是幫助我們提升效率的好幫手。

註: 這裡說不能堪稱完美,是因為LLM存在幾個問題: 包含幻覺(Hallucination)資料過時(recency of the information)…等,後面的文章會探討到。

其實聊天機器人並不是什麼新東西,能夠規劃行程或是編寫程式的機器人也早已存在,但是為何ChatGPT能夠如此家喻戶曉? 筆者認為有幾個關鍵原因相輔相成:  

  • 對於問題有一定程度的理解力
  • 可處理任務的多功能性
  • 使用者友善的介面
  • 具備免費服務

而針對問題的理解力以及可處理任務的多功能性,背後的一大功臣就是大語言模型(Large Language Model, LLM)。 

等等,ChatGPT和大語言模型有啥關?

我們可以先把ChatGPT這個字拆解,”Chat”表示”聊天”,而”GPT”則代表”Generative Pre-trained Transformer”,其中GPT便是一種大語言模型(GPT-3.5)。因此ChatGPT與大語言模型的關係密不可分,這也是本次系列文中,想要作為探討主題的原因。

所以,大語言模型(Large Language Model, LLM)是什麼?

根據這篇論文 A Survey on Evaluation of Large Language Models的描述,大型語言模型是指具有包含數百億(甚至更多)參數卓越學習能力的先進語言模型。這些模型在龐大的文本數據上進行訓練。LLMs具有強大的自然語言理解能力,通過文本生成,能夠解決複雜任務。

另外,因為需要大量的運算資源和大規模的數據清洗,並不是所有的企業都可以從頭訓練自己的LLM,通常必須像是OpenAI(Microsoft),Google(DeepMind),Meta,或是Huawei這類型的機構,有大量的資金和極優秀的人才才有辦法訓練的。

不會無緣無故就直接有大語言模型吧? 他的發展進程是什麼?

根據論文語言模型(Language model)的發展主要可以分為四個階段:

Statistical Language Models (SLM):

發展時間:20世紀中期至21世紀初

這個時期的語言模型主要基於統計方法,如n-gram模型等。它們主要使用統計數據來分析語言結構和模式。

Neural Language Models (NLM):

發展時間:2010年代至2010年代中期

這個時期開始使用基於神經網絡的模型來進行語言建模,如RNN(循環神經網絡)和LSTM(長短期記憶網絡)。

Pre-trained Language Models (PLM):

發展時間:2018年至今

這個時期,GPT-1、BERT等模型開始提出,強調在大量無監督數據上進行預訓練,然後在特定任務上進行微調。這標誌著「預訓練-微調」方法的興起。

Large Language Models (LLM):

發展時間:2018年至今

LLMs如GPT-2和GPT-3在2018年以後出現,這些模型擁有數十億至數千億個參數,進一步提升了語言模型的能力。

著名的應用: 文章開頭提到的ChatGPT,其中的GPT指的是GPT-3.5。還有許多大語言模型的代表,像是:

Google: T5、GShard、PaLM、Chinchilla

OpenAI: GPT-3、instructGPT、ChatGPT、GPT-4。

Meta: Galatica、OPT-IML、NLLB

根據發展的時間軸,更完整的研發機構與其對應的LLM名稱如下圖:

Large Language Models (LLM)和Pre-trained Language Models (PLM)有什麼區別?

Large Language Models (LLM)和Pre-trained Language Models (PLM)相比,除了參數量的差異以外,大語言模型還有個特殊能力叫做emergent ability(湧現能力),三種典型的emergent ability如下:

  • In-context learning (ICL)
  • Instruction following
  • Step-by-step reasoning

以上三種能力,將在後面的文章分別介紹。

Reference:

https://en.wikipedia.org/wiki/Large_language_model

https://www.c-sharpcorner.com/article/why-chatgpt-is-so-popular/

ChatGPT for good? On opportunities and challenges of large language models for education

One comment on “[LLM 01] 大語言模型的前世今生

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *