說到2022年尾到2023年中在行業間最火的單字,非ChatGPT莫屬,從生活中的規畫行程到工作中編寫程式、回覆信件等等,雖不能堪稱上完美,但無疑是幫助我們提升效率的好幫手。
註: 這裡說不能堪稱完美,是因為LLM存在幾個問題: 包含幻覺(Hallucination)與資料過時(recency of the information)…等,後面的文章會探討到。
其實聊天機器人並不是什麼新東西,能夠規劃行程或是編寫程式的機器人也早已存在,但是為何ChatGPT能夠如此家喻戶曉? 筆者認為有幾個關鍵原因相輔相成:
- 對於問題有一定程度的理解力
- 可處理任務的多功能性
- 使用者友善的介面
- 具備免費服務
而針對問題的理解力以及可處理任務的多功能性,背後的一大功臣就是大語言模型(Large Language Model, LLM)。
等等,ChatGPT和大語言模型有啥關?
我們可以先把ChatGPT這個字拆解,”Chat”表示”聊天”,而”GPT”則代表”Generative Pre-trained Transformer”,其中GPT便是一種大語言模型(GPT-3.5)。因此ChatGPT與大語言模型的關係密不可分,這也是本次系列文中,想要作為探討主題的原因。
所以,大語言模型(Large Language Model, LLM)是什麼?
根據這篇論文 A Survey on Evaluation of Large Language Models的描述,大型語言模型是指具有包含數百億(甚至更多)參數和卓越學習能力的先進語言模型。這些模型在龐大的文本數據上進行訓練。LLMs具有強大的自然語言理解能力,通過文本生成,能夠解決複雜任務。
另外,因為需要大量的運算資源和大規模的數據清洗,並不是所有的企業都可以從頭訓練自己的LLM,通常必須像是OpenAI(Microsoft),Google(DeepMind),Meta,或是Huawei這類型的機構,有大量的資金和極優秀的人才才有辦法訓練的。
不會無緣無故就直接有大語言模型吧? 他的發展進程是什麼?
根據論文語言模型(Language model)的發展主要可以分為四個階段:
Statistical Language Models (SLM):
發展時間:20世紀中期至21世紀初
這個時期的語言模型主要基於統計方法,如n-gram模型等。它們主要使用統計數據來分析語言結構和模式。
Neural Language Models (NLM):
發展時間:2010年代至2010年代中期
這個時期開始使用基於神經網絡的模型來進行語言建模,如RNN(循環神經網絡)和LSTM(長短期記憶網絡)。
Pre-trained Language Models (PLM):
發展時間:2018年至今
這個時期,GPT-1、BERT等模型開始提出,強調在大量無監督數據上進行預訓練,然後在特定任務上進行微調。這標誌著「預訓練-微調」方法的興起。
Large Language Models (LLM):
發展時間:2018年至今
LLMs如GPT-2和GPT-3在2018年以後出現,這些模型擁有數十億至數千億個參數,進一步提升了語言模型的能力。
著名的應用: 文章開頭提到的ChatGPT,其中的GPT指的是GPT-3.5。還有許多大語言模型的代表,像是:
Google: T5、GShard、PaLM、Chinchilla
OpenAI: GPT-3、instructGPT、ChatGPT、GPT-4。
Meta: Galatica、OPT-IML、NLLB
根據發展的時間軸,更完整的研發機構與其對應的LLM名稱如下圖:
Large Language Models (LLM)和Pre-trained Language Models (PLM)有什麼區別?
Large Language Models (LLM)和Pre-trained Language Models (PLM)相比,除了參數量的差異以外,大語言模型還有個特殊能力叫做emergent ability(湧現能力),三種典型的emergent ability如下:
- In-context learning (ICL)
- Instruction following
- Step-by-step reasoning
以上三種能力,將在後面的文章分別介紹。
Reference:
https://en.wikipedia.org/wiki/Large_language_model
https://www.c-sharpcorner.com/article/why-chatgpt-is-so-popular/
ChatGPT for good? On opportunities and challenges of large language models for education
Hi, this is a comment.
To get started with moderating, editing, and deleting comments, please visit the Comments screen in the dashboard.
Commenter avatars come from Gravatar.