2023 年 6 個最佳大型語言模型

Leonard Strauss included in Technology Explained Artificial Intelligence Chatgpt Machine Learning

2023-10-30 312 words 2 minutes

Contents

要點

OpenAI 的 GPT-4 目前版本擁有一系列令人印象深刻的功能，包括數量驚人的 1.76 兆個參數，使其成為當今最大、最先進的大型語言模型之一。此外，其多模式能力允許跨各種媒介的更廣泛的應用。

Anthropic 的 Claude 2 在創意寫作方面表現出了令人印象深刻的熟練程度，儘管與 GPT-4 相比它擁有的資源有限，但其性能卻與 GPT-4 相當。

儘管Google 最新的語言模型（稱為PaLM 2）可能無法與GPT-4 相比，但它仍然是語言學領域的一股強大力量，在多種語言方面擁有令人印象深刻的能力，並在其輸出中表現出相當大的獨創性。同時，開源替代方案 Falcon-180B 已經展現了與一些行業領導者相當的卓越能力，甚至還涉足了先前由 GPT-3 主導的領域。

目前的氣候特徵是人工智慧技術的豐富，許多公司正在加速開發先進的語言模型。這些新系統的激增導致個人越來越難以保持對所有可用選項的全面認識。

隨著這一年即將結束，很明顯，只有少數幾個模型在眾多新發布的語言模型中脫穎而出。這些出色的模型在大型語言模型的競爭格局中展現了自己的實力。考慮到這一點，我向您展示了六種最著名的值得探索的大型語言模型。

OpenAI 的 GPT-4

GPT-4 代表了人工智慧領域的重大進步，因為它構成了可供公眾使用的大規模語言模型的最新實例。這個開創性的系統由 OpenAI 共同開發，並於 2023 年 3 月推出。作為正在進行的生成式預訓練 Transformer 系列的組成部分，GPT-4 擁有卓越的能力，使其成為最受歡迎的系統之一並在全球備受追捧的大型語言模型。

據推測，GPT-4 擁有約 1.76 兆個參數，這遠遠大於其前身 GPT-3.5 甚至谷歌高級模型 PaLM 中的參數數量。這些參數數量龐大，使得 GPT-4 擁有廣泛的功能，不僅限於處理文本，還能夠同時處理圖像和文字輸入。因此，此功能使 GPT-4 能夠理解和描述視覺材料，例如圖表和螢幕截圖以及書面內容。多種模式的結合增強了系統以類似於人類認知的方式理解現實生活情況的能力。

在一系列的實證評估中，GPT-4在眾多評估中表現出了相對於同時代同儕的顯著優越性。然而，應該指出的是，雖然這些基準測試為模型的功能提供了有價值的見解，但它們並沒有提供其整體優勢的全面體現。儘管如此，人們觀察到，當應用於實際場景時，GPT-4 表現出了以高度直覺解決實際困難的非凡能力。目前，GPT-4 的定價為每月 20 美元，可以作為 ChatGPT Plus 訂閱選項的一部分進行存取。

Anthropic 的克勞德 2

圖片來源:Anthropic

Claude 2 是 Anthropic AI 創建的人工智慧語言模型，能夠在多個領域匹配 GPT-4 的技術熟練程度和現實世界性能。事實上，在某些標準化評估（例如選擇性考試）中，Claude 2 已被證明超越了 GPT-4。此外，Claude 2 相對於其競爭對手的一個顯著優勢是其約 100,000 個令牌的廣闊上下文窗口，這遠遠超過了 GPT-4 模型的 8k 和 32k 令牌容量。儘管需要注意的是，較大的上下文視窗並不一定能保證效能的提高，但 Claude 2 提供的增加的容量無疑提供了明顯的好處，例如它能夠分析整個

GPT-4 繼續在各個領域展現出卓越的性能，而我們的內部評估表明 Claude 2 在某些創意寫作任務中超越了 GPT-4。然而，根據我們的評估，GPT-4 在程式設計和數學能力方面比 Claude 2 保持優勢。儘管如此，Claude 2 始終提供了高度清晰和富有想像力的響應，當提示多個人工智慧模型執行創意任務時，每十個實例中有六個被選為首選輸出。目前，用戶可以透過免費存取的 Claude AI 聊天機器人與 Claude 2 進行交互，或選擇售價 20 美元的高級版本來擴展功能。

儘管與 OpenAI 和 Microsoft 等行業領導者相比，Anthropic 的 Claude 2 AI 模型擁有較少的財務資源，但仍表現出卓越的效能水準。事實上，當與 GPT 和 Google 的 PaLM 系列等流行的人工智慧模型進行比較時，Claude 2 的表現令人欽佩。顯然，對於資源有限的人工智慧來說，Claude 2 表現出了難能可貴的競爭力。如果要推測目前哪個人工智慧模型最有潛力在不久的將來挑戰 GPT，Claude 2 似乎是最有希望的候選者。儘管 Anthropic 可能缺乏與一些更成熟的同行相同水平的資金，但 Claude 2 的尖端能力表明它確實可以競爭

OpenAI 的 GPT-3.5

圖片來源:Marcelo Mollaretti/Shutterstock

儘管 GPT-3.5 被隨後發布的 GPT-4 黯然失色，但由於其 1750 億個參數的龐大規模，其價值絕不能被低估。透過圍繞效率、精度和安全性的迭代微調和增強不斷完善，GPT-3.5 自最初的 GPT-3 以來取得了顯著進步。儘管在多模態熟練程度和整體能力方面與 GPT-4 相比有所差距，特別是在考慮上下文範圍和參數容量時，GPT-3.5 仍然表現出了卓越的能力。儘管如此，GPT-4 是目前唯一可以在所有方面明顯優於 GPT-3.5 的競爭者。

鑑於它是 GPToken 系列中的子模型，GPT-3.5 表現出了與 Google 和 Meta 提供的領先人工智慧系統相媲美的令人印象深刻的能力。與 Google 的 PaLM 2 進行的比較表明，雖然它們在數學和編碼熟練程度方面沒有顯著差異，但 GPT-3.5 實際上在某些情況下顯示出邊際優勢。此外，在透過智力和故事組成等指標來評估創造力時，GPT-3.5 表現出明顯優於競爭對手的優勢。

事實上，GPT-4 的發布代表了人工智慧能力的重大進步。然而，儘管已被其後繼者取代，GPT-3.5 仍然擁有強大的實力，通常優於最先進的替代品。此外，持續的微調在更新、更具吸引力的新興技術中保持了相關性。

谷歌的PaLM 2

圖片來源:Google

在評估人工智慧模型的能力時，人們通常會仔細閱讀其技術報告並檢查其基準分數，但必須以懷疑的態度對待這些發現並進行個人測試。與直覺相反，基準測試的結果並不能始終反映某些人工智慧模型的實際表現。例如，根據其技術規格，Google的PaLM 2預計在各種基準測試中超越GPT-4；然而，在實際應用中，會出現不同的情況。

PaLM 2 由 Google 開發，已針對其執行各種認知功能（包括數學推理、邏輯思維和創意寫作）的能力與其他高級語言模型（例如 GPT-It 和 Anthropic 的 Claude）進行了評估。儘管它在這些領域表現出了顯著的優勢，但與一些競爭對手相比，它仍然落後於一些競爭對手。儘管如此，儘管沒有滿足作為 GPT-3 直接繼承者的所有期望，PaLM 2 仍然被認為是該領域的強大玩家，因為其令人印象深刻的功能超越了許多其他人工智慧系統。

PaLM 2 擁有大量參數，超過 3400 億個，使其成為現有最廣泛的模型之一。該模型在多語言任務中表現出卓越的熟練程度，並顯示出強大的數學和計算能力。雖然 PaLM 2 可能並非在各方面都無可匹敵，但在寫作等創意工作方面仍然具有很強的能力。儘管基準測試提出了一些初步承諾，但並沒有在所有領域統一實現完全實現，但 PaLM 2 繼續展示了值得注意的人工智慧實力，儘管普遍未能超越所有同行。

TII 的 Falcon-180B

Falcon-180B 是阿聯酋技術創新研究所的產品，它的熟悉程度可能不如 GPT 等其他 AI 語言模型或 Meta 的 Llama 的受歡迎程度。然而，其令人印象深刻的 1800 億個參數使其躋身精英行列，能夠與該領域的頂尖產品競爭。

Falcon-180B 的性能已被證明超越了許多開源模型，並且與 PaLM 2 和 GPT-3 等領先的商業解決方案相媲美。在數學問題解決、程式設計、邏輯推理和創意寫作等一系列測驗中，Falcon-180B 甚至有時甚至超越了 GPT-3.5。在考慮 GPT-4、GPT-3.5 和 Falcon-180B 的放置時，很明顯 Falcon-180B 由於其跨多個應用程式的顯著功能而應放置在這兩個型號之間。

雖然 Falcon-180B 可能無法在各個方面超越 GPT-3.5，但它以其能夠匹配甚至超越更突出的替代品的能力而提出了令人信服的論點。儘管不太為人所知，但該型號值得考慮，並且已透過開源 LLM 平台 Hugging Face 提供。

Meta AI 的 Llama 2

Llama 2 是 Meta AI 擴展語言模型的顯著進步，擁有令人印象深刻的 700 億個參數。儘管與其他一些行業領導者相比，它的資源較少，但它在基準測試和實際應用中表現出了非常優越的性能，超越了許多廣泛使用的開源法學碩士。然而，也有例外，例如 Falcon-180B 在某些情況下可能表現得更好。

為了評估 Llama 2 相對於其他最先進模型的性能，我們進行了將其與 GPT-4、GPT-3.5、Claude 2 和 PaLM 2 進行比較的實驗。值得注意的是，GPT-4 表現出了優於幾乎每次評價都是Llama 2。儘管如此，與 GPT-3.5 和 PaLM 2 相比，Llama 2 在某些基準測試中表現出了有競爭力的結果。不應暗示 Llama 2 完全超越 PaLM 2；然而，Llama 2 在解決各種具有挑戰性的問題（例如編碼任務）方面優於 PaLM 2。相比之下，Claude 2 和 GPT-3.5 略微超過

Llama 2 儘管沒有超越最先進的專有模型的能力，但展示了開源語言模型的卓越性能。事實上，它在某些評估中可以與 PaLM 2 等行業領導者相媲美，為開源語言模型未來可以實現的目標提供了一個有希望的預覽。

AI 模型之間的效能差距正在縮小

儘管人工智慧領域發展迅速，但 OpenAI 的 GPT-4 在尺寸和效能方面繼續保持領先地位。雖然還沒有其他模型能夠與 GPT-4 的功能相匹配，但值得注意的是，某些較小的模型已經在特定領域表現出了卓越的技能。例如，Claude 2 就是這樣一種型號，它在某些領域展現了其強大的實力。此外，儘管Google的PaLM 2可能沒有達到一些高期望，但它仍然具有相當的能力。最後，開源專案 Falcon-180B 是一個很好的例子，說明擁有足夠資源的計劃如何與領先的行業參與者相提並論。