Contents

2023 年 6 個最佳大型語言模型

要點

事實上,OpenAI 的 GPT-4 被譽為最先進且廣泛使用的大規模語言模型,擁有令人印象深刻的 1.76 兆個參數,同時也擁有多功能的多模態功能。

Anthropic 的 Claude 2 在創意寫作方面表現出了令人印象深刻的熟練程度,對 GPT-4 提出了巨大的挑戰,儘管與競爭對手相比,它的運作資源有限。

雖然 Google 的 PaLM 2 可能不如 GPT-4 先進,但它仍然是一個強大的語言模型,擁有強大的跨語言能力和想像。相比之下,Falcon-180B 以開源格式提供,其效能與 GPT-3 等商業巨頭相當。

目前人工智慧的激增導致科技公司以驚人的速度生產了大量的大規模語言模型。新版本的數量之大對於個人充分監控和保持全面的認識來說是一個挑戰。

隨著這一年即將結束,很明顯,在眾多新發布的模型中,只有少數幾個能夠在大型語言模型的廣闊領域中成為強大的競爭對手。考慮到這一點,我向您展示了此類模型的六個最特殊的示例,這些示例無疑值得探索。

OpenAI 的 GPT-4

/bc/images/7-ways-to-use-chatgpt-vision.jpg

GPT-4 代表了人工智慧領域與自然語言處理相關的重大進步。作為備受推崇的生成式預訓練Transformer 系列的最新成員,這項尖端技術由OpenAI 開發,並於2023 年3 月首次亮相。自推出以來,GPT-4 因其卓越的性能而獲得了廣泛認可,將自己定位為目前公眾可以使用的最流行和最受推崇的大型語言模型之一。

據傳 GPT-4 擁有令人印象深刻的 1.76 兆個參數,大約是 GPT-3.5 的十倍,甚至超過了谷歌最先進模型 PaLM 的能力。大量的參數使得 GPT-4 具有出色的多模式能力,使其能夠輕鬆處理文字和圖形輸入。因此,這種先進的功能促進了 GPT-4 理解和提供視覺內容描述的能力,例如圖表和螢幕截圖以及文字材料。透過擁有這種多模態能力,GPT-4 表現出與人類對複雜現實世界數據的感知非常相似的理解水平。

與同時代的產品相比,GPT-4 在許多科學評估中表現出了卓越的性能。儘管基準測試結果並不能全面體現模型的能力,但實際應用顯示 GPT-4 展現了輕鬆解決複雜問題的非凡能力。目前的價格為每月 20 美元,可以透過訂閱 ChatGPT 的 Plus 方案來存取 GPT-4。

Anthropic 的克勞德 2

/bc/images/meet-claude-anthropic-ai-logo-feature.jpg 圖片來源:Anthropic

Claude 2 是 Anthropic AI 創建的人工智慧語言模型,具有與 GPT-4 類似的技術水平和實際效果,儘管知名度不那麼突出。在某些標準化評估中,例如特定的考試場景,Claude 2 表現出了相對於 GPT-4 的優越性。兩者之間的一個顯著差異是,Claude 2 擁有更廣泛的上下文範圍,大約有 100,000 個令牌,而 GPT-4 的類似模型僅限於 8,000 或 32,000 個令牌。雖然增加上下文可以提高效能這一說法並不普遍,但 Claude 2 更廣泛的容量無疑提供了切實的好處,

雖然 GPT-4 在整體表現方面保持優勢,但我們的內部評估表明 Claude 2 在某些創意寫作任務中超越了它。然而,根據我們的評估標準,GPT-4 在程式設計和數學能力方面仍然領先。儘管如此,Claude 2 仍然脫穎而出,因為它產生的響應非常類似於人類交流,這使得它在尋求連貫和清晰的輸出時成為一個有吸引力的選擇。事實上,在我們的試運行期間,我們從此處列出的每個模型中徵求創意作品,每十個實例中就有六次青睞 Claude 2,因為它的無縫且逼真的輸出。目前,用戶可以透過 Claude AI 聊天機器人免費使用 Claude 2。此外,還有價格為 20 美元的高級訂閱

儘管與 OpenAI 和 Microsoft 等行業領導者相比,Anthropic 的 Claude 2 AI 模型在財務支援有限的情況下仍表現出出色的效能。事實上,當與 GPT 和 Google 的 PaLM 系列等流行替代品相比時,Claude 2 的表現令人欽佩。作為一個資源相對匱乏的AI系統,Claude 2的競爭力確實難能可貴。如果要猜測目前的模型在短期內最有可能與 GPT 競爭,那麼 Claude 2 將是明智的選擇。儘管面臨著巨大的資源差距,Claude 2 的先進功能表明它有可能與資金雄厚的對手進行正面交鋒,不過值得注意的是,谷歌已經為 Anthropic 提供了大力支持。

OpenAI 的 GPT-3.5

/bc/images/person-holding-openai-logo-in-hand-feature.jpg 圖片來源:Marcelo Mollaretti/Shutterstock

儘管 GPT-3.5 受到的關注不如其後繼者 GPT-4,但由於針對效率、精度和安全性的微調和增強迭代的不斷改進,GPT-3.5 擁有一系列令人印象深刻的功能。儘管在多模態整合和整體能力方面與 GPT-4 相比有所差距,但 GPT-3.5 仍然表現出了出色的熟練程度。然而,與GPT-4相比,GPT-3.5很難比擬其優越的綜合性能。

鑑於它是 GP 內的附屬版本

GPT-4 代表了人工智慧能力的重大進步,但 GPT-3.5 仍然擁有非凡的能力,並且往往可以超越最新的競爭對手。即使新一代出現,該模型的持續最佳化仍保持其相關性。

谷歌的PaLM 2

/bc/images/google-palm-2-feature.jpg 圖片來源:Google

在評估人工智慧模型的能力時,傳統方法包括仔細閱讀其技術報告並檢查其基準分數,儘管帶著一絲懷疑。有必要進行獨立測試來驗證這些指標所提出的要求,因為與直覺相反,它們並不總是與每種情況下的實際性能相對應。例如,Google的 Magnet 專案 (PaLM) 2 因其在某些基準測試中的優勢而被吹捧為 GPT-4 的強大對手。然而,在實際應用中,情況卻顯得有些不同。

由 Google 開發的 PaLM 2 在數學推理、邏輯和創造力等領域可能無法達到 GPT-It 或 Claude 等其他高階語言模型所展現的效能水準。儘管如此,儘管存在這種限制,PaLM 2 在其領域內仍然擁有強大的功能,這引起了研究人員和開發人員的極大興趣。值得注意的是,針對 PaLM 2 的大部分批評來自於它與更先進的模型之間的比較,而不是它本身的任何固有缺陷。

PaLM 2 擁有 3400 億個龐大的參數,使其成為全球最廣泛的模型之一。其優點在於多語言任務上的出色表現,以及對數學和程式設計的強大熟練程度。儘管 PaLM 2 可能不是表現最好的,但它在寫作等創意領域中表現出了值得稱讚的能力。儘管基準測試最初的積極指標未能完全實現,但 PaLM 2 仍然展示了卓越的人工智慧能力,儘管在各個方面都未能超越所有競爭對手。

TII 的 Falcon-180B

/bc/images/falcon-180b.jpg

falcon-180b 是阿拉伯聯合大公國技術創新研究所的產品,擁有令人印象深刻的 1800 億個參數,是當今市場上最強大的開源語言模型之一。儘管與 GPT 等流行模型或 Meta 的 Llama 的廣泛使用相比,Falcon-180B 的知名度較低,但 Falcon-180B 的功能無疑是強大的,可以自信地與同一類別中的任何其他競爭者競爭。

Falcon-180B 的表現已被證明超越了許多開源模型,並在包括數學、程式設計、問題解決和創意寫作在內的各種測驗中與 PaLM 2 和 GPT-3 等行業領先者相媲美。在某些情況下,它甚至超越了 GPT-3.5。在比較這三種人工智慧系統(GPT-4、GPT-3.5 和 Falcon-180B)時,Falcon-180B 由於其跨多種應用的熟練程度而在它們之間處於有利地位。

雖然 Falcon-180B 可能無法在各個方面超越 GPT-3.5,但它透過提供與更知名的替代品相當的功能來展示其潛力。儘管不太出名,但由於它能夠匹配甚至超越其他模型的功能,因此值得考慮。有興趣的人可以在Hugging Face平台上測試Falcon-180B,該平台支援開源大語言模型。

Meta AI 的 Llama 2

/bc/images/llama-illustration.jpg

Llama 2 是由 Meta AI 開發的語言模型,擁有令人印象深刻的 700 億個參數。儘管 Llama 2 可能不如一些競爭對手那麼廣泛,但它在各種基準測試和實際應用中表現出了卓越的性能。事實上,它超越了許多可公開存取的大型語言模型,其中一個值得注意的例外是 Falcon-180B。

為了評估 Llama 2 的性能,我們將其與其他最先進的模型(例如 GPT-4、GPT-3.5、Claude 2 和 PaLM 2)在各種評估指標上進行了比較。結果顯示,GPT-4 在大多數情況下顯著超過 Llama 2。儘管如此,我們的研究結果表明,Llama 2 在某些基準測試中與 GPT-3.5 和 PaLM 2 相比時表現出了競爭性的性能。不應推論 Llama 2 絕對優於 PaLM 2;然而,我們的實驗發現了一些實例,其中 Llama 2 成功解決了對 PaLM 2 來說具有挑戰性的問題,甚至涵蓋了

雖然 Llama 2 沒有超越最先進的專有模型的能力,但它在某些評估中表現出與 PaLM 2 等行業領導者相媲美的卓越性能,超出了對開源替代方案的預期。這項成就為未來開源語言模型的可能性提供了一個充滿希望的預覽。

AI 模型之間的效能差距正在縮小

儘管人工智慧領域持續快速發展,但 OpenAI 的 GPT-4 依然保持著領先者的地位。儘管如此,很明顯,即使是較小的模型,如果配備了足夠的專業知識,也有能力在特定領域競爭。例如,Claude 2 透過在某些任務中顯示令人印象深刻的結果來展示這種能力。同樣,Google的PaLM 2可能沒有完全滿足所有人的預期,但它仍然展現出了非凡的能力。此外,開源專案 Falcon-180B 凸顯瞭如果資源充足的話,此類舉措有可能與行業巨頭競爭。