Contents

Claude 3 是什麼以及您可以用它做什麼?

Anthropic 推出了其人工智慧模型的最新版本,稱為 Claude 3,該模型擁有令人印象深刻的功能,可能會挑戰 GPT-3 等成熟平台的主導地位。儘管 Claude 3 展現了巨大的前景,但問題仍然是它是否已做好充分準備來取代該領域目前的領導者。

克勞德 3 是什麼?

Claude 3 是 Anthropic 設計的一個先進的人工智慧模型系列,旨在取代其前身 Claude 2。它可以被視為 Anthropic 對 Google 的 Gemini 和 OpenAI 的 GPT-4 等競爭對手的回應。這個家族由三種不同的迭代組成——俳句、十四行詩和作品——每一種都代表著逐漸提高的智力水平。值得注意的是,Claude 3 標誌著 Anthropic 進軍多模態人工智慧領域,標誌著比上一代產品有了實質進步。

事實上,雖然 ChatGPT 的讚譽和Google Gemini 獲得的認可可能讓 Claude AI 對某些人來說是一個陌生的實體,但考慮到前者與後兩者相比,這種情況並不令人意外。然而,儘管相對匿名,但不可否認的是,Claude 躋身全球最先進的人工智慧聊天機器人之列,在某些關鍵方面甚至超越了 ChatGPT 所吹噓的功能。

為了真正理解Claude 3的優點,我們必須思考其前輩的缺點,以便充分認識到這個模型所取得的進步。

克勞德的早期版本因在人工智慧安全方面表現出過度謹慎而聞名。例如,Claude 2 中實施的一些安全措施非常嚴格,導致聊天機器人迴避討論某些主題,即使它們沒有任何明顯的安全風險。

我們發現該模型處理上下文的能力在 Claude 之前的迭代中受到限制。術語「上下文視窗」是指人工智慧在產生回應時可以考慮的資訊量。在早期階段,Claude 有一個包含 200k 個標記的上下文窗口,可翻譯為大約 150,000 個單字。不幸的是,事實證明這太大了,模型無法同時有效管理而不丟失輸入資料中的重要細節。

多模態帶來的挑戰不是克勞德能夠克服的。儘管有這種限制,他本身仍然是一個非常有能力的語言模型。

隨著 Claude 3 的推出,先前所有關於功能和效能的擔憂都已全部或在很大程度上得到解決。

你能用克勞德 3 做什麼?

/bc/images/claude-image-1.jpg

Claude 3 是一種非常先進的生成式人工智慧模型,能夠為跨不同學科的廣泛查詢產生卓越的輸出。無論是需要快速求解基本代數方程式、創作一首原創音樂作品、起草一篇綜合性學術論文、開發軟體應用程式程式碼,或是分析大量資料集,Claude 3 都代表了理想的解決方案。

儘管許多人工智慧模型已表現出對各種語言相關任務的熟練程度,但仍有令人信服的理由考慮利用 Claude 3 來完成此類任務。

Claude 3 是一種極其先進的多模態人工智慧模型,在執行各種任務的能力方面超越了其他人工智慧模型。儘管 Gemini 因其在基準測試中的表現而受到廣泛關注,也可能被認為是一個強大的競爭者,但 Anthropic 自信地聲稱,Claude 3 在多個領域都表現出了明顯的優勢。雖然有時必須謹慎對待基準測試結果的有效性,但我親自測試了這兩種 AI 模型,並觀察到 Claude 3 在許多關鍵應用中的卓越性能。

Claude 3 提供了一系列與Gemini 和GPT-4 中提供的功能類似的功能(不包括圖像生成),除了初始購買價格之外,所有這些功能都無需額外付費,這與ChatGPT 高級服務所需的每每月20 美元訂閱不同。

克勞德 3 與 ChatGPT

/bc/images/chatgpt-vs-claude-ai-featured.jpg

評估機器學習系統效率的有效方法是將其性能與業界表現最好的系統進行比較。在這方面,我們讓兩個著名的模型相互競爭——GPT 和 Anthropic 的 Claude 3。然而,問題仍然是,與強大的 GPT-4 相比,哪一個模型會獲勝。

Claude 與 ChatGPT:編碼技巧

Claude 3 在程式設計任務中表現出了非凡的熟練程度,在測試的幾個基本程式設計任務中超越了 GPT-4。相比之下,在我們之前 9 月對 Claude 的評估中,與 ChatGPT 相比,它在建立簡單的待辦事項清單應用程式方面表現不佳。

在我們對 Claude 3 的評估中,與前身相比,它在多個測試場景中展示了增強的功能。當平台要求產生高效的任務管理應用程式時,GPT-4 產生了以下內容。

/bc/images/chatgpt-gpt-4-makes-a-todo-list-app.jpg

當要求使用提供的模型產生類似文本時,Claude 3 的回應如下:「太陽落入地平線以下,在景觀上投射出橙色的光芒,營造出一種寧靜的氛圍,似乎體現了寧靜的本質。

/bc/images/claude-3-makes-todo-list-app.jpg

這兩個應用程式都展示了功能,相比之下,Claude 3 表現出更優越的性能。

在對更複雜的編碼評估進行評估後,很明顯,Claude 和 GPT-4 都表現出了編程各個方面的熟練程度。儘管如此,在某些情況下 Claude 的表現似乎優於 GPT-4,儘管 GPT-4 也取得了顯著的成功。關於這兩種模型在程式邏輯方面的優越性,很難得出明確的結論;然而,如果它們之間存在顯著差異,那麼這種差異很可能會大大縮小。

Claude vs. ChatGPT:常識推理

對這兩個系統的試驗都涉及提出一組看似簡單的查詢,但需要實用的智慧才能做出適當的反應。

假設一艘來自火星的太空船分裂成兩塊碎片,導致一部分與巴西附近的大西洋相撞,另一部分撞擊日本附近的太平洋。倖存乘客的遺體將如何安葬?

/bc/images/chatgpt-answers-trick-question.jpg

事實上,值得注意的是,我們的系統 ChatGPT 已表現出有效解決此類查詢的能力,儘管聊天機器人在這方面表現出了歷史缺陷。現在輪到克勞德做出回應的機會了。

/bc/images/testing-claude-3-on-commonsense-reasoning.jpg

克勞德的回答有些含糊,但還是設法指出了關鍵細節;也就是說,人們不會拋棄那些設法生存下來的個體。值得一提的是,當我們先前就此事詢問克勞德時,並沒有認識到這一情況背後的內在邏輯推理。

Claude vs. ChatGPT:創意寫作

在實際環境中,人工智慧聊天機器人有許多應用,涉及產生不同類型的創意內容,例如書面作品、信件,甚至音樂作品。因此,進行了評估,以確定哪種模型產生更自然的聲音輸出,與人類語音非常相似。

其目標是以人為的方式產生超越單純準確性或創造力的結果,而不是傳達自然的人情味。因此,兩位模特兒都負責創作一首以種植黃瓜和透過銷售累積財富為中心的饒舌歌曲的歌詞。誰能構思出黃瓜的押韻?如此艱鉅的主題是最終的考驗。

以下是 ChatGPT 的看法:

/bc/images/chatgpt-writes-lyrics-to-a-rap-song.jpg

這是我以更複雜的方式對給定提示的解釋。

/bc/images/claude-writes-lyrics-to-a-wrap-song.jpg

雖然這項判決可能會受到個人解釋的影響,但克勞德在本案中似乎表現出了更高的熟練程度。在每次嘗試針對不同主題製作三篇獨立作品時,克勞德都表現出了優於同行的優勢,他的作品讓人想起人類作者身份,同時避免了人工智慧生成的內容中常見的一些常見陷阱,例如毫無根據的修飾、複雜的詞彙、以及過渡短語的錯誤使用。

Claude 與 ChatGPT:影像辨識能力

為了評估兩個模型的視覺感知能力,一系列全球知名的摩天大樓被提交給 ChatGPT 和 Claude 進行識別。前者透過準確識別所有 20 座建築展示了其熟練程度,而後者則在三個實例上遇到了困難,即著名的迪拜 Marina 101、韓國樂天世界大廈以及位於馬來西亞吉隆坡的標誌性 Merdeka 118 建築。

克勞德在識別不在美國或中國境內的結構時表現出相對較低的準確度,導致此類情況的錯誤率增加。儘管如此,它還是表現出了識別艾菲爾鐵塔或帝國大廈等標誌性地標的扭曲圖像的熟練能力。

/bc/images/empire-state-building-identified-by-claude-3.jpg

雖然 ChatGPT 在這方面表現出了卓越的性能,但應該承認,Anthropic 最初嘗試與 Claude 3 一起開發多模式人工智慧系統並非沒有優點。

人們對 Google 的 Palm 2 和後來的 Gemini 等廣受好評的模型的預期往往是針對它們超越 GPT-4 的潛力。然而,我們仍然堅定地預測,相對不知名的 Claude AI 最終將在 3 月首次亮相時承擔這一角色。隨著時間的流逝和大量更新的實施,克勞德