Contents

ChatGPT 與 Claude AI:Claude AI 是更好的聊天機器人嗎?

自 2022 年 11 月發布以來,ChatGPT 仍然是人工智能聊天機器人領域的主導力量。儘管多家人工智能公司做出了深遠的努力,但沒有人真正能夠構建出一款在整體響應質量上真正挑戰 ChatGPT 的聊天機器人。谷歌的吟遊詩人?微軟的 Bing AI?不,不是真的。

儘管人工智能聊天機器人領域存在眾多競爭者,但由創新公司 Anthropic 開發的 Claude AI 已經獲得了越來越多用戶的極大關注和好評。有人甚至聲稱它在功能和有效性方面超越了其競爭對手 ChatGPT。為了充分評估這些說法,讓我們對這兩個機器人進行全面比較。

ChatGPT 與 Claude AI:常識和邏輯推理

在我們對人工智能聊天機器人的評估中,觀察它們表現出的不同能力是很有趣的。雖然一些人工智能聊天機器人能夠迅速解決複雜的問題,否則這些問題將需要人類專家花費大量時間來解決,但其他聊天機器人似乎難以解決只需要簡單邏輯或常識性理解的基本問題。因此,我們對 ChatGPT 和 Claude AI 進行了一系列測試,旨在評估他們表現出良好判斷力和理性思維能力的能力。

/bc/images/logical-and-commonsense-problem.jpg

ChatGPT 利用分散的策略,在最初的嘗試中成功解決了該問題。與此同時,Claude AI採用了另一種方法來有效解決該問題。

/bc/images/claude-ai-solving-a-commonsense-and-logical-reasoning-problem.jpg

兩個聊天機器人都成功解決了最初的挑戰,從而展示了它們解決簡單詢問的能力。隨後,我們繼續測試他們處理更複雜和細緻的問題的能力,特別是向他們提出需要批判性思維技能的謎語或難題。

/bc/images/chatgpt-answers-trick-question-1.jpg

ChatGPT 表現出了對這一策略的立即理解——也就是說,人們不能對生者進行埋葬,因為他們還沒有死。相比之下,克勞德·艾伊似乎明白這是一個詭計,但在辨別不言而喻的事實時卻猶豫不決,即倖存者不應該被埋葬。

相比之下,調查對調查進行了大量分析,並得出結論,不會有人留下來參與調查,因為從火星降落到地球會導致死亡。這種回應可能與我們的預期結果不一致,但從另一個角度審視時,它確實有一定的有效性。

/bc/images/claude-ai-answers-trick-question.jpg

利用 ChatGPT 的功能,我們還考慮了 Claude AI 方法在應對這一特定挑戰方面的潛在優點。在沿著這個特定維度評估性能的最後階段,我們向兩個對話代理提供了一個涉及蘋果樹的假設場景。具體來說,我們假設一開始有十個蘋果,其中五個隨後被切碎,同時它們仍然附著在樹上。然後,我們要求每個系統估計這些事件發生後樹上剩餘的果實數量。 ChatGPT 提供的響應表明所有十個蘋果都將持續存在。

/bc/images/chatgpt-birds-commonsense-logic.jpg

雖然一些人工智能模型無法理解這個問題或提供不相關的答案,但克勞德·人工智能通過承認這五個切片蘋果由於暴露在空氣和濕氣中而可能腐爛,從而展示了實際的理解。

/bc/images/claude-ai-common-sense-reasoning-with-apple-rotting.jpg

根據我們的實驗,Claude AI 表現出了解決當前問題的能力。我們嘗試呈現更複雜的場景,導致兩個聊天機器人都出現了成功和不成功的結果。根據這些發現,可以說,儘管 ChatGPT 表現出一些優勢,但它們的常識和邏輯推理能力之間的差距相對較小。

ChatGPT 與 Claude AI:數學技能

即使人們不打算利用 ChatGPT 或 Claude AI 來解決代數作業,這些系統的數學熟練程度也會產生重大影響。數學是人工智能聊天機器人的重要基礎,使它們能夠理解實際推理、識別錯誤思維並承認錯誤。

從本質上講,數學能力是人工智能的基本基準。那麼,當比較ChatGPT和Claude AI時,誰的數學天賦更高呢?為了確定這一點,我們向每個聊天機器人提出了複雜的數學生產力挑戰。最初,我們測試了 Claude AI,他成功解決了手頭的問題。

/bc/images/claude-ai-solves-maths-problem-on-productivity.jpg

ChatGPT 也解決了這個問題。

/bc/images/chatgpt-solves-maths-problem-on-productivity.jpg

進入下一個任務,我們向兩個會話代理提出了方程8/a-1=20/3a-1,這是一個相對簡單的數學問題,但對於許多人工智能聊天系統來說卻表現出了意想不到的難度。幸運的是,ChatGPT 成功解決了這個問題,並立即提供了-3 的準確響應。

/bc/images/chatgpt-solves-a-math-problem.jpg

克勞德人工智能最初的嘗試猶豫不決,但在被指示逐步、系統地應對挑戰後(從而迫使它仔細考慮推理過程的每個組成部分),它成功解決了這個難題。

/bc/images/claude-ai-solves-a-math-problem-step-by-step.jpg

在某些情況下,Claude AI 和 ChatGPT 的性能會根據它們解決數學問題的能力進行比較。儘管在某些情況下,他們通過立即提供正確的答案來表現出熟練程度,但在其他情況下,克勞德人工智能需要額外的嘗試才能提供準確的答案。因此,當考慮到他們的數學能力時,ChatGPT 成為更好的選擇。

ChatGPT 與 Claude AI:創造力

Claude AI因其卓越的創新內容生成能力而被讚譽,但與ChatGPT相比,它真的在這方面表現出色嗎?能否超越甚至超越後者的創造力水平?為了評估他們各自的才能,我們向每個機器人提供了一項練習,要求他們為遵守嚴格韻律方案的嘻哈曲目創作歌詞。

我們選擇押韻說唱測試,因為它對許多語言模型提出了相當大的挑戰。通常,這些模型在準確再現韻律方案的同時產生連貫且有意義的歌詞時會遇到困難。此外,我們選擇將重點放在種植黃瓜的主題上,這為這項工作增加了額外的複雜性。

根據我們的要求,我們請求 ChatGPT 和 Claude AI 的幫助,創作了一首關於作為農民種植黃瓜並通過這一努力積累大量財富的有節奏的詩句。正如預期的那樣,ChatGPT 發表了一系列令人印象深刻的詩句,引起了人們的興奮。

/bc/images/chatgpt-composes-a-rap-lyrics.jpg

我們隨後向 Claude AI 提出了相同的提示以進行評估。

/bc/images/claude-ai-composes-a-rap-lyrics.jpg

與 Claude AI 相比,ChatGPT 在押韻方面表現出了更高水平的熟練程度。前者在初次嘗試時提供了令人滿意的結果,而後者需要多次嘗試才能產生理想的結果。因此,很明顯,ChatGPT 更能有效地滿足我們的期望,從而使我們在這項特定任務上比 Claude AI 更受青睞。

Claude AI 能夠比 ChatGPT 更輕鬆地完成各種與寫作相關的任務,在生成聽起來自然的內容方面表現出了令人印象深刻的熟練程度。雖然 ChatGPT 在處理更複雜的創意挑戰方面表現出優勢,但在某些情況下,其輸出缺乏人工生成文本的無縫質量。最終,這兩種人工智能模型都表現出了非凡的創造力,儘管各有其獨特的優勢和劣勢。

ChatGPT 與 Claude AI:編碼技巧

當然,正如數學敏銳度對於評估人工智能聊天機器人的能力至關重要一樣,編程能力在這方面也至關重要。儘管可以假設大多數最終用戶不會利用這些會話代理進行編碼,但有效理解和生成連貫計算機代碼的能力仍然是其整體能力的關鍵決定因素。

雖然當前的聊天機器人表現出高水平的複雜性,但它們的進步潛力由於無法有效利用編程功能而受到限制。為了讓人工智能聊天機器人超越基本的文本生成並成為功能強大的人工智能助手,它們必須具備編寫根據需要解決複雜問題的代碼的能力。我們的 ChatGPT 代碼解釋器解釋中詳細探討了這個概念。

利用我們的高級語言模型 ChatGPT 的功能,我們進行了一項實驗,要求它創建一個功能齊全的待辦事項列表應用程序。憑藉出色的熟練程度,ChatGPT 首次嘗試就成功完成了這項任務。通過提供必要的說明,我們能夠將生成的代碼無縫集成到網絡瀏覽器中,從而實現完美執行,沒有任何障礙或複雜性。演示的結果如下所示,供您細讀。

/bc/images/to-do-list-app-by-chatgpt.jpg

在我們的評估過程中,Claude AI 展示了生成連貫且結構良好的代碼的能力。然而,由於執行所需的關鍵邏輯明顯疏忽,我們無法在網絡瀏覽器上成功執行該程序。因此,Claude AI未能在這方面交出令人滿意的成績,令人遺憾。

繼 Claude AI 之前的表演之後,我們嘗試了一種不同類型的編程挑戰,更多地關注代碼分析而不是創建。我們提供了五個代表網站整個後端基礎設施的 PHP 文件,並要求 Claude AI 和 ChatGPT 提供有關這些文件中必要修改的信息,以保證新用戶註冊時自動發送電子郵件。

/bc/images/claude-ai-analyzing-multiple-php-files.jpg

值得注意的是,看似擁有卓越編程能力的ChatGPT,在經過多次嘗試後卻在解決該問題上遇到了困難。相比之下,Claude AI 表現出了檢查代碼的能力,並準確地指出了為實現預期結果而需要修改的精確位置。

事實上,我們的實驗超出了單個實例的範圍,因為我們對各種其他源代碼應用了相同的測試。然而,ChatGPT 在很多情況下都遇到了困難,而 Claude AI 卻始終表現出了卓越的性能。經過進一步評估,編程技能熟練程度的確定變得不那麼明確。

ChatGPT 在編寫新穎的代碼和熟練地處理複雜的編程任務方面表現出無與倫比的能力。相反,Claude AI 在檢查大量代碼存儲庫、從跨多個文件的龐大代碼集合中有效地提取有價值的見解方面表現出了非凡的敏銳度。因此,當尋求通過表達可執行代碼來提出創新想法時,ChatGPT 成為首選。另一方面,為了剖析大量代碼庫並辨別其中的模式,Claude AI 成為最合適的選擇。

Claude AI 是一個強大的競爭對手

Claude AI 對 ChatGPT 構成了巨大的挑戰,未來有可能趕上甚至超越 ChatGPT。 Claude AI 作為該領域的新進入者取得瞭如此成功,這一事實充分說明了競爭的加劇。其卓越的表現證明了這一趨勢。