Contents

如何使用 Chatbot Arena 比較最好的法學碩士

由於線上聊天機器人有多種,選擇滿足您需求的聊天機器人可能變得極其困難。儘管您可以手動比較任何兩個聊天機器人,但這需要相當多的時間和精力。

另一個更簡單的方法是利用 Chatbot Arena 作為評估驅動知名聊天機器人的各種大型語言模型 (LLM) 的手段。該平台提供了幾種對比這些獨特模型的方法,隨後將詳細介紹。

什麼是聊天機器人競技場?

Chatbot Arena 由 LMSYS 組織開發,是評估多種大型語言模型 (LLM) 的平台。這些模型的排名採用 Elo 評級系統,該系統根據與其他參與模型的正面對決中的表現來分配分數。

Chatbot Arena 為使用者提供了多種評估和評級大型語言模型 (LLM) 的方法。透過提交用戶回饋,Chatbot Arena 在其公共排行榜上匯總了各種法學碩士的排名。這項舉措得到了 HuggingFace 的慷慨支持,HuggingFace 是替代 ChatGPT 的領先開源選項。

如何將匿名法學碩士與聊天機器人競技場進行比較

/bc/images/chatbot-arena-battle-screenshot.jpg

在 Chatbot Arena 的戰鬥模式中,使用者可以透過比較兩個或多個模型來匿名評估大型語言模型。例如,可以將基於 GPT-3.5 的 ChatGPT 與另一種稱為 Claude 的模型進行比較。系統會自動選擇語言模型對進行比較,同時透過不公開其具體身份來保持其匿名性。

輸入初始查詢後,聊天機器人競技場從兩個人工智慧系統中提取答案,並以並行方式定位它們。這個創新平台使您能夠靈活地重現任一語言模型的回复,並消除先前的對話以發起另一個對話。此外,您可以繼續提出疑問,直到確定明確的勝利者。

在聊天機器人競技場中的兩個競爭聊天機器人之間進行選擇時,確定哪個機器人表現更好的能力不會受到任何先前關於這些模型的先入為主的觀點或當前公眾輿論的影響。此外,該平台還允許自訂選項,例如更改溫度設定、確定最常出現的短語以及指定每次回應期間可以產生的最大令牌數量。

如何將選定的法學碩士與 Chatbot Arena 進行比較

/bc/images/chatbot-arena-side-by-side-screenshot.jpg

為了比較兩種特定大型語言模型的效能,可以利用 Chatbot Arena 中的並排比較功能。該模式允許使用者選擇所需的法學碩士。這個過程與戰鬥模式非常相似,允許用戶修改設定、重申答案、刪除過去的交互,並最終在結論中確定勝利者。

雖然在此特定設定中可存取的語言模型可用性模型 (LLM) 的種類受到一定限制,但使用者可以從 Llama 2、Vicuna 和 ChatGLM 的多個不同迭代中進行選擇。遺憾的是,目前,備受追捧的法學碩士(例如 GPT-4、GPT-3.5、Claude 1 和 Claude 2)並未在此背景下提供。儘管如此,Chatbot Arena 的目的是在未來整合這些模型。

使用 Chatbot Arena 比較法學碩士

聊天機器人競技場為那些尋求識別和評估適合其特定需求的合適聊天機器人的個人以及有興趣透過測試探索各種大型語言模型的人提供了絕佳的機會。

該平台提供了一種並行對比多種語言模型的有效方法。此外,透過保持排名系統依賴使用者輸入,人們可以輕鬆地了解不同模型的排名,而不必親自進行評估。