Contents

วิธีใช้ Chatbot Arena เพื่อเปรียบเทียบ LLM ที่ดีที่สุด

เนื่องจากมีแชทบอทหลายตัวให้บริการทางออนไลน์ การเลือกอันที่ตรงกับความต้องการของคุณจึงเป็นเรื่องยากมาก แม้ว่าคุณจะสามารถเปรียบเทียบแชทบอทสองตัวใดก็ได้ด้วยตนเอง แต่จะต้องใช้เวลาและความพยายามอย่างมาก

แนวทางอื่นที่มีความเรียบง่ายมากขึ้นเกี่ยวข้องกับการใช้ Chatbot Arena เป็นวิธีการประเมิน Large Language Models (LLM) ที่หลากหลายซึ่งขับเคลื่อนแชทบอตที่มีชื่อเสียง แพลตฟอร์มนี้นำเสนอวิธีการต่างๆ มากมายในการเปรียบเทียบโมเดลที่โดดเด่นเหล่านี้ ซึ่งจะอธิบายรายละเอียดในภายหลัง

Chatbot Arena คืออะไร?

Chatbot Arena พัฒนาโดยองค์กร LMSYS ทำหน้าที่เป็นแพลตฟอร์มสำหรับประเมินโมเดลภาษาขนาดใหญ่ (LLM) หลายภาษา การจัดอันดับโมเดลเหล่านี้ใช้ระบบการให้คะแนน Elo ซึ่งกำหนดคะแนนตามประสิทธิภาพในการจับคู่แบบตัวต่อตัวกับโมเดลอื่นๆ ที่เข้าร่วม

Chatbot Arena นำเสนอผู้ใช้ด้วยวิธีการที่หลากหลายในการประเมินและให้คะแนนโมเดลภาษาขนาดใหญ่ (LLM) Chatbot Arena จะรวบรวมการจัดอันดับของ LLM ต่างๆ บนกระดานผู้นำสาธารณะผ่านการส่งข้อเสนอแนะของผู้ใช้ โครงการริเริ่มนี้ได้รับการสนับสนุนอย่างล้นหลามจาก HuggingFace ซึ่งเป็นตัวเลือกโอเพ่นซอร์สชั้นนำแทนที่ ChatGPT

วิธีเปรียบเทียบ LLM ที่ไม่เปิดเผยตัวตนกับ Chatbot Arena

/th/images/chatbot-arena-battle-screenshot.jpg

ในโหมดการต่อสู้ของ Chatbot Arena ผู้ใช้สามารถประเมินโมเดลภาษาขนาดใหญ่โดยไม่ระบุชื่อ โดยการเปรียบเทียบโมเดลเหล่านี้ตั้งแต่สองโมเดลขึ้นไปต่อกัน ตัวอย่างเช่น เราอาจเปรียบเทียบ ChatGPT ซึ่งใช้ GPT-3.5 กับอีกรุ่นหนึ่งที่เรียกว่า Claude ระบบจะเลือกคู่ของแบบจำลองภาษาโดยอัตโนมัติเพื่อวัตถุประสงค์ในการเปรียบเทียบ ในขณะที่ยังคงรักษาความเป็นนิรนามไว้โดยไม่เปิดเผยตัวตนเฉพาะของพวกเขา

เมื่อป้อนคำถามเริ่มต้น Chatbot Arena จะดึงคำตอบจากระบบปัญญาประดิษฐ์ทั้งสองระบบ โดยวางตำแหน่งให้เป็นแบบคู่ขนาน แพลตฟอร์มที่เป็นนวัตกรรมใหม่นี้ให้ความยืดหยุ่นแก่คุณในการทำซ้ำการตอบกลับสำหรับโมเดลภาษาใดภาษาหนึ่ง และกำจัดการสนทนาก่อนหน้าเพื่อเริ่มบทสนทนาอื่น นอกจากนี้ คุณยังอาจตั้งคำถามต่อไปจนกว่าจะระบุผู้ชนะที่ชัดเจน

เมื่อทำการเลือกระหว่างแชทบอทที่แข่งขันกันสองตัวใน Chatbot Arena ความสามารถของคนในการพิจารณาว่าบอทตัวไหนทำงานได้ดีกว่านั้นยังคงไม่ได้รับผลกระทบจากความคิดเห็นที่มีอุปาทานก่อนหน้านี้หรือความคิดเห็นสาธารณะในปัจจุบันเกี่ยวกับโมเดลเหล่านี้ นอกจากนี้ แพลตฟอร์มนี้ยังมีตัวเลือกการปรับแต่ง เช่น การเปลี่ยนแปลงการตั้งค่าอุณหภูมิ การกำหนดวลีที่ปรากฏบ่อยที่สุด และการระบุจำนวนโทเค็นสูงสุดที่สามารถสร้างได้ในระหว่างการตอบกลับแต่ละครั้ง

วิธีเปรียบเทียบ LLM ที่เลือกกับ Chatbot Arena

/th/images/chatbot-arena-side-by-side-screenshot.jpg

เพื่อเปรียบเทียบประสิทธิภาพของโมเดลภาษาขนาดใหญ่สองโมเดล เราสามารถใช้ฟีเจอร์การเปรียบเทียบแบบเคียงข้างกันภายใน Chatbot Arena โหมดนี้อนุญาตให้ผู้ใช้เลือก LLM ที่ต้องการได้ กระบวนการนี้ส่วนใหญ่คล้ายกับโหมดการต่อสู้ ทำให้ผู้ใช้สามารถแก้ไขการตั้งค่า ย้ำคำตอบ ลบการโต้ตอบในอดีต และตัดสินผู้ชนะในท้ายที่สุด

แม้ว่าความหลากหลายของ Language Model Availability Model (LLM) ที่สามารถเข้าถึงได้ในการตั้งค่าเฉพาะนี้ค่อนข้างจำกัด แต่ผู้ใช้ก็มีตัวเลือกให้เลือกจาก Llama 2, Vicuna และ ChatGLM ซ้ำหลายครั้ง น่าเสียดายที่ในปัจจุบัน LLM ที่เป็นที่ต้องการอย่างมาก เช่น GPT-4, GPT-3.5, Claude 1 และ Claude 2 ไม่ได้ถูกนำเสนอภายในบริบทนี้ อย่างไรก็ตาม Chatbot Arena มีเป้าหมายที่จะรวมโมเดลเหล่านี้เข้าด้วยกันในอนาคต

เปรียบเทียบ LLM โดยใช้ Chatbot Arena

Chatbot Arena นำเสนอโอกาสที่ดีเยี่ยมสำหรับบุคคลที่ต้องการระบุและประเมินแชทบอทที่เหมาะสมซึ่งปรับให้เหมาะกับความต้องการเฉพาะของตน รวมถึงผู้ที่สนใจสำรวจโมเดลภาษาขนาดใหญ่ต่างๆ ผ่านการทดสอบ

แพลตฟอร์มดังกล่าวนำเสนอวิธีการที่มีประสิทธิภาพในการเปรียบเทียบโมเดลทางภาษาหลายๆ แบบพร้อมกัน นอกจากนี้ ด้วยการรักษาระบบการจัดอันดับโดยขึ้นอยู่กับข้อมูลของผู้ใช้ เราอาจอ่านสถานะของโมเดลที่หลากหลายได้ทันที โดยไม่ต้องทำการประเมินเป็นการส่วนตัว