6 โมเดลภาษาขนาดใหญ่ที่ดีที่สุดในปี 2023

Maya Patel included in Technology Explained Artificial Intelligence Chatgpt Machine Learning

2023-10-30 551 words 3 minutes

Contents

ประเด็นที่สำคัญ

การทำซ้ำ GPT-4 ของ OpenAI ในปัจจุบันมีความสามารถที่น่าประทับใจมากมาย รวมถึงพารามิเตอร์จำนวน 1.76 ล้านล้านพารามิเตอร์ ทำให้เป็นหนึ่งในโมเดลภาษาขนาดใหญ่ที่ใหญ่ที่สุดและทันสมัยที่สุดที่มีอยู่ในปัจจุบัน นอกจากนี้ ความสามารถหลายรูปแบบยังทำให้มีการใช้งานที่หลากหลายมากขึ้นในสื่อต่างๆ

Claude 2 ของ Anthropic แสดงให้เห็นถึงความสามารถที่น่าประทับใจในการเขียนเชิงสร้างสรรค์ โดยมีประสิทธิภาพเทียบเท่ากับ GPT-4 แม้ว่าจะมีทรัพยากรที่จำกัดเมื่อเทียบกับคู่แข่งก็ตาม

แม้ว่าโมเดลภาษาล่าสุดของ Google หรือที่รู้จักในชื่อ PaLM 2 อาจไม่สามารถวัดความสามารถของ GPT-4 ได้นัก แต่ก็ยังคงเป็นพลังที่น่าเกรงขามในขอบเขตของภาษาศาสตร์ โดยมีความสามารถที่น่าประทับใจในหลายภาษา และแสดงให้เห็นถึงความเฉลียวฉลาดในผลงาน ในขณะเดียวกัน Falcon-180B ซึ่งเป็นทางเลือกแบบโอเพ่นซอร์ส ได้แสดงให้เห็นถึงความสามารถที่โดดเด่นเทียบเท่ากับผู้นำในอุตสาหกรรมบางราย แม้กระทั่งการเสี่ยงภัยเข้าไปในดินแดนที่ก่อนหน้านี้ถูกครอบงำโดย GPT-3

สภาพภูมิอากาศในปัจจุบันมีลักษณะเฉพาะด้วยเทคโนโลยีปัญญาประดิษฐ์ที่มีอยู่มากมาย โดยมีบริษัทหลายแห่งที่ผลิตแบบจำลองภาษาขั้นสูงในอัตราที่รวดเร็ว การแพร่กระจายของระบบใหม่เหล่านี้ส่งผลให้เกิดสถานการณ์ที่ท้าทายมากขึ้นสำหรับบุคคลในการรักษาความตระหนักรู้ที่ครอบคลุมเกี่ยวกับทางเลือกที่มีอยู่ทั้งหมด

เมื่อใกล้ถึงสิ้นปี เห็นได้ชัดว่ามีโมเดลเพียงไม่กี่รุ่นเท่านั้นที่มีความโดดเด่นท่ามกลางโมเดลภาษาที่ออกใหม่จำนวนมาก โมเดลที่โดดเด่นเหล่านี้ได้แสดงให้เห็นถึงความกล้าหาญในการแข่งขันของโมเดลที่ใช้ภาษาขนาดใหญ่ ด้วยเหตุนี้ ฉันจึงนำเสนอโมเดลภาษาขนาดใหญ่ที่โดดเด่นที่สุดหกโมเดลที่ควรค่าแก่การสำรวจ

GPT-4 ของ OpenAI

GPT-4 แสดงถึงความก้าวหน้าที่สำคัญในด้านปัญญาประดิษฐ์ เนื่องจากถือเป็นตัวอย่างล่าสุดของโมเดลภาษาขนาดใหญ่ที่ประชาชนทั่วไปสามารถเข้าถึงได้ ระบบที่ก้าวล้ำนี้ได้รับการพัฒนาร่วมกันโดย OpenAI และเปิดตัวในช่วงเดือนมีนาคมของปี 2023 GPT-4 ถือเป็นส่วนสำคัญของซีรีส์ Generative Pre-trained Transformer ที่กำลังดำเนินอยู่ โดยมีความสามารถพิเศษซึ่งทำให้ระบบนี้เป็นหนึ่งในระบบที่แพร่หลายที่สุด และเป็นที่ต้องการอย่างสูงสำหรับโมเดลภาษาขนาดใหญ่ทั่วโลก

คาดการณ์ว่า GPT-4 จะมีพารามิเตอร์ประมาณ 1.76 ล้านล้านพารามิเตอร์ ซึ่งมากกว่าจำนวนที่มีอยู่ในรุ่นก่อนอย่าง GPT-3.5 หรือแม้แต่ใน PaLM ซึ่งเป็นโมเดลขั้นสูงของ Google อย่างมาก ขนาดที่ใหญ่โตของจำนวนพารามิเตอร์เหล่านี้ทำให้ GPT-4 มีความสามารถที่หลากหลาย ซึ่งขยายออกไปมากกว่าแค่การประมวลผลข้อความ ทำให้สามารถจัดการทั้งอินพุตรูปภาพและข้อความได้พร้อมกัน ด้วยเหตุนี้ คุณลักษณะนี้จึงทำให้ GPT-4 สามารถเข้าใจและนำเสนอเนื้อหาที่เป็นภาพ เช่น ไดอะแกรมและภาพหน้าจอควบคู่ไปกับเนื้อหาที่เป็นลายลักษณ์อักษร การรวมวิธีการต่างๆ เข้าด้วยกันช่วยเพิ่มความสามารถของระบบในการทำความเข้าใจสถานการณ์ในชีวิตจริงในลักษณะที่ชวนให้นึกถึงความรู้ความเข้าใจของมนุษย์

ในการประเมินเชิงประจักษ์หลายครั้ง GPT-4 ได้แสดงให้เห็นถึงความเหนือกว่าอย่างโดดเด่นเหนือคู่แข่งในการประเมินหลายๆ ครั้ง อย่างไรก็ตาม ควรสังเกตว่าแม้ว่าเกณฑ์มาตรฐานเหล่านี้จะให้ข้อมูลเชิงลึกที่มีคุณค่าเกี่ยวกับความสามารถของแบบจำลอง แต่ก็ไม่ได้ให้การนำเสนอจุดแข็งโดยรวมอย่างครอบคลุม อย่างไรก็ตาม มีการสังเกตว่า GPT-4 มีความสามารถพิเศษในการแก้ไขปัญหาในทางปฏิบัติด้วยสัญชาตญาณในระดับสูงเมื่อนำไปใช้กับสถานการณ์จริง ปัจจุบัน GPT-4 มีราคาอยู่ที่ 20 ดอลลาร์ต่อเดือน และสามารถเข้าถึงได้โดยเป็นส่วนหนึ่งของตัวเลือกการสมัครสมาชิก Plus ของ ChatGPT

Claude 2 ของมานุษยวิทยา

เครดิตรูปภาพ: มานุษยวิทยา

Claude 2 ซึ่งเป็นโมเดลภาษา AI ที่สร้างขึ้นโดย Anthropic AI มีความสามารถในการจับคู่ความเชี่ยวชาญทางเทคนิคและประสิทธิภาพในโลกแห่งความเป็นจริงของ GPT-4 ในหลายโดเมน ในความเป็นจริง ในการประเมินมาตรฐานบางอย่าง เช่น การสอบคัดเลือก Claude 2 แสดงให้เห็นว่าเหนือกว่า GPT-4 นอกจากนี้ ข้อได้เปรียบที่โดดเด่นประการหนึ่งที่ Claude 2 ยึดถือเหนือคู่แข่งคือหน้าต่างบริบทที่กว้างขวางซึ่งมีโทเค็นประมาณ 100,000 รายการ ซึ่งเกินกว่าความจุโทเค็น 8k และ 32k ของรุ่น GPT-4 อย่างมาก แม้ว่าเป็นสิ่งสำคัญที่จะต้องทราบว่าหน้าต่างบริบทที่ใหญ่ขึ้นไม่จำเป็นต้องรับประกันประสิทธิภาพที่ดีขึ้น แต่ความจุที่เพิ่มขึ้นโดย Claude 2 ให้ประโยชน์ที่แตกต่างกันอย่างไม่ต้องสงสัย เช่น ความสามารถในการวิเคราะห์ทั้งหมด

GPT-4 ยังคงแสดงให้เห็นถึงประสิทธิภาพที่โดดเด่นในโดเมนต่างๆ ในขณะที่การประเมินภายในของเราระบุว่า Claude 2 เหนือกว่า GPT-4 ในงานเขียนเชิงสร้างสรรค์บางงาน อย่างไรก็ตาม GPT-4 ยังคงรักษาความได้เปรียบเหนือ Claude 2 ในด้านการเขียนโปรแกรมและความสามารถทางคณิตศาสตร์ตามการประเมินของเรา อย่างไรก็ตาม Claude 2 ให้การตอบสนองที่ชัดเจนและมีจินตนาการสูงอย่างต่อเนื่อง ซึ่งได้รับการเลือกให้เป็นผลลัพธ์ที่ต้องการ 6 จากทุกๆ 10 อินสแตนซ์เมื่อกระตุ้นให้โมเดล AI หลายตัวทำงานเชิงสร้างสรรค์ ปัจจุบัน ผู้ใช้สามารถโต้ตอบกับ Claude 2 ผ่านแชทบอท Claude AI ที่เข้าถึงได้ฟรี หรือเลือกใช้เวอร์ชันพรีเมียมราคา 20 ดอลลาร์สหรัฐฯ เพื่อขยายขีดความสามารถ

โมเดล Claude 2 AI ของ Anthropic แสดงให้เห็นถึงประสิทธิภาพในระดับที่น่าทึ่ง แม้ว่าจะมีทรัพยากรทางการเงินน้อยกว่าเมื่อเปรียบเทียบกับผู้นำในอุตสาหกรรม เช่น OpenAI และ Microsoft ในความเป็นจริง เมื่อต้องแข่งขันกับโมเดล AI ยอดนิยม เช่น GPT และซีรีส์ PaLM ของ Google Claude 2 ก็ยึดถือจุดยืนได้อย่างน่าชื่นชม เห็นได้ชัดว่าสำหรับ AI ที่มีทรัพยากรจำกัด Claude 2 แสดงให้เห็นถึงความสามารถในการแข่งขันที่น่ายกย่อง หากใครก็ตามคาดเดาว่าโมเดล AI ปัจจุบันใดมีศักยภาพสูงสุดในการท้าทาย GPT ในอนาคตอันใกล้ Claude 2 ดูเหมือนจะเป็นตัวเลือกที่มีแนวโน้มมากที่สุด แม้ว่า Anthropic อาจขาดเงินทุนในระดับเดียวกับคู่แข่งบางราย แต่ความสามารถที่ล้ำหน้าของ Claude 2 แสดงให้เห็นว่าสามารถแข่งขันได้จริง

GPT-3.5 ของ OpenAI

เครดิตรูปภาพ: Marcelo Mollaretti/Shutterstock

GPT-3.5 แม้ว่าจะถูกบดบังด้วยการเปิดตัว GPT-4 ในเวลาต่อมา แต่ก็จะต้องไม่ถูกประเมินค่าต่ำเกินไป เนื่องจากมีขนาดที่เพียงพอที่ 175 พันล้านพารามิเตอร์ ด้วยการปรับปรุงอย่างต่อเนื่องผ่านการปรับแต่งแบบละเอียดซ้ำๆ และการเพิ่มประสิทธิภาพที่มีศูนย์กลางอยู่ที่ประสิทธิภาพ ความแม่นยำ และความปลอดภัย GPT-3.5 ได้ก้าวหน้าไปอย่างมากนับตั้งแต่เกิดเป็น GPT-3 ในช่วงแรก แม้ว่าจะน้อยกว่า GPT-4 ในแง่ของความเชี่ยวชาญหลายรูปแบบและความสามารถโดยรวม โดยเฉพาะอย่างยิ่งเมื่อพิจารณาช่วงบริบทและความจุของพารามิเตอร์ GPT-3.5 ยังคงแสดงให้เห็นถึงความสามารถที่โดดเด่น อย่างไรก็ตาม GPT-4 ในปัจจุบันเป็นคู่แข่งเพียงรายเดียวที่สามารถทำได้เหนือกว่า GPT-3.5 อย่างเห็นได้ชัดในทุกด้าน

เนื่องจากเป็นโมเดลย่อยในซีรีส์ GPToken GPT-3.5 จึงแสดงให้เห็นถึงความสามารถที่น่าประทับใจในการเทียบเคียงระบบ AI ชั้นนำ เช่น ที่ให้บริการโดย Google และ Meta การเปรียบเทียบที่ดำเนินการร่วมกับ PaLM 2 จาก Google แสดงให้เห็นว่าแม้ว่าจะไม่มีส่วนต่างที่สำคัญระหว่างกันในแง่ของความสามารถทางคณิตศาสตร์และการเขียนโค้ด GPT-3.5 ก็แสดงข้อได้เปรียบเล็กน้อยในบางกรณี นอกจากนี้ เมื่อประเมินความคิดสร้างสรรค์ผ่านมาตรการต่างๆ เช่น ไหวพริบและการจัดองค์ประกอบเรื่องราว GPT-3.5 ยังแสดงความเหนือกว่าคู่แข่งอย่างชัดเจน

แท้จริงแล้ว การเปิดตัว GPT-4 แสดงให้เห็นถึงความก้าวหน้าครั้งสำคัญในด้านความสามารถด้านปัญญาประดิษฐ์ อย่างไรก็ตาม แม้ว่า GPT-3.5 จะเข้ามาแทนที่โดยผู้สืบทอด GPT-3.5 ยังคงมีศักยภาพที่น่าเกรงขาม ซึ่งมักจะมีประสิทธิภาพเหนือกว่าทางเลือกที่ล้ำสมัย นอกจากนี้ การปรับแต่งอย่างละเอียดอย่างต่อเนื่องยังคงรักษาความเกี่ยวข้องท่ามกลางเทคโนโลยีเกิดใหม่ที่น่าสนใจยิ่งขึ้น

Palm 2 ของ Google

เครดิตรูปภาพ: Google

เมื่อประเมินความสามารถของโมเดลปัญญาประดิษฐ์ เป็นเรื่องปกติที่จะอ่านรายงานทางเทคนิคและตรวจสอบคะแนนเกณฑ์มาตรฐาน แต่เราต้องเข้าใกล้การค้นพบเหล่านี้ด้วยความสงสัยและทำการทดสอบส่วนตัว ตรงกันข้ามกับสัญชาตญาณ ผลลัพธ์จากการทดสอบเกณฑ์มาตรฐานไม่ได้สะท้อนประสิทธิภาพจริงของโมเดล AI บางรุ่นอย่างสม่ำเสมอ ตัวอย่างเช่น ตามข้อกำหนดทางเทคนิค PaLM 2 ของ Google คาดว่าจะเหนือกว่า GPT-4 ในเกณฑ์มาตรฐานต่างๆ อย่างไรก็ตาม เมื่อนำไปปฏิบัติจริง สถานการณ์ที่ไม่เหมือนกันก็เกิดขึ้น

PaLM 2 ซึ่งพัฒนาโดย Google ได้รับการประเมินเทียบกับโมเดลภาษาขั้นสูงอื่นๆ เช่น GPT-It และ Claude ของ Anthropic ในแง่ของความสามารถในการทำหน้าที่ด้านการรับรู้ที่หลากหลาย รวมถึงการใช้เหตุผลทางคณิตศาสตร์ การคิดเชิงตรรกะ และการเขียนเชิงสร้างสรรค์ แม้ว่าจะแสดงให้เห็นถึงจุดแข็งที่สำคัญในด้านเหล่านี้ แต่ก็ยังตามหลังคู่แข่งบางรายเมื่อเปรียบเทียบแบบเทียบเคียงกัน อย่างไรก็ตาม ถึงแม้จะไม่เป็นไปตามความคาดหวังทั้งหมดในการเป็นผู้สืบทอดโดยตรงของ GPT-3 แต่ PaLM 2 ก็ยังถือเป็นผู้เล่นที่น่าเกรงขามในสนามนี้ เนื่องจากความสามารถที่น่าประทับใจซึ่งเหนือกว่าระบบ AI อื่น ๆ อีกมากมาย

PaLM 2 มีพารามิเตอร์จำนวนมากมาย โดยมีมากกว่า 340 พันล้านรายการ ทำให้เป็นหนึ่งในรุ่นที่ครอบคลุมมากที่สุดที่มีอยู่ แบบจำลองนี้แสดงให้เห็นถึงความสามารถพิเศษในงานหลายภาษา และแสดงความสามารถทางคณิตศาสตร์และการคำนวณที่น่าเกรงขาม แม้ว่าจะไม่ได้ไม่มีใครเทียบได้ในทุกๆ ด้าน แต่ PaLM 2 ยังคงมีความสามารถสูงในด้านความพยายามสร้างสรรค์ เช่น การเขียน แม้จะมีคำมั่นสัญญาเบื้องต้นที่แนะนำโดยการวัดประสิทธิภาพ แต่การตระหนักรู้อย่างเต็มรูปแบบนั้นไม่ได้เกิดขึ้นอย่างเท่าเทียมกันในทุกโดเมน แต่ PaLM 2 ยังคงแสดงให้เห็นถึงความสามารถด้านปัญญาประดิษฐ์ที่น่าสังเกต แม้ว่าจะยังไม่มีประสิทธิภาพเหนือกว่าคู่แข่งทั้งหมดในระดับสากลก็ตาม

Falcon-180B ของ TII

Falcon-180B ซึ่งเป็นผลิตภัณฑ์ของสถาบันนวัตกรรมเทคโนโลยีของสหรัฐอาหรับเอมิเรตส์ อาจไม่ได้มีความคุ้นเคยในระดับเดียวกับโมเดลภาษา AI อื่นๆ เช่น GPT หรือความนิยมของ Meta’s Llama อย่างไรก็ตาม พารามิเตอร์ที่น่าประทับใจถึง 180 พันล้านพารามิเตอร์ทำให้เป็นหนึ่งในกลุ่มหัวกะทิและสามารถแข่งขันกับนักแสดงชั้นนำในสนามได้

ประสิทธิภาพของ Falcon-180B ได้รับการพิสูจน์แล้วว่าเหนือกว่ารุ่นโอเพ่นซอร์สหลายรุ่น และเหนือกว่าโซลูชันเชิงพาณิชย์ชั้นนำ เช่น PaLM 2 และ GPT-3 ในการทดสอบต่างๆ รวมถึงการแก้ปัญหาทางคณิตศาสตร์ การเขียนโปรแกรม การใช้เหตุผลเชิงตรรกะ และการเขียนเชิงสร้างสรรค์ Falcon-180B ยังทำได้ดีกว่า GPT-3.5 ในบางครั้งอีกด้วย เมื่อพิจารณาถึงการวางตำแหน่ง GPT-4, GPT-3.5 และ Falcon-180B เห็นได้ชัดว่า Falcon-180B ควรวางตำแหน่งระหว่างทั้งสองรุ่นนี้ เนื่องมาจากความสามารถที่โดดเด่นในการใช้งานที่หลากหลาย

แม้ว่ามันอาจจะไม่ได้เหนือกว่า GPT-3.5 ในทุกด้าน แต่ Falcon-180B ก็นำเสนอข้อโต้แย้งที่น่าสนใจด้วยความสามารถในการจับคู่และยังเหนือกว่าความสามารถของทางเลือกที่โดดเด่นกว่าอีกด้วย แม้จะเป็นที่รู้จักน้อย แต่โมเดลนี้ก็สมควรได้รับการพิจารณาและเปิดให้ใช้งานผ่านแพลตฟอร์ม LLM โอเพ่นซอร์ส Hugging Face

ลามะ 2 ของ Meta AI

Llama 2 เป็นความก้าวหน้าที่น่าทึ่งของโมเดลภาษาที่กว้างขวางของ Meta AI พร้อมด้วยพารามิเตอร์ที่น่าประทับใจถึง 7 หมื่นล้านพารามิเตอร์ แม้ว่าจะมีทรัพยากรน้อยกว่าเมื่อเทียบกับผู้นำในอุตสาหกรรมอื่นๆ แต่ก็แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าอย่างน่าทึ่งทั้งในการทดสอบเกณฑ์มาตรฐานและการใช้งานจริง ซึ่งเหนือกว่า LLM แบบโอเพ่นซอร์สที่เข้าถึงได้อย่างกว้างขวางจำนวนมาก อย่างไรก็ตาม มีข้อยกเว้นเช่น Falcon-180B ซึ่งอาจทำงานได้ดีกว่าในบางสถานการณ์

เพื่อประเมินประสิทธิภาพของ Llama 2 เทียบกับโมเดลล้ำสมัยอื่นๆ เราได้ทำการทดลองโดยเปรียบเทียบกับ GPT-4, GPT-3.5, Claude 2 และ PaLM 2 โดยเฉพาะอย่างยิ่ง GPT-4 แสดงให้เห็นถึงความเหนือกว่า ลามะ 2 ในเกือบทุกการประเมิน อย่างไรก็ตาม Llama 2 แสดงผลการแข่งขันเมื่อเปรียบเทียบกับทั้ง GPT-3.5 และ PaLM 2 ในการวัดประสิทธิภาพบางอย่าง ไม่ควรบอกเป็นนัยว่า Llama 2 เหนือกว่า PaLM 2 อย่างสิ้นเชิง อย่างไรก็ตาม Llama 2 มีประสิทธิภาพเหนือกว่า PaLM 2 ในการแก้ปัญหาที่ท้าทายต่างๆ เช่น งานเขียนโค้ด ในทางตรงกันข้าม Claude 2 และ GPT-3.5 เกินเล็กน้อย

Llama 2 แม้จะไม่ได้เหนือกว่าความสามารถของโมเดลที่เป็นกรรมสิทธิ์ขั้นสูงสุด แต่ก็แสดงประสิทธิภาพที่โดดเด่นสำหรับโมเดลภาษาโอเพ่นซอร์ส ในความเป็นจริง การประเมินบางอย่างสามารถแข่งขันกับผู้นำอุตสาหกรรม เช่น PaLM 2 ได้ ซึ่งถือเป็นการแสดงตัวอย่างที่ดีว่าโมเดลภาษาโอเพ่นซอร์สใดบ้างที่สามารถทำได้ในอนาคต

ช่องว่างด้านประสิทธิภาพระหว่างโมเดล AI กำลังแคบลง

แม้จะมีความก้าวหน้าอย่างรวดเร็วในด้านปัญญาประดิษฐ์ แต่ GPT-4 ของ OpenAI ยังคงเป็นผู้นำทั้งในด้านขนาดและประสิทธิภาพ แม้ว่าจะไม่มีรุ่นอื่นใดที่สามารถเทียบเคียงความสามารถของ GPT-4 ได้ แต่ก็น่าสังเกตว่ารุ่นเล็กบางรุ่นได้แสดงให้เห็นถึงทักษะที่ยอดเยี่ยมในโดเมนเฉพาะ ตัวอย่างเช่น Claude 2 เป็นโมเดลหนึ่งที่แสดงให้เห็นถึงความเก่งกาจในบางพื้นที่ นอกจากนี้ แม้ว่า PaLM 2 ของ Google อาจไม่เป็นไปตามความคาดหวังที่สูงนัก แต่ก็ยังมีความสามารถอยู่มาก สุดท้ายนี้ โครงการโอเพ่นซอร์ส Falcon-180B ทำหน้าที่เป็นตัวอย่างที่ดีเยี่ยมว่าความคิดริเริ่มที่มีทรัพยากรเพียงพอสามารถทัดเทียมกับผู้เล่นชั้นนำในอุตสาหกรรมได้อย่างไร