6 โมเดลภาษาขนาดใหญ่ที่ดีที่สุดในปี 2023

Maya Patel included in Technology Explained Artificial Intelligence Chatgpt Machine Learning

2023-10-30 485 words 3 minutes

Contents

ประเด็นที่สำคัญ

แท้จริงแล้ว GPT-4 ของ OpenAI ได้รับการยกย่องว่าเป็นแบบจำลองทางภาษาขนาดใหญ่ที่ล้ำสมัยและมีการใช้งานอย่างแพร่หลาย โดยมีจำนวนพารามิเตอร์ที่น่าประทับใจถึง 1.76 ล้านล้าน ในขณะเดียวกันก็มีความสามารถหลากหลายหลายรูปแบบ

Claude 2 จาก Anthropic แสดงให้เห็นถึงความสามารถที่น่าประทับใจในการเขียนเชิงสร้างสรรค์ ซึ่งถือเป็นความท้าทายที่น่าเกรงขามสำหรับ GPT-4 แม้ว่าจะดำเนินการโดยใช้ทรัพยากรที่จำกัดเมื่อเทียบกับคู่แข่งก็ตาม

แม้ว่า PaLM 2 ของ Google อาจไม่ล้ำหน้าเท่ากับ GPT-4 แต่ก็ยังคงเป็นโมเดลทางภาษาที่มีศักยภาพซึ่งมีความสามารถข้ามภาษาที่แข็งแกร่งและความกล้าหาญในจินตนาการ ในทางตรงกันข้าม Falcon-180B ซึ่งมีจำหน่ายในรูปแบบโอเพ่นซอร์ส แสดงให้เห็นประสิทธิภาพที่ทัดเทียมกับบริษัทยักษ์ใหญ่ในเชิงพาณิชย์ เช่น GPT-3

การแพร่กระจายของปัญญาประดิษฐ์ในปัจจุบันได้นำไปสู่แบบจำลองภาษาขนาดใหญ่จำนวนมากที่ผลิตโดยบริษัทเทคโนโลยีอย่างรวดเร็ว การเผยแพร่เนื้อหาใหม่จำนวนมากถือเป็นเรื่องท้าทายสำหรับบุคคลในการติดตามและรักษาความตระหนักรู้อย่างครอบคลุม

เมื่อใกล้ถึงสิ้นปี เห็นได้ชัดว่ามีเพียงไม่กี่รุ่นจากโมเดลที่เพิ่งเปิดตัวจำนวนมากเท่านั้นที่มีความโดดเด่นในฐานะคู่แข่งที่น่าเกรงขามในขอบเขตที่กว้างขวางของโมเดลภาษาขนาดใหญ่ ด้วยเหตุนี้ ฉันจึงนำเสนอตัวอย่างที่พิเศษที่สุดหกตัวอย่างสำหรับรุ่นดังกล่าวซึ่งคุ้มค่าแก่การสำรวจอย่างไม่ต้องสงสัย

GPT-4 ของ OpenAI

GPT-4 แสดงถึงความก้าวหน้าที่สำคัญในด้านปัญญาประดิษฐ์ที่เกี่ยวข้องกับการประมวลผลภาษาธรรมชาติ ในฐานะส่วนเสริมล่าสุดของกลุ่มผลิตภัณฑ์ Transformer ที่ได้รับการฝึกอบรมล่วงหน้า Generative ที่ได้รับการยกย่อง เทคโนโลยีล้ำสมัยนี้ได้รับการพัฒนาโดย OpenAI และเปิดตัวในเดือนมีนาคมปี 2023 นับตั้งแต่เปิดตัว GPT-4 ได้รับการยอมรับอย่างกว้างขวางในด้านประสิทธิภาพที่โดดเด่น โดยวางตำแหน่งตัวเองเป็น หนึ่งในโมเดลภาษาขนาดใหญ่ที่แพร่หลายและได้รับการยกย่องอย่างสูงในปัจจุบันที่มีให้บริการแก่ประชาชนทั่วไป

มีข่าวลือว่า GPT-4 มีพารามิเตอร์ที่น่าประทับใจถึง 1.76 ล้านล้านพารามิเตอร์ ซึ่งมากกว่า GPT-3.5 ประมาณสิบเท่า และยังเหนือกว่าความสามารถของ PaLM โมเดลที่ล้ำสมัยของ Google อีกด้วย พารามิเตอร์จำนวนมหาศาลช่วยให้ GPT-4 มีความสามารถหลายรูปแบบเป็นพิเศษ ทำให้สามารถจัดการอินพุตทั้งข้อความและกราฟิกได้อย่างง่ายดาย ด้วยเหตุนี้ ความสามารถขั้นสูงนี้จึงเอื้ออำนวยต่อความสามารถของ GPT-4 ในการทำความเข้าใจและให้คำอธิบายสำหรับเนื้อหาที่เป็นภาพ เช่น ไดอะแกรมและภาพหน้าจอ ควบคู่ไปกับข้อความ ด้วยการมีความเชี่ยวชาญหลายรูปแบบนี้ GPT-4 จึงแสดงระดับความเข้าใจที่ใกล้เคียงกับการรับรู้ของมนุษย์เกี่ยวกับข้อมูลในโลกแห่งความเป็นจริงที่ซับซ้อน

เมื่อเปรียบเทียบกับผลิตภัณฑ์รุ่นเดียวกัน GPT-4 ได้แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าในการประเมินทางวิทยาศาสตร์จำนวนมาก แม้ว่าผลการวัดประสิทธิภาพไม่ได้ให้การแสดงความสามารถของโมเดลอย่างครอบคลุม แต่การใช้งานจริงพบว่า GPT-4 มีความสามารถพิเศษในการแก้ไขปัญหาที่ซับซ้อนได้อย่างง่ายดาย ราคาปัจจุบันอยู่ที่ $20 ต่อเดือน คุณสามารถเข้าถึง GPT-4 ได้โดยสมัครแผน Plus ของ ChatGPT

Claude 2 ของมานุษยวิทยา

เครดิตรูปภาพ: มานุษยวิทยา

Claude 2 ซึ่งเป็นโมเดลภาษา AI ที่สร้างขึ้นโดย Anthropic AI มีความสามารถในการบรรลุความเชี่ยวชาญทางเทคนิคและผลลัพธ์เชิงปฏิบัติที่คล้ายคลึงกันกับ GPT-4 แม้ว่าจะมีความโดดเด่นน้อยกว่าก็ตาม ในการประเมินที่เป็นมาตรฐานบางอย่าง เช่น สถานการณ์การทดสอบเฉพาะ Claude 2 ได้แสดงให้เห็นถึงความเหนือกว่า GPT-4 ความแตกต่างที่โดดเด่นประการหนึ่งระหว่างทั้งสองคือ Claude 2 มีขอบเขตบริบทที่กว้างขวางกว่าอย่างมากที่ประมาณ 100,000 โทเค็น ในขณะที่รุ่นที่เทียบเคียงของ GPT-4 นั้นจำกัดอยู่ที่ 8,000 หรือ 32,000 โทเค็น แม้ว่าจะไม่เป็นความจริงในระดับสากลที่บริบทที่เพิ่มขึ้นนำไปสู่ประสิทธิภาพที่ดีขึ้น แต่ความสามารถที่กว้างขึ้นของ Claude 2 ก็ให้ประโยชน์ที่จับต้องไม่ได้อย่างปฏิเสธไม่ได้

แม้ว่า GPT-4 จะรักษาความได้เปรียบในด้านประสิทธิภาพโดยทั่วไป แต่การประเมินภายในของเราระบุว่า Claude 2 มีความเหนือกว่าในงานเขียนเชิงสร้างสรรค์บางงาน อย่างไรก็ตาม GPT-4 ยังคงเป็นผู้นำในด้านการเขียนโปรแกรมและความสามารถทางคณิตศาสตร์ตามเกณฑ์การประเมินของเรา อย่างไรก็ตาม Claude 2 มีความโดดเด่นด้วยการสร้างการตอบสนองที่ชวนให้นึกถึงการสื่อสารของมนุษย์อย่างมาก ทำให้เป็นตัวเลือกที่น่าสนใจเมื่อต้องการผลลัพธ์ที่สอดคล้องกันและชัดเจน อันที่จริง ในระหว่างการทดลองใช้งานของเราซึ่งเราขอองค์ประกอบที่สร้างสรรค์จากแต่ละรุ่นที่ระบุไว้ที่นี่ Claude 2 ชื่นชอบหกครั้งจากทุกสิบครั้งเนื่องจากผลลัพธ์ที่ราบรื่นและเหมือนจริง ปัจจุบันผู้ใช้สามารถใช้ประโยชน์จาก Claude 2 ได้ฟรีผ่านแชทบอท Claude AI นอกจากนี้ยังมีการสมัครสมาชิกแบบพรีเมียมราคาอยู่ที่ 20

โมเดล Claude 2 AI ของ Anthropic แสดงให้เห็นถึงประสิทธิภาพที่โดดเด่น แม้ว่าจะมีการสนับสนุนทางการเงินที่จำกัด เมื่อเปรียบเทียบกับผู้นำในอุตสาหกรรม เช่น OpenAI และ Microsoft ในความเป็นจริง เมื่อต้องเผชิญหน้ากับทางเลือกยอดนิยมอย่าง GPT และซีรีส์ PaLM ของ Google Claude 2 ก็ยึดถือจุดยืนได้อย่างน่าชื่นชม เนื่องจากระบบ AI ค่อนข้างมีทรัพยากรไม่เพียงพอ ความสามารถในการแข่งขันของ Claude 2 จึงน่ายกย่องอย่างแท้จริง สำหรับผู้ที่คาดเดาว่าโมเดลปัจจุบันใดมีโอกาสมากที่สุดที่จะแข่งขันกับ GPT ในระยะเวลาอันใกล้นี้ Claude 2 น่าจะเป็นตัวเลือกที่ชาญฉลาด แม้ว่าจะเผชิญกับความไม่เท่าเทียมกันของทรัพยากรอย่างมีนัยสำคัญ แต่คุณสมบัติขั้นสูงของ Claude 2 บ่งชี้ถึงศักยภาพในการเผชิญหน้ากันแบบตัวต่อตัวกับฝ่ายตรงข้ามที่มีการเงินเอื้อเฟื้อ แม้ว่าควรสังเกตว่า Google ได้ให้การสนับสนุนอย่างมากแก่ Anthropic

GPT-3.5 ของ OpenAI

เครดิตรูปภาพ: Marcelo Mollaretti/Shutterstock

แม้จะได้รับความสนใจน้อยกว่า GPT-4 รุ่นต่อ แต่ GPT-3.5 ก็มีชุดความสามารถที่น่าประทับใจด้วยการปรับปรุงอย่างต่อเนื่องผ่านการทำซ้ำของการปรับแต่งอย่างละเอียดและการเพิ่มประสิทธิภาพโดยกำหนดเป้าหมายไปที่ประสิทธิภาพ ความแม่นยำ และความปลอดภัย แม้จะด้อยกว่าเมื่อเปรียบเทียบกับ GPT-4 ในแง่ของการบูรณาการหลายรูปแบบและความจุโดยรวม GPT-3.5 ยังคงแสดงให้เห็นถึงความสามารถที่โดดเด่น อย่างไรก็ตาม เมื่อเปรียบเทียบกับ GPT-4 แล้ว GPT-3.5 ก็แทบจะไม่สามารถเทียบเคียงประสิทธิภาพที่ครอบคลุมที่เหนือกว่าของมันได้

เนื่องจากเป็นเวอร์ชันย่อยภายใน GP

GPT-4 แสดงถึงความก้าวหน้าที่สำคัญในด้านความสามารถด้านปัญญาประดิษฐ์ แต่ GPT-3.5 ยังคงมีพลังที่โดดเด่นและมักจะทำได้ดีกว่าคู่แข่งรายใหม่ ๆ การเพิ่มประสิทธิภาพอย่างต่อเนื่องของโมเดลนี้ยังคงรักษาความเกี่ยวข้องแม้ว่าจะมีรุ่นใหม่เกิดขึ้นก็ตาม

Palm 2 ของ Google

เครดิตรูปภาพ: Google

เมื่อประเมินความสามารถของโมเดลปัญญาประดิษฐ์ วิธีการทั่วไปเกี่ยวข้องกับการอ่านรายงานทางเทคนิคและตรวจสอบคะแนนเกณฑ์มาตรฐาน แม้ว่าจะมีความสงสัยเล็กน้อยก็ตาม จำเป็นอย่างยิ่งที่ต้องทำการทดสอบโดยอิสระเพื่อตรวจสอบข้อกล่าวอ้างที่ทำโดยหน่วยวัดเหล่านี้ เนื่องจากไม่ได้สอดคล้องกับประสิทธิภาพจริงในทุกกรณีเสมอไป ตัวอย่างเช่น Project Magnet (PaLM) 2 ของ Google ได้รับการขนานนามว่าเป็นศัตรูที่น่าเกรงขามต่อ GPT-4 โดยพิจารณาจากความเหนือกว่าที่รายงานในการทดสอบเกณฑ์มาตรฐานบางอย่าง อย่างไรก็ตาม เมื่อนำไปใช้จริง สถานการณ์จะแตกต่างออกไปบ้าง

PaLM 2 ซึ่งพัฒนาโดย Google อาจไม่สามารถวัดได้ถึงระดับประสิทธิภาพที่แสดงโดยโมเดลภาษาขั้นสูงอื่นๆ เช่น GPT-It หรือ Claude ในด้านต่างๆ เช่น การใช้เหตุผลทางคณิตศาสตร์ ตรรกะ และความคิดสร้างสรรค์ อย่างไรก็ตาม แม้จะมีข้อจำกัดนี้ PaLM 2 ยังคงมีความสามารถมากมายภายในขอบเขตของมัน ซึ่งทำให้เกิดความสนใจอย่างมากในหมู่นักวิจัยและนักพัฒนา สิ่งสำคัญคือต้องสังเกตว่าคำวิพากษ์วิจารณ์ส่วนใหญ่ที่มีต่อ PaLM 2 นั้นเกิดจากการเปรียบเทียบระหว่างมันกับรุ่นขั้นสูงมากกว่า แทนที่จะเป็นข้อบกพร่องโดยธรรมชาติในส่วนของตัวมัน

PaLM 2 มีพารามิเตอร์จำนวนมหาศาลถึง 340 พันล้าน ทำให้เป็นหนึ่งในรุ่นที่กว้างขวางที่สุดทั่วโลก จุดแข็งอยู่ที่ประสิทธิภาพที่โดดเด่นในการทำงานหลายภาษา ควบคู่ไปกับความสามารถที่แข็งแกร่งในด้านคณิตศาสตร์และการเขียนโปรแกรม แม้ว่าจะไม่ใช่ประสิทธิภาพสูงสุด แต่ PaLM 2 ก็แสดงความสามารถที่น่ายกย่องในด้านความคิดสร้างสรรค์ เช่น การเขียน แม้ว่าตัวบ่งชี้เชิงบวกเบื้องต้นจากการวัดประสิทธิภาพจะไม่เกิดขึ้นจริงทั้งหมด แต่ PaLM 2 ก็แสดงให้เห็นถึงความถนัดด้าน AI ที่น่าทึ่ง แม้ว่าจะยังไม่มีประสิทธิภาพเหนือกว่าคู่แข่งทุกรายในทุกด้านก็ตาม

Falcon-180B ของ TII

Falcon-180b ซึ่งเป็นผลิตภัณฑ์ของสถาบันนวัตกรรมเทคโนโลยีจากสหรัฐอาหรับเอมิเรตส์ มีพารามิเตอร์ที่น่าประทับใจถึง 180 พันล้านพารามิเตอร์ และถือเป็นโมเดลภาษาโอเพ่นซอร์สที่ทรงพลังที่สุดรุ่นหนึ่งที่มีอยู่ในตลาดปัจจุบัน แม้ว่าจะไม่มีชื่อเสียงเมื่อเทียบกับรุ่นยอดนิยมเช่น GPT หรือการใช้งาน Meta’s Llama อย่างกว้างขวาง แต่ความสามารถของ Falcon-180B ก็น่าเกรงขามอย่างปฏิเสธไม่ได้ และสามารถแข่งขันกับคู่แข่งรายอื่นในประเภทเดียวกันได้อย่างมั่นใจ

ประสิทธิภาพของ Falcon-180B ได้รับการพิสูจน์แล้วว่าเหนือกว่าโมเดลโอเพ่นซอร์สหลายๆ รุ่น และแข่งขันกับผู้นำในอุตสาหกรรม เช่น PaLM 2 และ GPT-3 ในการทดสอบที่หลากหลาย รวมถึงคณิตศาสตร์ การเขียนโปรแกรม การแก้ปัญหา และการเขียนเชิงสร้างสรรค์ ในบางกรณี มันสามารถจัดการได้เหนือกว่า GPT-3.5 อีกด้วย เมื่อเปรียบเทียบระบบ AI ทั้งสามระบบ (GPT-4, GPT-3.5 และ Falcon-180B) Falcon-180B อยู่ในตำแหน่งที่เหมาะสมระหว่างระบบเหล่านี้ เนื่องจากมีความเชี่ยวชาญในการใช้งานที่หลากหลาย

แม้ว่ามันอาจจะไม่เหนือกว่า GPT-3.5 ในทุกด้าน แต่ Falcon-180B ก็แสดงให้เห็นถึงศักยภาพโดยนำเสนอฟังก์ชันการทำงานที่เทียบเคียงได้กับทางเลือกที่มีชื่อเสียงมากกว่า แม้ว่าจะไม่เป็นที่รู้จักมากนัก แต่ก็สมควรได้รับการพิจารณาเนื่องจากมีความสามารถในการจับคู่และยังเหนือกว่าความสามารถของรุ่นอื่นๆ อีกด้วย ผู้ที่สนใจสามารถทดสอบ Falcon-180B ได้บนแพลตฟอร์ม Hugging Face ซึ่งรองรับโมเดลภาษาโอเพ่นซอร์สขนาดใหญ่

ลามะ 2 ของ Meta AI

Llama 2 เป็นโมเดลภาษาที่พัฒนาโดย Meta AI ซึ่งมีพารามิเตอร์ที่น่าประทับใจถึง 7 หมื่นล้านพารามิเตอร์ แม้ว่าอาจไม่ครอบคลุมเท่าคู่แข่งบางราย แต่ Llama 2 ได้แสดงให้เห็นถึงประสิทธิภาพที่โดดเด่นจากการทดสอบเกณฑ์มาตรฐานและการใช้งานจริงต่างๆ ในความเป็นจริง มันเหนือกว่ารุ่นภาษาขนาดใหญ่ที่เข้าถึงได้โดยสาธารณะจำนวนมาก โดยมีข้อยกเว้นที่โดดเด่นอย่างหนึ่งคือ Falcon-180B

เพื่อประเมินประสิทธิภาพของ Llama 2 เราได้เปรียบเทียบกับโมเดลล้ำสมัยอื่นๆ เช่น GPT-4, GPT-3.5, Claude 2 และ PaLM 2 บนตัวชี้วัดการประเมินต่างๆ ผลการวิจัยพบว่า GPT-4 เหนือกว่า Llama 2 อย่างมีนัยสำคัญในกรณีส่วนใหญ่ อย่างไรก็ตาม การค้นพบของเราระบุว่า Llama 2 แสดงให้เห็นถึงประสิทธิภาพการแข่งขันเมื่อเทียบกับ GPT-3.5 และ PaLM 2 ในการวัดประสิทธิภาพบางอย่าง ไม่ควรอนุมานได้ว่า Llama 2 นั้นเหนือกว่า PaLM 2 อย่างแน่นอน อย่างไรก็ตาม การทดลองของเราได้เปิดเผยกรณีที่ Llama 2 ประสบความสำเร็จในการแก้ปัญหาที่พิสูจน์แล้วว่าท้าทายสำหรับ PaLM 2 แม้จะครอบคลุมถึง

แม้ว่า Llama 2 จะไม่ได้เกินความสามารถของโมเดลที่เป็นกรรมสิทธิ์ขั้นสูงสุด แต่ก็มีประสิทธิภาพเหนือกว่าความคาดหวังสำหรับทางเลือกโอเพ่นซอร์สโดยแสดงประสิทธิภาพที่โดดเด่นซึ่งเทียบได้กับผู้นำในอุตสาหกรรม เช่น PaLM 2 ในการประเมินบางอย่าง ความสำเร็จนี้นำเสนอตัวอย่างที่น่าหวังของสิ่งที่อาจเป็นไปได้ด้วยโมเดลภาษาโอเพ่นซอร์สในอนาคต

ช่องว่างด้านประสิทธิภาพระหว่างโมเดล AI กำลังแคบลง

ในขณะที่สาขาปัญญาประดิษฐ์ยังคงก้าวหน้าอย่างรวดเร็ว GPT-4 ของ OpenAI ยังคงรักษาตำแหน่งในฐานะนักแสดงที่สำคัญที่สุด อย่างไรก็ตาม เห็นได้ชัดว่าแม้แต่รุ่นเล็กเมื่อมีความชำนาญเพียงพอ ก็สามารถแข่งขันในโดเมนเฉพาะได้ ตัวอย่างเช่น Claude 2 แสดงให้เห็นถึงความสามารถนี้โดยแสดงผลลัพธ์ที่น่าประทับใจในงานบางอย่าง ในทำนองเดียวกัน PaLM 2 ของ Google อาจไม่สามารถตอบสนองความคาดหวังได้ทั้งหมด แต่ก็แสดงความสามารถที่น่าทึ่ง นอกจากนี้ โครงการโอเพ่นซอร์ส Falcon-180B ยังเน้นย้ำถึงศักยภาพของโครงการริเริ่มดังกล่าวที่จะแข่งขันกับยักษ์ใหญ่ในอุตสาหกรรม หากมีทรัพยากรเพียงพอ