Contents

Claude 3 คืออะไรและคุณทำอะไรกับมันได้บ้าง?

Anthropic ได้เปิดตัวโมเดล AI รุ่นล่าสุดซึ่งมีชื่อว่า Claude 3 ซึ่งมีความสามารถที่น่าประทับใจและอาจท้าทายการครอบงำของแพลตฟอร์มที่จัดตั้งขึ้น เช่น GPT-3 แม้ว่าโคลด 3 จะแสดงให้เห็นถึงคำมั่นสัญญาที่ยิ่งใหญ่ แต่คำถามยังคงอยู่ว่ามีความพร้อมอย่างเต็มที่ที่จะเข้ามาแทนที่ผู้นำคนปัจจุบันในสาขานี้หรือไม่

คลอดด์ 3 คืออะไร?

Claude 3 คือตระกูลโมเดลปัญญาประดิษฐ์ขั้นสูงที่ออกแบบโดย Anthropic เพื่อแทนที่ Claude 2 รุ่นก่อน ซึ่งถือได้ว่าเป็นการตอบสนองของ Anthropic ต่อคู่แข่ง เช่น Gemini ของ Google และ GPT-4 ของ OpenAI ครอบครัวประกอบด้วยการแสดงซ้ำที่แตกต่างกันสามแบบ ได้แก่ ไฮกุ ซอนเน็ต และบทประพันธ์ ซึ่งแต่ละบทแสดงถึงระดับสติปัญญาที่สูงขึ้นทีละน้อย โดยเฉพาะอย่างยิ่ง Claude 3 ถือเป็นการบุกโจมตีของ Anthropic สู่ AI ต่อเนื่องหลายรูปแบบ ซึ่งบ่งบอกถึงความก้าวหน้าอย่างมากจากรุ่นก่อนหน้า

แท้จริงแล้ว แม้ว่าเสียงไชโยโห่ร้องที่มอบให้กับ ChatGPT และการยอมรับที่รวบรวมโดย Gemini ของ Google อาจทำให้ Claude AI กลายเป็นตัวตนที่ไม่คุ้นเคยสำหรับบางคน แต่สถานการณ์นี้แทบจะไม่น่าแปลกใจเลยเมื่อพิจารณาถึงความสับสนในเชิงเปรียบเทียบที่อดีตเคยได้รับจากสองคนหลัง แต่ก็ปฏิเสธไม่ได้ว่า Claude ติดอันดับหนึ่งในแชทบอท AI ที่มีการพัฒนาสูงที่สุดในโลก เหนือกว่าความสามารถที่อวดอ้างของ ChatGPT ในมิติที่สำคัญบางประการ

เพื่อที่จะเข้าใจถึงข้อดีของ Claude 3 อย่างแท้จริง เราจะต้องพิจารณาถึงข้อบกพร่องของรุ่นก่อนๆ เพื่อที่จะได้รับความซาบซึ้งอย่างเต็มที่ต่อความก้าวหน้าของแบบจำลองนี้

เวอร์ชันก่อนหน้าของ Claude เป็นที่ทราบกันดีว่ามีการแสดงความระมัดระวังมากเกินไปในแง่ของความปลอดภัยของ AI ตัวอย่างเช่น มาตรการความปลอดภัยบางอย่างที่นำมาใช้ใน Claude 2 ค่อนข้างเข้มงวด และทำให้แชทบอทเขินอายที่จะพูดคุยเรื่องบางเรื่อง แม้ว่าจะไม่แสดงความเสี่ยงด้านความปลอดภัยที่ชัดเจนก็ตาม

พบว่าความสามารถของโมเดลในการประมวลผลบริบทมีจำกัดในการวนซ้ำของ Claude ครั้งก่อน คำว่า “หน้าต่างบริบท” หมายถึงปริมาณข้อมูลที่ AI สามารถนำมาพิจารณาเมื่อสร้างการตอบสนอง ในช่วงก่อนหน้านี้ Claude มีหน้าต่างบริบทที่มีโทเค็น 200,000 ซึ่งแปลเป็นประมาณ 150,000 คำ น่าเสียดายที่สิ่งนี้พิสูจน์แล้วว่าใหญ่เกินไปสำหรับโมเดลที่จะจัดการพร้อมกันได้อย่างมีประสิทธิภาพโดยไม่สูญเสียรายละเอียดที่สำคัญในข้อมูลอินพุต

ความท้าทายที่เกิดจากความหลากหลายรูปแบบไม่ใช่สิ่งที่โคลดจะเอาชนะได้ แม้จะมีข้อจำกัดนี้ แต่เขาก็ยังคงเป็นแบบอย่างทางภาษาที่มีความสามารถสูงตามสิทธิของเขาเอง

ด้วยการเปิดตัว Claude 3 ข้อกังวลก่อนหน้านี้ทั้งหมดเกี่ยวกับฟังก์ชันการทำงานและประสิทธิภาพได้รับการแก้ไขทั้งหมดหรือในระดับที่มีนัยสำคัญ

คุณสามารถทำอะไรกับคลอดด์ 3 ได้บ้าง?

/th/images/claude-image-1.jpg

Claude 3 เป็นโมเดล AI เจนเนอเรชั่นขั้นสูงที่มีความสามารถในการสร้างผลลัพธ์ที่ยอดเยี่ยมสำหรับการสืบค้นที่หลากหลายซึ่งครอบคลุมสาขาวิชาที่หลากหลาย ไม่ว่าเราต้องการความละเอียดที่รวดเร็วของสมการพีชคณิตเบื้องต้น องค์ประกอบของผลงานดนตรีต้นฉบับ การร่างบทความทางวิชาการที่ครอบคลุม การพัฒนาโค้ดโปรแกรมสำหรับแอปพลิเคชันซอฟต์แวร์ หรือการวิเคราะห์ชุดข้อมูลจำนวนมาก Claude 3 แสดงถึง ทางออกที่ดี

แม้ว่าโมเดลปัญญาประดิษฐ์จำนวนมากได้แสดงให้เห็นถึงความเชี่ยวชาญในงานที่เกี่ยวข้องกับภาษาต่างๆ แต่ก็ยังอาจมีเหตุผลที่น่าสนใจในการพิจารณาใช้ Claude 3 สำหรับความพยายามดังกล่าว

Claude 3 โดดเด่นในฐานะโมเดลปัญญาประดิษฐ์หลายรูปแบบขั้นสูงที่โดดเด่น ซึ่งเหนือกว่าโมเดล AI อื่นๆ ในแง่ของขีดความสามารถสำหรับงานต่างๆ แม้ว่า Gemini ซึ่งได้รับความสนใจอย่างมากเนื่องจากประสิทธิภาพในการทดสอบเกณฑ์มาตรฐาน อาจได้รับการพิจารณาว่าเป็นคู่แข่งที่น่าเกรงขาม แต่ Anthropic อ้างอย่างมั่นใจว่า Claude 3 แสดงให้เห็นถึงข้อได้เปรียบที่สำคัญเหนือหลายโดเมน แม้ว่าบางครั้งจะต้องเข้าใกล้ความถูกต้องของผลลัพธ์การวัดประสิทธิภาพด้วยความระมัดระวัง ฉันได้ทดสอบโมเดล AI ทั้งสองแบบเป็นการส่วนตัว และสังเกตประสิทธิภาพที่โดดเด่นของ Claude 3 ในแอปพลิเคชันที่สำคัญจำนวนมาก

Claude 3 นำเสนอความสามารถที่หลากหลายคล้ายกับที่มีใน Gemini และ GPT-4 ยกเว้นการสร้างภาพ โดยไม่มีค่าใช้จ่ายเพิ่มเติมนอกเหนือจากราคาซื้อเริ่มแรก ซึ่งแตกต่างจากการสมัครสมาชิกรายเดือน $20 ที่กำหนดโดยบริการระดับพรีเมียมของ ChatGPT

Claude 3 กับ ChatGPT

/th/images/chatgpt-vs-claude-ai-featured.jpg

วิธีที่มีประสิทธิภาพในการประเมินประสิทธิภาพของระบบแมชชีนเลิร์นนิงคือการเปรียบเทียบประสิทธิภาพกับประสิทธิภาพของระบบชั้นนำในอุตสาหกรรม ในเรื่องนี้ เราได้นำโมเดลที่โดดเด่นสองรุ่นมาแข่งขันกัน นั่นคือ GPT และ Claude 3 ของ Anthropic อย่างไรก็ตาม คำถามยังคงอยู่ว่าโมเดลใดจะได้รับชัยชนะเมื่อเปรียบเทียบกับ GPT-4 ที่น่าเกรงขาม

Claude กับ ChatGPT: ทักษะการเขียนโค้ด

Claude 3 แสดงให้เห็นถึงความสามารถพิเศษในงานการเขียนโปรแกรม ซึ่งเหนือกว่า GPT-4 ในงานการเขียนโปรแกรมพื้นฐานหลายงานที่ได้รับการทดสอบ ในทางตรงกันข้าม ระหว่างการประเมิน Claude ก่อนหน้านี้ในเดือนกันยายน ระบบทำงานได้ไม่ดีเมื่อเทียบกับ ChatGPT ในการสร้างแอปพลิเคชันรายการสิ่งที่ต้องทำแบบง่ายๆ

ในการประเมิน Claude 3 ของเรา แสดงให้เห็นฟังก์ชันการทำงานที่ได้รับการปรับปรุงในสถานการณ์การทดสอบต่างๆ เมื่อเทียบกับรุ่นก่อน เมื่อแพลตฟอร์มนี้ขอให้สร้างแอปพลิเคชันการจัดการงานที่มีประสิทธิภาพ นี่คือสิ่งที่ GPT-4 สร้างขึ้น

/th/images/chatgpt-gpt-4-makes-a-todo-list-app.jpg

การตอบสนองของ Claude 3 เมื่อได้รับการร้องขอให้สร้างข้อความที่คล้ายกันโดยใช้แบบจำลองที่ให้มามีดังนี้: “ดวงอาทิตย์ลับขอบฟ้า ทอดแสงสีส้มบนทิวทัศน์ และสร้างบรรยากาศอันเงียบสงบที่ดูเหมือนจะรวบรวมแก่นแท้ของความเงียบสงบ

/th/images/claude-3-makes-todo-list-app.jpg

แอปพลิเคชันทั้งสองแสดงฟังก์ชันการทำงาน โดยที่ Claude 3 มีประสิทธิภาพที่เหนือกว่าเมื่อเปรียบเทียบกัน

หลังจากการประเมินการประเมินการเข้ารหัสที่ซับซ้อนยิ่งขึ้น ก็เห็นได้ชัดว่าทั้ง Claude และ GPT-4 แสดงให้เห็นถึงความเชี่ยวชาญในด้านต่างๆ ของการเขียนโปรแกรม อย่างไรก็ตาม ดูเหมือนว่า Claude มีประสิทธิภาพเหนือกว่า GPT-4 ในบางกรณี แม้ว่า GPT-4 จะประสบความสำเร็จอย่างโดดเด่นเช่นกัน เป็นการยากที่จะสรุปข้อสรุปที่ชัดเจนเกี่ยวกับความเหนือกว่าของโมเดลใดโมเดลหนึ่งด้วยความเคารพต่อตรรกะการเขียนโปรแกรม อย่างไรก็ตาม หากมีความแตกต่างที่มีนัยสำคัญระหว่างสิ่งเหล่านั้น มีความเป็นไปได้สูงที่ความแตกต่างดังกล่าวจะลดลงอย่างมาก

Claude กับ ChatGPT: การใช้เหตุผลสามัญสำนึก

การทดลองกับทั้งสองระบบเกี่ยวข้องกับการวางชุดคำถามที่ดูเรียบง่ายแต่จำเป็นสำหรับการตอบสนองที่เหมาะสม

สมมติว่ายานอวกาศจากดาวอังคารแยกออกเป็นสองส่วน ส่งผลให้ส่วนหนึ่งชนกับมหาสมุทรแอตแลนติกใกล้กับบราซิล และอีกส่วนหนึ่งชนกับมหาสมุทรแปซิฟิกใกล้ญี่ปุ่น ศพของผู้โดยสารที่รอดชีวิตจะถูกฝังอย่างไร?

/th/images/chatgpt-answers-trick-question.jpg

อันที่จริง เป็นที่น่าสังเกตว่าระบบ ChatGPT ของเราได้แสดงให้เห็นถึงความสามารถในการจัดการกับคำถามดังกล่าวอย่างมีประสิทธิภาพ แม้ว่าแชทบอตจะแสดงข้อบกพร่องทางประวัติศาสตร์ในเรื่องนี้ก็ตาม ตอนนี้เป็นโอกาสของ Claude ที่จะตอบกลับ

/th/images/testing-claude-3-on-commonsense-reasoning.jpg

โคลด์ให้คำตอบที่ค่อนข้างคลุมเครือ แต่ถึงกระนั้นก็สามารถระบุรายละเอียดที่สำคัญได้ กล่าวคือไม่มีใครละทิ้งบุคคลที่สามารถเอาชีวิตรอดได้ เป็นที่น่าสังเกตว่าในระหว่างการสอบถามโคลด์เกี่ยวกับเรื่องนี้ครั้งก่อนๆ เราล้มเหลวที่จะตระหนักถึงเหตุผลเชิงตรรกะโดยธรรมชาติเบื้องหลังสถานการณ์ดังกล่าว

Claude กับ ChatGPT: การเขียนเชิงสร้างสรรค์

ในบริบทเชิงปฏิบัติ มีแอปพลิเคชันมากมายสำหรับแชทบอทปัญญาประดิษฐ์ที่เกี่ยวข้องกับการสร้างเนื้อหาสร้างสรรค์ประเภทต่างๆ เช่น งานเขียน จดหมายโต้ตอบ และแม้แต่การเรียบเรียงดนตรี ด้วยเหตุนี้ จึงมีการประเมินเพื่อดูว่าโมเดลใดให้เสียงที่เป็นธรรมชาติและใกล้เคียงกับคำพูดของมนุษย์มากที่สุด

วัตถุประสงค์คือเพื่อสร้างผลลัพธ์ที่ก้าวข้ามความแม่นยำหรือความคิดสร้างสรรค์ในลักษณะที่ประดิษฐ์ขึ้น แทนที่จะถ่ายทอดสัมผัสตามธรรมชาติของมนุษย์ ดังนั้น ทั้งสองนางแบบจึงถูกตั้งข้อหาประดิษฐ์ท่อนเพลงแร็พที่มีเนื้อหาเกี่ยวกับการปลูกแตงกวาและสะสมความมั่งคั่งจากการขาย ใครคิดคล้องจองกับแตงกวาบ้าง? เนื้อหาที่มีความต้องการสูงเช่นนี้ถือเป็นบททดสอบขั้นสูงสุด

นี่คือสิ่งที่ ChatGPT ต้องทำ:

/th/images/chatgpt-writes-lyrics-to-a-rap-song.jpg

นี่คือการตีความของฉันเกี่ยวกับพรอมต์ที่ให้ในลักษณะที่ซับซ้อนยิ่งขึ้น

/th/images/claude-writes-lyrics-to-a-wrap-song.jpg

แม้ว่าการตัดสินใจอาจเปิดกว้างสำหรับการตีความเป็นการส่วนตัว แต่ดูเหมือนว่าโคลดจะแสดงความสามารถที่มากกว่าในกรณีนี้ ในแต่ละความพยายามของพวกเขาในการประดิษฐ์ผลงานสามชิ้นแยกจากกันในหัวข้อที่แตกต่างกัน Claude แสดงให้เห็นถึงความเหนือกว่าโดยการผลิตผลงานที่ชวนให้นึกถึงผลงานของมนุษย์ ขณะเดียวกันก็หลีกเลี่ยงข้อผิดพลาดทั่วไปบางประการที่พบในเนื้อหาที่สร้างขึ้นโดยปัญญาประดิษฐ์ เช่น การปรุงแต่งที่ไม่สมเหตุสมผล คำศัพท์ที่ซับซ้อน และการใช้วลีเฉพาะกาลอย่างไม่แน่นอน

Claude กับ ChatGPT: ความสามารถในการจดจำรูปภาพ

เพื่อประเมินความสามารถในการรับรู้ด้วยภาพของทั้งสองรุ่น จึงได้นำเสนอชุดตึกระฟ้าที่มีชื่อเสียงระดับโลกแก่ ChatGPT และ Claude เพื่อระบุตัวตน แบบแรกแสดงให้เห็นถึงความเชี่ยวชาญด้วยการระบุโครงสร้างทั้ง 20 หลังอย่างแม่นยำ ในขณะที่แบบหลังประสบปัญหาในสามกรณี ได้แก่ Marina 101 ที่โดดเด่นในดูไบ, Lotte World Tower ของเกาหลีใต้ และอาคาร Merdeka 118 อันโดดเด่นที่ตั้งอยู่ในกัวลาลัมเปอร์ ประเทศมาเลเซีย

Claude แสดงให้เห็นถึงความแม่นยำที่ค่อนข้างต่ำเมื่อจดจำโครงสร้างที่ไม่ได้ตั้งอยู่ในสหรัฐอเมริกาหรือจีน ส่งผลให้อัตราข้อผิดพลาดเพิ่มขึ้นสำหรับกรณีดังกล่าว อย่างไรก็ตาม มันแสดงให้เห็นถึงความสามารถที่เชี่ยวชาญในการระบุการบิดเบือนของสถานที่สำคัญอันเป็นสัญลักษณ์ เช่น หอไอเฟลหรือตึกเอ็มไพร์สเตต

/th/images/empire-state-building-identified-by-claude-3.jpg

แม้ว่า ChatGPT จะแสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าในเรื่องนี้ แต่ก็ควรยอมรับว่าการโจมตีครั้งแรกของ Anthropic ในการพัฒนาระบบปัญญาประดิษฐ์หลายรูปแบบด้วย Claude 3 นั้นไม่ได้ไร้ประโยชน์

ความคาดหมายเกี่ยวกับโมเดลที่ได้รับการยกย่องอย่างสูง เช่น Palm 2 ของ Google และ Gemini ในภายหลัง มักมุ่งไปสู่ศักยภาพที่จะเหนือกว่า GPT-4 อย่างไรก็ตาม มุมมองของเรายังคงแน่วแน่ในการทำนายว่าในที่สุด Claude AI ที่ค่อนข้างไม่เป็นที่รู้จักจะเข้ามารับบทบาทนี้เมื่อเปิดตัวในเดือนมีนาคม เมื่อเวลาผ่านไปและมีการอัปเดตมากมาย Claud