การทดสอบทัวริงล้าสมัยหรือไม่ 5 ทางเลือกการทดสอบทัวริง
ในปี 1950 อลัน ทัวริงได้เสนอวิธีการพิจารณาว่าเครื่องจักรสามารถแสดงพฤติกรรมที่ชาญฉลาดจนแยกไม่ออกจากพฤติกรรมของมนุษย์ในผลงานชิ้นเอกของเขาที่ชื่อว่า “Computing Machinery and Intelligence” ต่อมาข้อเสนอนี้เป็นที่รู้จักในชื่อการทดสอบทัวริง ซึ่งนับเป็นเกณฑ์มาตรฐานสำหรับการประเมินความสามารถของสารเทียมในการเลียนแบบความรู้ความเข้าใจของมนุษย์
ควรถือว่าล้าสมัยหรือไม่? ถ้าเป็นเช่นนั้น มีอะไรทดแทนที่เป็นไปได้บ้าง?
การทดสอบทัวริงล้าสมัยหรือไม่
เครดิตรูปภาพ: Jesus Sanz/Shutterstock
เพื่อทำความเข้าใจว่าการทดสอบทัวริงล้าสมัยหรือไม่ ก่อนอื่นเราต้องชื่นชมกลไกการทำงานของมัน เพื่อให้ปัญญาประดิษฐ์สามารถผ่านการทดสอบของทัวริงได้สำเร็จ จำเป็นต้องโน้มน้าวผู้ประเมินความเป็นมนุษย์ของมนุษย์ อย่างไรก็ตาม มีเงื่อนไขอยู่-AI จะถูกตัดสินพร้อมกับมนุษย์ ซึ่งจำเป็นต้องใช้การตอบกลับแบบข้อความในระหว่างการประเมิน
พิจารณาสถานการณ์ที่บุคคลซึ่งทำหน้าที่เป็นผู้ซักถามตั้งคำถามผ่านการสื่อสารแบบข้อความกับบุคคลสองฝ่าย ฝ่ายหนึ่งเป็นผู้เข้าร่วมที่เป็นมนุษย์ และอีกฝ่ายเป็นแบบจำลองปัญญาประดิษฐ์ ในบริบทดังกล่าว คุณจะสามารถแยกแยะความแตกต่างระหว่างบุคคลทั้งสองนี้ได้หรือไม่หลังจากเวลาผ่านไปเพียงห้านาที สิ่งสำคัญคือต้องสังเกตว่าจุดมุ่งหมายหลักของการทดสอบทัวริงไม่ใช่เพื่อตัดสินว่าฝ่ายใดเป็นโมเดล AI ตามการตอบสนองที่ถูกต้อง แต่เพื่อประเมินว่า AI มีความสามารถสำหรับความคิดหรือพฤติกรรมที่คล้ายคลึงกับมนุษย์หรือไม่
ข้อวิจารณ์ที่อาจเป็นไปได้ประการหนึ่งของการทดสอบทัวริงในฐานะการวัดปัญญาประดิษฐ์คือการเน้นที่แคบไปที่การเลียนแบบการตอบสนองที่เหมือนมนุษย์ โดยไม่คำนึงถึงปัจจัยที่เกี่ยวข้องอื่นๆ เช่น ความฉลาดของระบบ AI หรือความเชี่ยวชาญของผู้ประเมิน นอกจากนี้ การทดสอบของทัวริงจะประเมินการสื่อสารโดยใช้ภาษาเป็นหลัก แทนที่จะครอบคลุมรูปแบบปฏิสัมพันธ์แบบอวัจนภาษาหรือเทคโนโลยีที่เกิดขึ้นใหม่ เช่น ดีพปลอม ซึ่งสามารถจำลองพฤติกรรมของมนุษย์ในการบันทึกวิดีโอ
แม้ว่าระบบปัญญาประดิษฐ์ร่วมสมัยเช่น ChatGPT-4 และ Google Bard จะมีความก้าวหน้าอย่างมากในช่วงไม่กี่ปีที่ผ่านมา แต่ความสามารถในการจำลองภาษามนุษย์อย่างน่าเชื่อถือยังไม่ถึงระดับที่จะช่วยให้ผ่านการทดสอบ Turing อันเป็นสัญลักษณ์ได้อย่างสม่ำเสมอ แท้จริงแล้ว ผู้ที่รอบรู้ในด้านของปัญญาประดิษฐ์อาจสามารถแยกแยะความแตกต่างระหว่างการผลิตภาษาธรรมชาติและภาษาสังเคราะห์ได้อย่างง่ายดาย
5 ทางเลือกการทดสอบทัวริงที่ดีที่สุด
ในแง่ของศักยภาพของระบบปัญญาประดิษฐ์ขั้นสูง เช่น ChatGPT-5 ที่จะทำซ้ำการสนทนาที่เหมือนมนุษย์ได้สำเร็จ และอาจเกินความสามารถของมนุษย์ในเรื่องนี้ เป็นไปได้ว่าจะต้องมีวิธีการใหม่เพื่อแยกความแตกต่างระหว่างการโต้ตอบกับเครื่องจักรและสิ่งเหล่านั้น กับคนจริงๆ มีการเสนอตัวเลือกที่ใช้การได้หลายอย่างเพื่อเป็นทางเลือกแทนการทดสอบทัวริงแบบดั้งเดิม ได้แก่:
การทดสอบของมาร์คัส
Gary Marcus นักวิทยาศาสตร์ด้านการรับรู้และนักวิจัยด้าน AI ที่มีชื่อเสียง เสนอทางเลือกอื่นนอกเหนือจากการทดสอบของทัวริงซึ่งตีพิมพ์ใน New Yorker เพื่อระบุความสามารถในการรับรู้ของ AI การทดสอบนั้นง่าย—คุณตัดสินโมเดล AI จากความสามารถในการรับชมและทำความเข้าใจวิดีโอ YouTube และรายการทีวีโดยไม่มีคำบรรยายหรือข้อความ เพื่อให้ AI ผ่านการทดสอบของ Marcus ได้ ควรเข้าใจการเสียดสี อารมณ์ขัน การประชดประชัน และโครงเรื่องเมื่อดูวิดีโอและอธิบายได้เหมือนมนุษย์
แม้ว่าความก้าวหน้าในปัจจุบันของปัญญาประดิษฐ์จะทำให้ GPT-4 สามารถถ่ายทอดข้อมูลภาพได้อย่างมีประสิทธิภาพผ่านคำอธิบายที่เป็นข้อความ แต่ก็ยังเห็นได้ชัดว่าไม่มีโมเดล AI ใดที่มีความสามารถในการทำความเข้าใจวิดีโอเทียบเท่ากับการรับรู้ของมนุษย์ แม้จะมีความก้าวหน้าในยานยนต์ขับเคลื่อนอัตโนมัติที่ติดตั้งระบบเซ็นเซอร์ขั้นสูง แต่เทคโนโลยีเหล่านี้ก็ยังขาดอิสระอย่างสมบูรณ์เนื่องจากไม่สามารถตีความทุกแง่มุมของสภาพแวดล้อมได้อย่างสมบูรณ์
การทดสอบการมองเห็นของทัวริง
จากงานวิจัยที่ตีพิมพ์ใน PNAS การทดสอบการมองเห็นของ Turing สามารถใช้เพื่อระบุว่าคุณกำลังพูดคุยกับมนุษย์หรือ AI โดยใช้คำถามรูปภาพ มันทำงานเหมือนกับการทดสอบของทัวริง แต่แทนที่จะตอบคำถามโดยใช้ข้อความ ผู้เข้าร่วมจะได้รับการแสดงภาพและคาดว่าจะตอบคำถามง่ายๆ ในขณะที่คิดเหมือนมนุษย์ อย่างไรก็ตาม การทดสอบด้วยภาพของ Turing นั้นแตกต่างจาก CAPTCHA เนื่องจากคำตอบทั้งหมดนั้นถูกต้อง แต่เพื่อให้ผ่านการทดสอบ AI จะต้องประมวลผลภาพที่คล้ายกับของมนุษย์
การถอดความภาษาอังกฤษขั้นสูง: นอกจากนี้ เมื่อนำเสนอด้วยภาพหลายภาพพร้อมกันเพื่อระบุตัวตน มนุษย์มีความสามารถในการรับรู้ที่จำเป็นในการทำงานดังกล่าวให้สำเร็จ ในทางกลับกัน โมเดล AI มักจะพยายามแยกแยะความแตกต่างระหว่างภาพถ่ายที่ขาดความถูกต้องหรือดูเหมือนว่าสร้างขึ้นเทียม ด้วยเหตุนี้จึงเป็นโอกาสสำหรับมนุษย์ในการตรวจจับความไม่สอดคล้องกันและตั้งค่าสถานะว่าน่าสงสัย
การทดสอบ Lovelace 2.0
ทฤษฎีที่ว่าคอมพิวเตอร์ไม่สามารถสร้างแนวคิดดั้งเดิมนอกเหนือไปจากสิ่งที่ตั้งโปรแกรมไว้ให้ทำได้ แนวคิดนี้เกิดขึ้นครั้งแรกโดย Ada Lovelace ก่อนการทดสอบของทัวริง อย่างไรก็ตาม Alan Turing คัดค้านทฤษฎีดังกล่าวโดยอ้างว่า AI ยังสามารถสร้างความประหลาดใจให้กับมนุษย์ได้ จนกระทั่งปี 2544 แนวทางสำหรับการทดสอบ Lovelace ได้รับการพัฒนาขึ้นเพื่อแยก AI ออกจากมนุษย์ และตาม [thekurzweillibrary](http://www.thekurzweillibrary.com/georgia-tech-professor-proposes การทดสอบทางเลือกอื่น) กฎได้รับการแก้ไขในภายหลังในปี 2014
เพื่อให้เป็นไปตามข้อกำหนดของการทดสอบ Lovelace ระบบอัจฉริยะของเครื่องจักรจะต้องแสดงความสามารถในการสร้างแนวคิดใหม่ซึ่งเกินขอบเขตของการเขียนโปรแกรมที่มีอยู่ก่อน ในปัจจุบัน แบบจำลอง AI เช่น GPT-4 ไม่สามารถประดิษฐ์สิ่งประดิษฐ์ที่เป็นนวัตกรรมซึ่งขยายขอบเขตความรู้ของมนุษย์ออกไปได้ อย่างไรก็ตาม ความสำเร็จของปัญญาประดิษฐ์ทั่วไป (AGI) ช่วยให้เกิดความคิดสร้างสรรค์ในระดับนี้และจะช่วยให้การทดสอบ Lovelace สำเร็จ
การทดสอบทัวริงย้อนกลับ
แล้วการทดสอบทัวริงล่ะ แต่ทำในทางกลับกัน? แทนที่จะพยายามค้นหาว่าคุณกำลังคุยกับมนุษย์หรือไม่ วัตถุประสงค์ของ การทดสอบทัวริงแบบย้อนกลับ คือการหลอกให้ AI เชื่อคุณ"เป็น AI อย่างไรก็ตาม คุณยังต้องการโมเดล AI อื่นเพื่อตอบคำถามเดียวกันโดยใช้ข้อความ
ตัวอย่างนี้จะเกิดขึ้นเมื่อ ChatGPT-4 ทำหน้าที่เป็นผู้ถาม โดยมีทั้ง Google Bard และเพื่อนมนุษย์ที่ลงทะเบียนเป็นผู้ทำงานร่วมกัน ในกรณีที่แบบจำลองปัญญาประดิษฐ์สามารถระบุตัวตนของคู่หูมนุษย์ผ่านการตอบสนองได้ แสดงว่าผ่านเกณฑ์การประเมินเรียบร้อยแล้ว
ข้อเสียอย่างหนึ่งของการทดสอบ Reverse Turing Test คือการขาดความสม่ำเสมอในการแยกความแตกต่างระหว่างข้อความที่สร้างโดย AI และเนื้อหาที่มนุษย์สร้างขึ้นอย่างแม่นยำ ปัญหานี้เกิดขึ้นเมื่อระบบ AI แยกแยะไม่ออกว่าวัสดุใดผลิตโดยเครื่องจักรและวัสดุใดประกอบขึ้นโดยบุคคล โดยเน้นย้ำถึงความจำเป็นในการปรับแต่งเพิ่มเติมและปรับปรุงความสามารถของปัญญาประดิษฐ์
กรอบการจำแนกประเภท AI
ตามกรอบการจำแนกประเภท AI ที่พัฒนาโดย Chris Saad การทดสอบของทัวริงเป็นเพียงวิธีการประเมินวิธีหนึ่งเพื่อให้ทราบว่าคุณกำลังพูดคุยกับ AI หรือไม่ สรุปให้ชัดเจนยิ่งขึ้น กรอบการจัดประเภท AI อิงตามทฤษฎีพหุปัญญา ซึ่งต้องใช้ความฉลาดของมนุษย์เพื่อให้เป็นไปตามเกณฑ์ที่แตกต่างกันอย่างน้อยแปดเกณฑ์ ซึ่งรวมถึง: จังหวะดนตรี ความฉลาดทางตรรกะและคณิตศาสตร์ การระบุภาพ ความฉลาดทางอารมณ์ ความฉลาดในการไตร่ตรองตนเอง ความสามารถในการคิดเชิงอัตถิภาวนิยมและการเคลื่อนไหวร่างกาย
ในแง่ของเกณฑ์การประเมินหลายแง่มุมที่ระบบ AI ใช้ การบรรลุผลการปฏิบัติงานโดยรวมที่เหนือกว่ามนุษย์ทั่วไปดูเหมือนจะเป็นเรื่องที่ท้าทายมากขึ้นเรื่อยๆ เพื่ออธิบายประเด็นนี้ ลองพิจารณาตัวอย่างของ ChatGPT ซึ่งเก่งในการแก้ปัญหาทางคณิตศาสตร์ การตีความภาพที่มองเห็นได้ และการดำเนินวาทกรรมที่มีลักษณะของการสนทนาที่เหมือนมนุษย์ อย่างไรก็ตาม ความสามารถที่โดดเด่นนี้ยังขาดไปในประเด็นสำคัญหลายประการที่ระบุไว้ในสคีมาการจัดหมวดหมู่ของ AI
การทดสอบทัวริงยังไม่มีข้อสรุป
แนวคิดของการทดสอบทัวริงมีจุดประสงค์เพื่อเป็นแบบฝึกหัดทางปัญญามากกว่าเกณฑ์ที่ชัดเจนสำหรับการแยกแยะความรู้ความเข้าใจของมนุษย์จากปัญญาประดิษฐ์ ในขั้นต้นการทดสอบนี้ทำหน้าที่เป็นมาตรวัดที่สำคัญยิ่งสำหรับการประเมินความฉลาดทางการคำนวณ
ในแง่ของความก้าวหน้าในแบบจำลองปัญญาประดิษฐ์ที่มีความสามารถในการเชื่อมต่อทางภาษา ภาพ และการได้ยิน การทดสอบทัวริงดูเหมือนจะไม่เพียงพอเนื่องจากถูกจำกัดไว้เฉพาะการสื่อสารแบบข้อความเท่านั้น ในการประเมินความสามารถของ AI อย่างแม่นยำ ระบบการประเมินที่ครอบคลุมมากขึ้นซึ่งครอบคลุมรูปแบบที่หลากหลายอาจพิสูจน์ได้ว่าเป็นแนวทางที่เหมาะสมที่สุด