圖靈測試已經過時了嗎? 5 個圖靈測試替代方案
1950年,阿蘭·圖靈在其開創性著作《計算機器與智能》中提出了一種確定機器是否能夠表現出與人類難以區分的智能行為的方法。該提議隨後被稱為圖靈測試,從此成為評估人工智能體模仿人類認知能力的基準。
它應該被認為是過時的嗎?如果是這樣,存在哪些潛在的替代品?
圖靈測試已經過時了嗎?
圖片來源:Jesus Sanz/Shutterstock
要了解圖靈測試是否已經過時,首先必須了解其運作機制。為了讓人工智能成功通過圖靈測試,它需要說服人類評估者相信它的人性。然而,存在一個附帶條件——人工智能是與人類同行一起進行判斷的,因此在評估過程中需要使用基於文本的響應。
考慮這樣一種場景,其中充當詢問者的個人通過基於文本的通信與兩方(一方是人類參與者,另一方是人工智能模型)提出查詢。在這樣的背景下,僅僅五分鐘的時間你就能區分出這兩個人嗎?需要注意的是,圖靈測試的首要目的不是根據準確的反應來確定人工智能模型是哪一方,而是評估人工智能是否具有類似於人類的思維或行為能力。
圖靈測試作為人工智能衡量標準的一個潛在批評是,它狹隘地關注模仿人類的反應,而沒有考慮其他相關因素,例如人工智能係統的智能或評估者的專業知識。此外,圖靈測試主要評估基於語言的交流,而不是涵蓋非語言形式的交互或新興技術,例如可以在視頻記錄中模擬人類行為的深度偽造技術。
儘管 ChatGPT-4 和 Google Bard 等當代人工智能係統近年來取得了重大進展,但它們令人信服地複制人類語言的能力尚未達到能夠持續通過標誌性圖靈測試的水平。事實上,那些精通人工智能領域的人可能能夠相對輕鬆地辨別自然語言生成和合成語言生成之間的差異。
5 個最佳圖靈測試替代方案
鑑於 ChatGPT-5 等先進人工智能係統有可能成功複製類人對話,並有可能在這方面超越人類的能力,可以想像,將需要新的方法來區分與機器的交互和與機器的交互。與真實的人。人們提出了幾種可行的選擇作為傳統圖靈測試的替代方案,包括:
馬庫斯測試
著名認知科學家和人工智能研究員加里·馬庫斯(Gary Marcus) 提出了圖靈測試的替代方案,該方案發表在《紐約客》(https://www.newyorker.com/tech/annals-of-technology/what-comes-圖靈測試後)來識別人工智能的認知能力。測試很簡單——你可以根據人工智能模型觀看和理解沒有字幕或文本的 YouTube 視頻和電視節目的能力來判斷它。為了讓人工智能通過馬庫斯測試,它應該在觀看視頻時理解諷刺、幽默、反諷和故事情節,並像人類一樣解釋。
雖然當前人工智能的進步使 GPT-4 能夠通過文本描述有效地傳達視覺信息,但很明顯,現有的人工智能模型不具備與人類感知相媲美的視頻理解能力。儘管配備先進傳感器系統的自動駕駛車輛取得了進步,但這些技術仍然缺乏完全的自主性,因為它們無法完全解釋周圍環境的各個方面。
視覺圖靈測試
根據 PNAS 上發表的一篇研究論文,視覺圖靈測試可以用來識別你是在與人類還是人工智能交談使用圖像問卷。它的工作原理類似於圖靈測試,但不是使用文本回答問題,而是向參與者展示圖像,並期望他們在像人類一樣思考的同時回答簡單的問題。然而,視覺圖靈測試與驗證碼不同,因為所有答案都是正確的,但要通過測試,人工智能必須像人類一樣處理圖像。
高級英語釋義:此外,當同時呈現多個圖像進行識別時,人類擁有成功完成此類任務所需的認知能力。相反,人工智能模型通常很難區分缺乏真實性或看起來是人工生成的照片。因此,這為人類提供了檢測不一致並將其標記為可疑的機會。
Lovelace 2.0 測試
計算機無法創造超出其編程功能的原創想法的理論是由艾達·洛夫萊斯 (Ada Lovelace) 在圖靈測試之前首次提出的概念。然而,艾倫·圖靈反對這一理論,認為人工智能仍然可以給人類帶來驚喜。直到 2001 年,Lovelace 測試的指南才被制定出來,以區分人工智能和人類,並且根據 thekurzweillibrary-圖靈測試的另一種替代方案)規則後來於2014 年進行了修訂。
為了滿足洛夫萊斯測試的要求,機器智能係統必須表現出產生超出其預先存在的編程範圍的新穎概念的能力。目前,GPT-4等人工智能模型無法設計出超越人類知識邊界的創新發明。儘管如此,通用人工智能(AGI)的實現可以實現這種水平的創造力,並可以成功完成洛夫萊斯測試。
逆向圖靈測試
反過來做圖靈測試怎麼樣? 反向圖靈測試的目的不是試圖找出你是否在與人交談,而是欺騙人工智能相信你’是一個人工智能。但是,您還需要另一個人工智能模型來使用文本回答相同的問題。
一個例子是當 ChatGPT-4 作為提問者時,Google Bard 和一個人類同胞都被註冊為合作者。如果人工智能模型能夠通過人類的反應來查明對方的身份,那麼它就成功地通過了評估標準。
反向圖靈測試的一個潛在缺點是它在準確地區分人工智能生成的文本和人類創建的內容方面缺乏一致性。當人工智能係統無法辨別哪些材料是由機器產生、哪些材料是由人編寫時,就會出現這個問題,凸顯了人工智能能力需要進一步細化和提高。
AI分類框架
根據Chris Saad開發的AI分類框架,圖靈測試只是判斷你是否在與AI對話的一種評估方法。更簡單地說,人工智能分類框架基於多元智能理論,要求人類智能至少滿足八個不同的標準,其中包括:音樂節奏智能、邏輯數學智能、視覺識別智能、情感智能、自我反思智能、存在思維能力和身體運動。
鑑於人工智能係統採用的多方面評估標準,實現超越典型人類的整體性能似乎越來越具有挑戰性。為了說明這一點,請考慮 ChatGPT 的例子,它擅長解決數學問題、解釋視覺圖像以及以類人對話的方式進行對話。儘管如此,這種卓越的熟練程度在人工智能分類架構中概述的幾個關鍵領域中仍存在不足。
圖靈測試並不是決定性的
圖靈測試的概念化旨在作為一種智力練習,而不是區分人類認知與人工智能的明確標準。最初,該測試是評估計算智能的重要標準。
鑑於人工智能模型具有語言、視覺和聽覺接口能力的進步,圖靈測試似乎還不夠,因為它僅局限於基於文本的通信。為了準確評估人工智能的熟練程度,包含多種模式的更全面的評估系統可能被證明是最佳方法。