Contents

O teste de Turing está desatualizado? 5 Alternativas de Teste de Turing

Em 1950, Alan Turing propôs um método para determinar se uma máquina pode exibir um comportamento inteligente indistinguível do de um ser humano em seu trabalho seminal intitulado “Computing Machinery and Intelligence”. Posteriormente, essa proposta ficou conhecida como Teste de Turing, que desde então serviu como referência para avaliar a capacidade de agentes artificiais de imitar a cognição humana.

deve ser considerado obsoleto? Em caso afirmativo, que substitutos potenciais existem?

O teste de Turing está desatualizado?

/pt/images/man-questions-robot-turing-test-example-feature.jpg Crédito da imagem: Jesus Sanz/Shutterstock

Para compreender se o teste de Turing tornou-se obsoleto, deve-se inicialmente avaliar seu mecanismo de funcionamento. Para que uma inteligência artificial passe com sucesso no teste de Turing, ela precisa persuadir um avaliador humano de sua humanidade. No entanto, existe uma condição-a IA é julgada junto com uma contraparte humana, necessitando do uso de respostas baseadas em texto durante a avaliação.

Considere o cenário em que um indivíduo atuando como interrogador faz perguntas por meio de comunicação baseada em texto com duas partes, sendo uma delas um participante humano e a outra um modelo de inteligência artificial. Em tal contexto, você seria capaz de distinguir entre esses dois indivíduos após apenas cinco minutos? É importante notar que o objetivo principal do teste de Turing não é determinar qual parte é o modelo de IA com base em respostas precisas, mas sim avaliar se a IA possui capacidade de pensamento ou comportamento análogo ao de um ser humano.

Uma crítica potencial ao teste de Turing como uma medida de inteligência artificial é seu foco estreito em imitar respostas semelhantes às humanas, sem levar em conta outros fatores relevantes, como a inteligência do sistema de IA ou a experiência do avaliador. Além disso, o teste de Turing avalia principalmente a comunicação baseada em linguagem, em vez de abranger formas não-verbais de interação ou tecnologias emergentes, como deepfakes, que podem simular o comportamento humano em gravações de vídeo.

Embora os sistemas contemporâneos de inteligência artificial, como o ChatGPT-4 e o Google Bard, tenham feito progressos significativos nos últimos anos, sua capacidade de replicar de forma convincente a linguagem humana ainda não atingiu um nível que os permitiria passar consistentemente no icônico teste de Turing. De fato, aqueles que são bem versados ​​no domínio da inteligência artificial podem discernir a diferença entre a produção de linguagem natural e sintética com relativa facilidade.

As 5 melhores alternativas de teste de Turing

À luz do potencial de sistemas avançados de inteligência artificial, como o ChatGPT-5, para replicar com sucesso conversas semelhantes às humanas e potencialmente superar as capacidades dos humanos a esse respeito, é concebível que novos métodos sejam necessários para distinguir entre interações com máquinas e aquelas com pessoas reais. Várias opções viáveis ​​foram propostas como alternativas ao teste de Turing tradicional, incluindo:

O Teste de Marcus

/pt/images/a-couple-watching-netflix-on-tv.jpg

Gary Marcus, um renomado cientista cognitivo e pesquisador de IA, propôs uma alternativa ao teste de Turing que foi publicado no [New Yorker](https://www.newyorker.com/tech/annals-of-technology/what-comes-após o teste de turing) para identificar a capacidade cognitiva de uma IA. O teste é simples: você julga um modelo de IA com base em sua capacidade de assistir e entender vídeos do YouTube e programas de TV sem legendas ou texto. Para que a IA passe no teste de Marcus, ela deve entender o sarcasmo, o humor, a ironia e o enredo ao assistir aos vídeos e explicá-los como um humano.

Embora os avanços atuais em inteligência artificial tenham permitido ao GPT-4 transmitir efetivamente informações visuais por meio de descrições textuais, permanece evidente que nenhum modelo de IA existente possui a capacidade de compreensão de vídeo a par da percepção humana. Apesar do progresso alcançado pelos veículos autônomos equipados com sistemas de sensores avançados, essas tecnologias ainda carecem de total autonomia, pois são incapazes de interpretar completamente todos os aspectos do ambiente.

O Teste de Turing Visual

/pt/images/dall-e-ai-generated-image-gallery.jpg

De acordo com um trabalho de pesquisa publicado em PNAS, o teste visual de Turing pode ser usado para identificar se você está falando com um humano ou uma IA usando questionários de imagem. Funciona como o teste de Turing, mas em vez de responder a perguntas usando textos, os participantes veem imagens e espera-se que respondam a perguntas simples enquanto pensam como um ser humano. No entanto, o teste visual de Turing é diferente dos CAPTCHAs, pois todas as respostas estão corretas – mas, para passar no teste, a IA deve processar as imagens de maneira semelhante a um humano.

Parafraseando em inglês avançado: Além disso, quando apresentados a várias imagens simultaneamente para identificação, os humanos possuem a capacidade cognitiva necessária para concluir com êxito essas tarefas. Por outro lado, os modelos de IA muitas vezes lutam para diferenciar entre as fotografias que carecem de autenticidade ou parecem geradas artificialmente. Como resultado, isso representa uma oportunidade para os humanos detectarem inconsistências e sinalizá-las como suspeitas.

O teste Lovelace 2.0

/pt/images/robot-holding-pencil-pointing-to-book-1.jpg

A teoria de que um computador não pode criar ideias originais além do que foi programado para fazer foi conceituada pela primeira vez por Ada Lovelace antes do teste de Turing. No entanto, Alan Turing se opôs a essa teoria argumentando que a IA ainda pode surpreender os humanos. Não foi até 2001 que as diretrizes para o teste Lovelace foram desenvolvidas para diferenciar uma IA de um ser humano-e, de acordo com a thekurzweillibrary as regras foram posteriormente revisadas em 2014.

Para satisfazer os requisitos do teste de Lovelace, um sistema de inteligência de máquina deve exibir a capacidade de produzir novos conceitos que ultrapassem o escopo de sua programação preexistente. Atualmente, modelos de IA como o GPT-4 são incapazes de criar invenções inovadoras que ultrapassem os limites do conhecimento humano. No entanto, a obtenção da inteligência geral artificial (AGI) permite esse nível de criatividade e permitiria a conclusão bem-sucedida do teste Lovelace.

Teste de Turing Reverso

/pt/images/pexels-matheus-bertelli-16094042.jpg

Que tal o teste de Turing, mas feito ao contrário? Em vez de tentar descobrir se você está falando com um humano, o objetivo do teste de Turing reverso é fazer a IA acreditar em você’é uma IA. No entanto, você também precisa de outro modelo de IA para responder às mesmas perguntas usando texto.

Uma ilustração disso seria quando o ChatGPT-4 atua como questionador, com o Google Bard e um ser humano registrado como colaboradores. Caso o modelo de inteligência artificial seja capaz de identificar a identidade da contraparte humana por meio de suas respostas, ele limpou com sucesso os critérios de avaliação.

Uma desvantagem potencial do Teste de Turing Reverso é sua falta de consistência em distinguir com precisão entre texto gerado por IA e conteúdo criado por humanos. Esse problema surge quando o sistema de IA falha em discernir qual material foi produzido por uma máquina e qual foi composto por uma pessoa, destacando a necessidade de maior refinamento e aprimoramento das capacidades de inteligência artificial.

Estrutura de classificação de IA

/pt/images/ai-chess.jpg

De acordo com a estrutura de classificação de IA desenvolvida por Chris Saad, o teste de Turing é apenas um método de avaliação para saber se você está falando com uma IA. Mais sucintamente, a estrutura de classificação da IA ​​é baseada na teoria da inteligência múltipla, que exige que a inteligência humana satisfaça pelo menos oito critérios diferentes, que incluem: ritmo musical, inteligência lógico-matemática, identificação visual, inteligência emocional, inteligência autorreflexiva , capacidade de pensamento existencial e movimento corporal.

À luz dos critérios de avaliação multifacetados empregados pelo sistema de IA, alcançar um desempenho geral superior ao de um ser humano típico parece cada vez mais desafiador. Para ilustrar esse ponto, considere o exemplo do ChatGPT, que se destaca na solução de problemas matemáticos, na interpretação de imagens visuais e na condução de um discurso com aparência de conversa humana. No entanto, essa proficiência excepcional fica aquém em várias áreas cruciais descritas no esquema de categorização da IA.

O teste de Turing não é conclusivo

A conceituação do Teste de Turing pretendia ser um exercício intelectual, e não um critério definitivo para distinguir a cognição humana da inteligência artificial. Inicialmente, este teste serviu como um medidor primordial para avaliar a inteligência computacional.

À luz dos avanços nos modelos de inteligência artificial que possuem capacidades de interface linguística, visual e auditiva, o Teste de Turing parece insuficiente, pois se limita apenas à comunicação baseada em texto. Para avaliar com precisão a proficiência em IA, um sistema de avaliação mais abrangente que englobe várias modalidades pode ser a abordagem ideal.