Contents

O que é o Claude 3 e o que se pode fazer com ele?

A Anthropic revelou a mais recente iteração do seu modelo de IA, denominado Claude 3, que possui capacidades impressionantes e pode desafiar o domínio de plataformas estabelecidas, como a GPT-3. Embora o Claude 3 seja muito promissor, resta saber se está totalmente preparado para suplantar o atual líder na área.

O que é o Claude 3?

O Claude 3 é uma família avançada de modelos de inteligência artificial concebida pela Anthropic para substituir o seu antecessor, o Claude 2. Pode ser considerado como a resposta da Anthropic a concorrentes como o Gemini da Google e o GPT-4 da OpenAI. A família é composta por três iterações distintas - Haiku, Sonnet e Opus - cada uma representando níveis cada vez mais altos de inteligência. Nomeadamente, o Claude 3 marca a incursão da Anthropic na IA multimodal, o que significa um avanço substancial em relação à geração anterior.

De facto, embora a aclamação dada ao ChatGPT e o reconhecimento obtido pelo Gemini da Google possam ter tornado a IA do Claude uma entidade desconhecida para alguns, este estado de coisas não é surpreendente, dada a obscuridade comparativa de que gozam os primeiros em relação aos dois últimos. No entanto, apesar deste relativo anonimato, não se pode negar que o Claude se encontra entre os chatbots de IA mais desenvolvidos a nível mundial, ultrapassando mesmo as capacidades do ChatGPT em certas dimensões cruciais.

Para compreender verdadeiramente os méritos do Claude 3, é preciso contemplar as deficiências dos seus antecessores, de modo a obter uma apreciação completa dos avanços feitos por este modelo.

As versões anteriores do Claude eram conhecidas por exibirem uma cautela excessiva em termos de segurança da IA. Por exemplo, algumas das medidas de segurança implementadas no Claude 2 eram bastante rigorosas e faziam com que o chatbot se esquivasse a discutir certos assuntos, mesmo que não apresentassem quaisquer riscos de segurança aparentes.

A capacidade do modelo para processar o contexto foi considerada limitada em iterações anteriores do Claude. O termo “janela de contexto” refere-se à quantidade de informação que a IA pode ter em conta ao gerar respostas. Nas suas fases iniciais, o Claude tinha uma janela de contexto de 200k tokens, o que se traduzia em aproximadamente 150.000 palavras. Infelizmente, isto provou ser demasiado grande para o modelo conseguir gerir eficazmente em simultâneo sem perder detalhes importantes nos dados de entrada.

O desafio apresentado pela multimodalidade não foi superado por Claude. Apesar desta limitação, ele continuou a ser um modelo linguístico altamente capaz por direito próprio.

Com o lançamento do Claude 3, todas as preocupações anteriores relativas à funcionalidade e ao desempenho foram resolvidas na sua totalidade ou de forma significativa.

O que se pode fazer com o Claude 3?

/pt/images/claude-image-1.jpg

O Claude 3 é um modelo de IA generativa altamente avançado que possui a capacidade de produzir resultados excepcionais para uma vasta gama de questões que abrangem diversas disciplinas. Independentemente de ser necessária a resolução rápida de uma equação algébrica elementar, a composição de uma peça musical original, a redação de um tratado académico abrangente, o desenvolvimento de código de programação para aplicações de software ou a análise de conjuntos de dados volumosos, o Claude 3 representa a solução ideal.

Embora muitos modelos de inteligência artificial tenham demonstrado proficiência em várias tarefas relacionadas com a linguagem, pode ainda haver razões convincentes para considerar a utilização do Claude 3 para tais empreendimentos.

O Claude 3 destaca-se como um modelo de inteligência artificial multimodal excecionalmente avançado que ultrapassa outros modelos de IA em termos das suas capacidades para várias tarefas. Embora o Gemini, que atraiu uma atenção significativa devido ao seu desempenho em testes de referência, também possa ser considerado um concorrente formidável, a Anthropic afirma com confiança que o Claude 3 demonstra uma vantagem notável sobre ele em vários domínios. Embora a validade dos resultados dos testes de referência deva, por vezes, ser abordada com cautela, testei pessoalmente ambos os modelos de IA e observei o desempenho preeminente do Claude 3 em várias aplicações críticas.

O Claude 3 oferece uma gama de capacidades semelhantes às disponíveis no Gemini e no GPT-4, excluindo a geração de imagens, tudo sem custos adicionais para além do preço de compra inicial, ao contrário da subscrição mensal de 20 dólares exigida pelo serviço premium do ChatGPT.

Claude 3 vs. ChatGPT

/pt/images/chatgpt-vs-claude-ai-featured.jpg

Um método eficaz para avaliar a eficiência de um sistema de aprendizagem automática consiste em comparar o seu desempenho com o dos melhores do sector. A este respeito, colocámos em confronto dois modelos proeminentes - GPT e Anthropic’s Claude 3. No entanto, resta saber qual deles sai vitorioso quando comparado com o formidável GPT-4.

Claude vs. ChatGPT: Habilidades de codificação

O Claude 3 demonstrou proficiência excecional em tarefas de programação, superando o GPT-4 em várias tarefas básicas de programação que foram testadas. Em contrapartida, durante a nossa avaliação anterior do Claude, em setembro, este teve um desempenho fraco em comparação com o ChatGPT na construção de uma aplicação simples de lista de tarefas.

Em nossa avaliação do Claude 3, ele apresentou funcionalidade aprimorada em vários cenários de teste em comparação com seu antecessor.Quando esta plataforma lhe pediu para gerar uma aplicação de gestão de tarefas eficiente, eis o que foi produzido pelo GPT-4.

/pt/images/chatgpt-gpt-4-makes-a-todo-list-app.jpg

A resposta do Cláudio 3, quando lhe foi pedido que gerasse um texto semelhante utilizando o modelo fornecido, foi a seguinte: “O sol mergulhava abaixo do horizonte, lançando um brilho alaranjado sobre a paisagem e criando uma atmosfera serena que parecia encarnar a essência da tranquilidade.

/pt/images/claude-3-makes-todo-list-app.jpg

Ambas as aplicações demonstraram funcionalidade, com o Claude 3 a apresentar um desempenho superior em comparação.

Depois de uma avaliação de códigos mais complexos, tornou-se evidente que tanto o Cláudio como o GPT-4 demonstraram proficiência em vários aspectos da programação. Apesar disso, parece que o Cláudio superou o GPT-4 em certos casos, embora o GPT-4 também tenha alcançado sucessos notáveis. É difícil tirar conclusões definitivas sobre a superioridade de qualquer um dos modelos em relação à lógica de programação; no entanto, se houvesse uma disparidade significativa entre eles, é altamente provável que essa diferença tivesse diminuído consideravelmente.

Claude vs. ChatGPT: Raciocínio de senso comum

Experimentar ambos os sistemas envolveu colocar um conjunto de questões que pareciam simples, mas que necessitavam de inteligência prática para uma resposta adequada.

Suponha que uma nave espacial vinda de Marte se divide em dois fragmentos, resultando numa secção que colide com o Oceano Atlântico perto do Brasil e outra parte que embate no Oceano Pacífico perto do Japão. Como é que os restos mortais dos passageiros sobreviventes seriam enterrados?

/pt/images/chatgpt-answers-trick-question.jpg

De facto, é digno de nota que o nosso sistema, o ChatGPT, tenha demonstrado proficiência na resolução eficaz de tais questões, apesar das deficiências históricas exibidas pelos chatbots a este respeito. É agora a oportunidade do Cláudio dar uma resposta.

/pt/images/testing-claude-3-on-commonsense-reasoning.jpg

O Claude deu uma resposta um pouco ambígua, mas conseguiu identificar os pormenores cruciais, nomeadamente que não se abandonam as pessoas que conseguiram sobreviver. Vale a pena mencionar que, durante o nosso inquérito anterior ao Claude relativamente a este assunto, este não reconheceu o raciocínio lógico inerente à situação.

Cláudio vs. ChatGPT: Escrita criativa

Num contexto prático, existem inúmeras aplicações para chatbots de inteligência artificial que envolvem a geração de diversos tipos de conteúdo criativo, como peças escritas, correspondência e até composições musicais.Como tal, foi efectuada uma avaliação para discernir qual o modelo que produzia um som mais natural que se assemelhasse à fala humana.

O objetivo era gerar resultados que transcendessem a mera precisão ou criatividade de uma forma artificial, transmitindo em vez disso um toque humano natural. Assim, ambos os modelos foram encarregados de elaborar os versos de uma canção de rap centrada no cultivo de pepinos e na acumulação de riqueza através da sua venda. Quem é que concebe rimas sobre pepinos? Um tema tão exigente serve de teste final.

Aqui está a resposta do ChatGPT:

/pt/images/chatgpt-writes-lyrics-to-a-rap-song.jpg

Aqui está a minha interpretação da pergunta dada de uma forma mais sofisticada.

/pt/images/claude-writes-lyrics-to-a-wrap-song.jpg

Embora a determinação possa estar aberta à interpretação pessoal, parece que o Cláudio demonstra maior proficiência neste caso. Em cada uma das suas tentativas de elaboração de três peças separadas sobre assuntos distintos, o Claude demonstrou superioridade em relação ao seu homólogo, produzindo um resultado que fazia lembrar a autoria humana, evitando algumas armadilhas comuns tipicamente encontradas em conteúdos gerados por inteligência artificial, tais como embelezamentos injustificados, vocabulário elaborado e utilização errática de frases de transição.

Claude vs. ChatGPT: capacidades de reconhecimento de imagens

Para avaliar as capacidades de perceção visual de ambos os modelos, foi apresentada ao ChatGPT e ao Claude uma série de arranha-céus de renome mundial para identificação. O primeiro demonstrou a sua proficiência ao identificar com precisão todas as 20 estruturas, enquanto o segundo teve dificuldade em três casos, nomeadamente o proeminente Marina 101 do Dubai, a Lotte World Tower da Coreia do Sul e o icónico edifício Merdeka 118 localizado em Kuala Lumpur, Malásia.

O Claude demonstrou uma precisão relativamente menor quando reconheceu estruturas que não estavam localizadas nos Estados Unidos ou na China, o que resultou num aumento da taxa de erro para esses casos. No entanto, demonstrou uma capacidade proficiente para identificar representações distorcidas de marcos icónicos como a Torre Eiffel ou o Empire State Building.

/pt/images/empire-state-building-identified-by-claude-3.jpg

Embora o ChatGPT demonstre um desempenho superior a este respeito, deve reconhecer-se que a incursão inicial da Anthropic no desenvolvimento de um sistema de inteligência artificial multimodal com o Claude 3 não foi desprovida de mérito.

A expetativa em torno de modelos altamente aclamados, como o Palm 2 da Google e, mais tarde, o Gemini, foi muitas vezes direccionada para o seu potencial para ultrapassar o GPT-4.No entanto, a nossa perspetiva manteve-se firme na previsão de que o relativamente desconhecido Claude AI acabaria por assumir este papel aquando da sua estreia em março. Com o passar do tempo e a implementação de numerosas actualizações, Claud