Contents

Os 6 melhores modelos de línguas grandes em 2023

Key Takeaways

A atual iteração do GPT-4 da OpenAI apresenta um conjunto impressionante de capacidades, incluindo um número impressionante de 1,76 triliões de parâmetros, o que o torna um dos maiores e mais avançados modelos de linguagem de grande dimensão atualmente existentes. Além disso, as suas capacidades multimodais permitem uma maior variedade de aplicações em vários meios.

O Claude 2 da Anthropic demonstra uma proficiência impressionante na escrita criativa, alcançando um desempenho equivalente ao do GPT-4, apesar de possuir recursos limitados em comparação com o seu homólogo.

Embora o mais recente modelo linguístico da Google, conhecido como PaLM 2, possa não estar à altura das proezas do GPT-4, continua a ser uma força formidável no domínio da linguística, ostentando capacidades impressionantes em várias línguas e evidenciando um engenho considerável nos seus resultados. Entretanto, o Falcon-180B, uma alternativa de código aberto, demonstrou uma proficiência notável a par de alguns dos líderes da indústria, aventurando-se mesmo em território anteriormente dominado pelo GPT-3.

O clima atual é caracterizado por uma abundância de tecnologias de inteligência artificial, com numerosas empresas a produzir modelos linguísticos avançados a um ritmo acelerado. A proliferação destes novos sistemas resultou numa situação em que é cada vez mais difícil para os indivíduos manterem uma consciência abrangente de todas as opções disponíveis.

À medida que o ano chega ao fim, é evidente que apenas alguns modelos se distinguiram entre a multidão de modelos linguísticos recentemente lançados. Estes modelos excepcionais demonstraram a sua capacidade no panorama competitivo dos grandes modelos linguísticos. Com isto em mente, apresento-lhe os seis modelos linguísticos de grande dimensão mais notáveis que vale a pena explorar.

OpenAI’s GPT-4

/pt/images/7-ways-to-use-chatgpt-vision.jpg

O GPT-4 representa um avanço significativo no domínio da inteligência artificial, uma vez que constitui o exemplo mais atual de um modelo linguístico de grande escala acessível ao público em geral. Este sistema inovador foi desenvolvido conjuntamente pela OpenAI e lançado durante o mês de março do ano 2023. Como parte integrante da série Generative Pre-trained Transformer em curso, o GPT-4 possui capacidades excepcionais que o tornaram um dos modelos linguísticos de grande escala mais prevalecentes e muito procurados a nível mundial.

Especula-se que o GPT-4 tenha aproximadamente 1,76 triliões de parâmetros, o que é substancialmente maior do que o número presente no seu precursor, o GPT-3.5, ou mesmo no modelo avançado da Google, o PaLM.A enorme dimensão destes parâmetros permite ao GPT-4 possuir uma vasta gama de capacidades que vão para além do simples processamento de texto, permitindo-lhe tratar simultaneamente entradas de imagem e de texto. Consequentemente, esta caraterística confere ao GPT-4 a capacidade de compreender e representar material visual, como diagramas e capturas de ecrã, juntamente com conteúdo escrito. A incorporação de múltiplas modalidades aumenta a capacidade do sistema para compreender situações da vida real de uma forma que faz lembrar a cognição humana.

Numa série de avaliações empíricas, o GPT-4 demonstrou uma superioridade notável sobre os seus homólogos contemporâneos em numerosas avaliações. No entanto, é de notar que, embora estes parâmetros de referência ofereçam informações valiosas sobre as capacidades de um modelo, não fornecem uma representação abrangente dos seus pontos fortes globais. No entanto, observou-se que o GPT-4 apresenta uma extraordinária capacidade de resolução de dificuldades práticas com um elevado grau de intuição quando aplicado a cenários reais. Atualmente, o preço do GPT-4 é de 20 dólares por mês e pode ser acedido como parte da opção de subscrição Plus do ChatGPT.

Anthropic’s Claude 2

/pt/images/meet-claude-anthropic-ai-logo-feature.jpg Crédito da imagem: Anthropic

Claude 2, um modelo de linguagem de IA criado pela Anthropic AI, é capaz de igualar a proficiência técnica e o desempenho no mundo real do GPT-4 em vários domínios. De facto, em certas avaliações padronizadas, como exames seleccionados, o Claude 2 demonstrou ultrapassar o GPT-4. Além disso, uma vantagem notável que o Claude 2 tem sobre seu concorrente é sua janela de contexto expansiva de aproximadamente 100.000 tokens, que excede em muito as capacidades de 8k e 32k tokens dos modelos do GPT-4. Embora seja importante notar que uma janela de contexto maior não garante necessariamente um melhor desempenho, a maior capacidade fornecida pelo Claude 2 oferece, sem dúvida, benefícios distintos, tais como a sua capacidade de analisar

O GPT-4 continua a demonstrar um desempenho excecional em vários domínios, enquanto as nossas avaliações internas indicam que o Claude 2 ultrapassa o GPT-4 em determinadas tarefas de escrita criativa. No entanto, GPT-4 mantém uma vantagem sobre Claude 2 em habilidades de programação e matemática de acordo com nossas avaliações. No entanto, o Claude 2 forneceu consistentemente respostas altamente articuladas e imaginativas, que foram escolhidas como o resultado preferido em seis de cada dez instâncias, quando se solicitaram vários modelos de IA com uma tarefa criativa. Atualmente, os utilizadores podem interagir com o Claude 2 através do chatbot de IA Claude, de acesso livre, ou optar pela versão premium, com um preço de 20 USD, para obterem mais capacidades.

O modelo de IA Claude 2 da Anthropic demonstra um nível de desempenho notável, apesar de possuir menos recursos financeiros em comparação com os líderes do sector, como a OpenAI e a Microsoft. De facto, quando confrontado com modelos de IA populares como o GPT e a série PaLM da Google, o Claude 2 mantém a sua posição de forma admirável. É evidente que, para uma IA com recursos limitados, o Claude 2 apresenta uma competitividade louvável. Se fosse necessário especular sobre qual o modelo de IA atual com maior potencial para desafiar o GPT num futuro próximo, o Claude 2 pareceria ser o candidato mais promissor. Embora o Anthropic possa não ter o mesmo nível de financiamento que alguns dos seus congéneres mais estabelecidos, as capacidades de ponta do Claude 2 sugerem que pode, de facto, competir com o GPT-3.5 da OpenAI

/pt/images/person-holding-openai-logo-in-hand-feature.jpg Crédito da imagem: Marcelo Mollaretti/ Shutterstock

O GPT-3.5, apesar de ter sido eclipsado pelo lançamento subsequente do GPT-4, não deve ser subestimado devido à sua dimensão substancial de 175 mil milhões de parâmetros. Através de um refinamento contínuo por meio de afinações iterativas e melhorias centradas na eficiência, precisão e segurança, o GPT-3.5 avançou significativamente desde a sua encarnação inicial como GPT-3. Apesar de ficar aquém do GPT-4 em termos de proficiência multimodal e capacidade global, particularmente quando se considera o alcance contextual e a capacidade de parâmetros, o GPT-3.5 ainda demonstra uma competência notável. No entanto, o GPT-4 é atualmente o único concorrente que consegue ultrapassar inequivocamente o GPT-3.5 em todos os

Dado que é um modelo subsidiário da série GPToken, o GPT-3.5 demonstra uma capacidade impressionante para rivalizar com os principais sistemas de IA, como os fornecidos pela Google e pela Meta. As comparações efectuadas com o PaLM 2 da Google demonstraram que, embora não houvesse uma margem significativa entre eles em termos de proficiência matemática e de codificação, o GPT-3.5 apresentava, de facto, uma vantagem marginal em certos casos. Além disso, ao avaliar a criatividade através de medidas como a inteligência e a composição de histórias, o GPT-3.5 mostrou uma clara superioridade sobre a concorrência.

De facto, a revelação do GPT-4 representa um avanço significativo nas capacidades da inteligência artificial. No entanto, apesar de ter sido ultrapassado pelo seu sucessor, o GPT-3.5 continua a ter uma proeza formidável, superando frequentemente as alternativas mais avançadas. Além disso, o aperfeiçoamento contínuo mantém a sua relevância no meio de tecnologias emergentes mais recentes e cativantes.

Google’s PaLM 2

/pt/images/google-palm-2-feature.jpg Crédito da imagem: Google

Ao avaliar as competências de um modelo de inteligência artificial, é habitual ler o seu relatório técnico e examinar as suas pontuações de referência, mas é necessário abordar estes resultados com ceticismo e efetuar testes pessoais. Contrariamente à intuição, os resultados dos testes de referência não reflectem de forma consistente o desempenho real de certos modelos de IA. Por exemplo, de acordo com as suas especificações técnicas, previa-se que o PaLM 2 da Google ultrapassasse o GPT-4 em vários testes de referência; no entanto, na aplicação prática, surge um cenário diferente.

O PaLM 2, desenvolvido pela Google, foi avaliado em comparação com outros modelos linguísticos avançados, como o GPT-It e o Anthropic’s Claude, em termos da sua capacidade para desempenhar várias funções cognitivas, incluindo o raciocínio matemático, o pensamento lógico e a escrita criativa. Embora demonstre pontos fortes significativos nestas áreas, ainda fica atrás de alguns dos seus concorrentes quando comparados lado a lado. No entanto, apesar de não corresponder a todas as expectativas de ser um sucessor direto do GPT-3, o PaLM 2 continua a ser considerado um jogador formidável no terreno devido às suas capacidades impressionantes que ultrapassam muitos outros sistemas de IA.

O PaLM 2 possui um vasto número de parâmetros, com mais de 340 mil milhões, posicionando-o como um dos modelos mais extensos existentes. O modelo apresenta uma proficiência excecional em tarefas multilingues e exibe capacidades matemáticas e computacionais formidáveis. Embora possa não ser incomparável em todos os aspectos, o PaLM 2 continua a ser altamente capaz quando se trata de esforços criativos como a escrita. Apesar de algumas promessas iniciais sugeridas pelos testes de referência, a realização plena não foi alcançada uniformemente em todos os domínios, mas o PaLM 2 continua a demonstrar proezas de inteligência artificial dignas de nota, embora não consiga superar todos os seus pares universalmente.

TII’s Falcon-180B

/pt/images/falcon-180b.jpg

O Falcon-180B, um produto do Instituto de Inovação Tecnológica dos Emirados Árabes Unidos, pode não ter o mesmo nível de familiaridade que outros modelos de linguagem de IA, como o GPT, ou a popularidade do Llama da Meta. No entanto, os seus impressionantes 180 mil milhões de parâmetros colocam-no entre a elite e capaz de competir com os melhores desempenhos neste domínio.

Foi demonstrado que o desempenho do Falcon-180B ultrapassa muitos modelos de código aberto e que se mantém firme face às principais soluções comerciais, como o PaLM 2 e o GPT-3. Numa série de testes, incluindo resolução de problemas matemáticos, programação, raciocínio lógico e escrita criativa, o Falcon-180B conseguiu mesmo superar o GPT-3.5 em algumas ocasiões.Ao considerar a colocação do GPT-4, GPT-3.5 e Falcon-180B, é evidente que o Falcon-180B deve ser posicionado entre estes dois modelos devido às suas notáveis capacidades em várias aplicações.

Embora possa não superar o GPT-3.5 em todos os aspectos, o Falcon-180B apresenta um argumento convincente com sua capacidade de igualar e até mesmo superar as capacidades de alternativas mais proeminentes. Apesar de ser menos conhecido, este modelo merece ser considerado e foi disponibilizado através da plataforma LLM de código aberto, Hugging Face.

Meta AI’s Llama 2

/pt/images/llama-illustration.jpg

Llama 2 é um avanço notável do modelo linguístico expansivo da Meta AI com uns impressionantes 70 mil milhões de parâmetros. Apesar de ter menos recursos em comparação com alguns outros líderes do sector, demonstra um desempenho notavelmente superior tanto em testes de referência como em aplicações práticas, ultrapassando muitos LLMs de código aberto amplamente acessíveis. No entanto, existem excepções, como o Falcon-180B, que pode ter um desempenho melhor em determinadas situações.

Para avaliar o desempenho da Llama 2 em relação a outros modelos de última geração, realizámos experiências contra a GPT-4, GPT-3.5, Claude 2 e PaLM 2. No entanto, o Llama 2 apresentou resultados competitivos em comparação com o GPT-3.5 e o PaLM 2 em determinados benchmarks. Não se deve inferir que a Llama 2 supera totalmente o PaLM 2; no entanto, a Llama 2 superou o PaLM 2 na resolução de vários problemas difíceis, como tarefas de codificação. Em contrapartida, Claude 2 e GPT-3.5 excederam marginalmente

A Llama 2, apesar de não ultrapassar as capacidades dos modelos proprietários mais avançados, apresenta um desempenho notável para um modelo linguístico de código aberto. De facto, em certas avaliações, está à altura dos líderes do sector, como o PaLM 2, o que constitui uma antevisão promissora do que os modelos linguísticos de código aberto podem alcançar no futuro.

A diferença de desempenho entre os modelos de IA está a diminuir

Apesar dos rápidos avanços no campo da inteligência artificial, o GPT-4 da OpenAI continua a liderar em termos de tamanho e desempenho. Embora nenhum outro modelo tenha ainda conseguido igualar as capacidades do GPT-4, vale a pena notar que certos modelos mais pequenos demonstraram capacidades excepcionais em domínios específicos. Por exemplo, o Claude 2 é um desses modelos que demonstrou a sua proeza em áreas seleccionadas. Além disso, embora o PaLM 2 da Google possa ter ficado aquém de algumas expectativas elevadas, continua a possuir capacidades consideráveis. Por último, o projeto de código aberto Falcon-180B serve como um excelente exemplo de como as iniciativas com recursos adequados podem estar ao nível dos principais intervenientes da indústria.