Os 6 melhores modelos de línguas grandes em 2023

Leonard Strauss included in Technology Explained Artificial Intelligence Chatgpt Machine Learning

2023-10-30 1880 words 9 minutes

Contents

Key Takeaways

De facto, o GPT-4 da OpenAI tem sido aclamado como um modelo linguístico de grande escala de última geração e utilizado de forma predominante, ostentando uma impressionante contagem de parâmetros de 1,76 triliões, possuindo também capacidades multimodais versáteis.

O Claude 2 da Anthropic demonstra uma proficiência impressionante na escrita criativa, apresentando um desafio formidável ao GPT-4, apesar de funcionar com recursos limitados em comparação com o seu homólogo.

Embora o PaLM 2 da Google possa não ser tão avançado como o GPT-4, continua a ser um modelo linguístico potente, com capacidades linguísticas cruzadas robustas e proezas imaginativas. Em contraste, o Falcon-180B, que está disponível num formato de código aberto, demonstra um desempenho equivalente ao de titãs comerciais como o GPT-3.

A atual proliferação da inteligência artificial conduziu a uma abundância de modelos linguísticos de grande escala produzidos por empresas tecnológicas a um ritmo espantoso. O grande volume de novos lançamentos é um desafio para as pessoas monitorizarem adequadamente e manterem um conhecimento abrangente.

À medida que o ano chega ao fim, é evidente que apenas alguns modelos seleccionados de entre a multidão de modelos recentemente lançados se distinguiram como concorrentes formidáveis no vasto domínio dos modelos linguísticos de grande escala. Com isto em mente, apresento-vos os seis exemplos mais excepcionais de tais modelos que, sem dúvida, valem a pena explorar.

OpenAI’s GPT-4

O GPT-4 representa um avanço significativo no domínio da inteligência artificial no que diz respeito ao processamento de linguagem natural. Sendo a mais recente adição à estimada linhagem do Generative Pre-trained Transformer, esta tecnologia de ponta foi desenvolvida pela OpenAI e estreou em março de 2023. Desde a sua introdução, o GPT-4 ganhou reconhecimento generalizado pelo seu desempenho excecional, posicionando-se como um dos modelos de linguagem de grande dimensão mais prevalecentes e altamente considerados atualmente disponíveis para o público em geral.

Diz-se que o GPT-4 tem uns impressionantes 1,76 triliões de parâmetros, o que é aproximadamente dez vezes superior ao GPT-3.5 e até ultrapassa as capacidades do modelo topo de gama da Google, o PaLM. A vasta quantidade de parâmetros permite a excecional capacidade multimodal do GPT-4, permitindo-lhe lidar facilmente com entradas textuais e gráficas. Consequentemente, esta capacidade avançada facilita a capacidade do GPT-4 de compreender e fornecer descrições de conteúdos visuais, como diagramas e capturas de ecrã, juntamente com material textual. Ao possuir esta proficiência multimodal, o GPT-4 exibe um nível de compreensão que se assemelha muito à perceção humana de dados complexos do mundo real.

Em comparação com os seus contemporâneos, o GPT-4 demonstrou um desempenho superior em numerosas avaliações científicas. Embora os resultados de benchmark não forneçam uma representação abrangente das capacidades de um modelo, as aplicações reais revelaram que o GPT-4 exibe uma capacidade extraordinária para resolver questões complexas com facilidade. Atualmente com um preço de 20 dólares por mês, o acesso ao GPT-4 pode ser obtido através da subscrição do plano Plus do ChatGPT.

Anthropic’s Claude 2

Crédito da imagem: Anthropic

Claude 2, um modelo de linguagem de IA criado pela Anthropic AI, possui a capacidade de alcançar proficiências técnicas e resultados práticos semelhantes aos do GPT-4, embora com menos destaque. Em determinadas avaliações padronizadas, como cenários de exames específicos, o Claude 2 demonstrou superioridade em relação ao GPT-4. Uma distinção notável entre os dois é o facto de o Claude 2 possuir um âmbito contextual consideravelmente mais alargado de aproximadamente 100 000 fichas, enquanto os modelos comparáveis do GPT-4 estão limitados a 8 000 ou 32 000 fichas. Embora não seja universalmente verdade que o aumento do contexto leva a um melhor desempenho, a capacidade mais ampla do Claude 2 oferece inegavelmente benefícios tangíveis,

Embora o GPT-4 mantenha uma vantagem no desempenho geral, as nossas avaliações internas indicam que o Claude 2 o ultrapassa em determinadas tarefas de escrita criativa. No entanto, o GPT-4 continua a liderar em termos de programação e capacidades matemáticas, de acordo com os nossos critérios de avaliação. Apesar disso, o Claude 2 destaca-se por produzir respostas que são altamente reminiscentes da comunicação humana, tornando-o uma opção atractiva quando se procura um resultado coerente e articulado. De facto, durante a nossa experiência, em que solicitámos composições criativas a cada um dos modelos aqui listados, seis em cada dez casos favoreceram o Claude 2 devido aos seus resultados perfeitos e realistas. Atualmente, os usuários podem aproveitar o Claude 2 gratuitamente por meio do chatbot Claude AI. Além disso, existe uma assinatura premium com preço de vinte

O modelo Claude 2 AI da Anthropic demonstra um desempenho notável, apesar do suporte financeiro limitado em comparação com líderes da indústria, como OpenAI e Microsoft. De facto, quando confrontado com alternativas populares como o GPT e a série PaLM da Google, o Claude 2 mantém a sua posição de forma admirável. Sendo um sistema de IA com poucos recursos, a competitividade do Claude 2 é verdadeiramente louvável. Se alguém especular sobre qual modelo atual tem a maior chance de rivalizar com o GPT no curto prazo, o Claude 2 seria uma escolha astuta.Embora enfrentando disparidades significativas de recursos, as funcionalidades avançadas do Claude 2 indicam o seu potencial para enfrentar até mesmo adversários generosamente financiados, embora se deva notar que a Google forneceu um apoio substancial ao Anthropic

GPT-3 da OpenAI.5

Crédito da imagem: Marcelo Mollaretti/ Shutterstock

Apesar de ter recebido menos atenção do que o seu sucessor GPT-4, o GPT-3.5 possui um conjunto impressionante de capacidades graças à melhoria contínua através de iterações de afinação e melhorias que visam a eficiência, a precisão e a segurança. Apesar de ficar aquém do GPT-4 em termos de integração multimodal e capacidade geral, o GPT-3.5 ainda demonstra uma proficiência notável. No entanto, quando comparado com o GPT-4, o GPT-3.5 dificilmente consegue igualar o seu desempenho abrangente superior.

Dado que se trata de uma versão subsidiária do GP

GPT-4 representa um avanço significativo nas capacidades de inteligência artificial, mas o GPT-3.5 ainda ostenta um poder notável e pode frequentemente superar os concorrentes mais recentes. A otimização contínua deste modelo mantém a sua relevância mesmo com o aparecimento de novas gerações.

Google’s PaLM 2

Crédito da imagem: Google

Ao avaliar as competências de um modelo de inteligência artificial, a abordagem convencional envolve a leitura do seu relatório técnico e o exame das suas pontuações de referência, embora com uma pitada de ceticismo. É essencial efetuar testes independentes para verificar as afirmações feitas por estas métricas, uma vez que, contra-intuitivamente, nem sempre correspondem ao desempenho real em todos os casos. Por exemplo, o Project Magnet (PaLM) 2 da Google foi apresentado como um adversário formidável do GPT-4 com base na sua superioridade em determinados testes de referência. No entanto, na aplicação prática, a situação parece um pouco diferente.

O PaLM 2, desenvolvido pela Google, pode não estar à altura do nível de desempenho exibido por outros modelos linguísticos avançados, como o GPT-It ou o Claude, em áreas como o raciocínio matemático, a lógica e a criatividade. No entanto, apesar desta limitação, o PaLM 2 continua a possuir capacidades substanciais no seu domínio, o que suscitou um interesse significativo entre investigadores e programadores. É importante notar que muitas das críticas dirigidas ao PaLM 2 resultam da comparação feita entre este e modelos mais avançados, e não de qualquer deficiência inerente da sua parte.

O PaLM 2 possui um número colossal de parâmetros com 340 mil milhões, o que o torna um dos modelos mais extensos a nível mundial.O seu ponto forte reside no seu desempenho excecional em tarefas multilingues, acompanhado de uma proficiência robusta em matemática e programação. Embora possa não ser o melhor, o PaLM 2 apresenta capacidades louváveis em domínios criativos como a escrita. Apesar de os indicadores positivos iniciais dos testes de referência não se concretizarem totalmente, o PaLM 2 demonstra uma notável aptidão para a IA, embora não consiga superar todos os rivais em todos os aspectos.

TII’s Falcon-180B

O falcon-180b, um produto do instituto de inovação tecnológica dos Emirados Árabes Unidos, possui uns impressionantes 180 mil milhões de parâmetros e é um dos mais potentes modelos linguísticos de fonte aberta atualmente disponíveis no mercado. Apesar da sua falta de renome em comparação com modelos populares como o GPT ou a utilização extensiva do Llama da Meta, as capacidades do Falcon-180B são inegavelmente formidáveis e podem competir com confiança contra quaisquer outros concorrentes na mesma categoria.

Foi demonstrado que o desempenho do Falcon-180B ultrapassa muitos modelos de código aberto e se mantém contra líderes da indústria como o PaLM 2 e o GPT-3 numa variedade de testes, incluindo matemática, programação, resolução de problemas e escrita criativa. Em alguns casos, conseguiu mesmo superar o GPT-3.5. Ao comparar estes três sistemas de IA (GPT-4, GPT-3.5 e Falcon-180B), o Falcon-180B está posicionado favoravelmente entre eles devido à sua proficiência em várias aplicações.

Embora possa não ultrapassar o GPT-3.5 em todos os aspectos, o Falcon-180B demonstra o seu potencial ao oferecer uma funcionalidade comparável a alternativas mais conhecidas. Embora menos conhecido, merece consideração devido à sua capacidade de igualar e até mesmo superar as capacidades de outros modelos. As pessoas interessadas podem testar o Falcon-180B na plataforma Hugging Face, que suporta modelos de línguas grandes de código aberto.

Meta AI’s Llama 2

O Llama 2 é um modelo de linguagem desenvolvido pela Meta AI que possui uns impressionantes 70 mil milhões de parâmetros. Embora possa não ser tão extenso como alguns dos seus concorrentes, o Llama 2 demonstrou um desempenho notável em vários testes de referência e aplicações práticas. De facto, ultrapassa muitos modelos de linguagem de grande dimensão acessíveis ao público, com uma exceção notável: o Falcon-180B.

Para avaliar o desempenho do Llama 2, comparámo-lo com outros modelos de última geração, como o GPT-4, o GPT-3.5, o Claude 2 e o PaLM 2, em várias métricas de avaliação. Os resultados revelaram que o GPT-4 superou significativamente o Llama 2 na maioria dos casos.No entanto, os nossos resultados indicam que a Llama 2 demonstrou um desempenho competitivo quando comparada com a GPT-3.5 e a PaLM 2 em determinados benchmarks. Não se deve deduzir que a Llama 2 é definitivamente superior ao PaLM 2; no entanto, as nossas experiências revelaram casos em que a Llama 2 foi bem sucedida na resolução de problemas que se revelaram difíceis para o PaLM 2, mesmo englobando

Embora a Llama 2 não ultrapasse a capacidade dos modelos proprietários mais avançados, supera as expectativas de uma alternativa de código aberto, apresentando um desempenho notável que rivaliza com os líderes da indústria, como o PaLM 2, em determinadas avaliações. Este resultado oferece uma antevisão promissora do que poderá ser possível com futuros modelos linguísticos de código aberto.

A diferença de desempenho entre os modelos de IA está a diminuir

Enquanto o campo da inteligência artificial continua a avançar rapidamente, o GPT-4 da OpenAI mantém a sua posição como o melhor desempenho. No entanto, é evidente que mesmo os modelos mais pequenos, quando equipados com conhecimentos adequados, são capazes de competir em domínios específicos. Por exemplo, o Claude 2 demonstra esta capacidade ao apresentar resultados impressionantes em determinadas tarefas. Do mesmo modo, o PaLM 2 da Google pode não ter cumprido todas as expectativas, mas apresenta capacidades notáveis. Além disso, o projeto de código aberto Falcon-180B realça o potencial de tais iniciativas para rivalizarem com os gigantes da indústria, se estiverem disponíveis amplos recursos.