Google PaLM 2 vs. OpenAI GPT-4: Qual é a diferença?
A Google revelou a próxima geração do seu Pathways Language Model (PaLM 2) a 10 de maio de 2023, no Google I/O O seu novo modelo de linguagem de grande dimensão (LLM) apresenta muitas melhorias em relação ao seu antecessor (PaLM) e pode finalmente estar pronto para enfrentar o seu maior rival, o GPT-4 da OpenAI.
De facto, a medida em que a Google progrediu continua a ser uma questão de contemplação. Poderá o PaLM 2 revelar-se, de facto, o fator crucial que a Google pretende que seja? Além disso, tendo em conta a multiplicidade de competências comparáveis disponíveis no mercado, o que é que distingue o PaLM 2 do GPT-4 da OpenAI?
PaLM 2 vs. GPT-4: Visão geral do desempenho
O PaLM 2 possui uma série de características inovadoras que o distinguem do seu antecessor, incluindo a sua versatilidade em ser oferecido em formatos mais pequenos adaptados a tarefas específicas que requerem menos recursos computacionais do que o GPT-4.
Cada uma das dimensões acima mencionadas possui as suas correspondentes contrapartes diminutas, conhecidas como osga, lontra, bisonte e unicórnio, sendo que a osga representa a iteração mais pequena, seguindo-se a lontra, o bisonte e, por fim, o unicórnio, o maior de todos.
A Google afirma que melhorou as suas capacidades de raciocínio quando comparadas com as do GPT-4, tanto no WinoGrande como no DROP, conseguindo uma vitória marginal no ARC-C. Além disso, foram observados avanços substanciais em todos os domínios relativos ao PaLM e ao SOTA.
O PaLM 2 também é melhor em matemática, de acordo com o documento de pesquisa de 91 páginas do Google PaLM 2 [PDF]. No entanto, a forma como a Google e a OpenAI estruturaram os resultados dos seus testes dificulta a comparação direta entre os dois modelos. A Google também omitiu algumas comparações, provavelmente porque o PaLM 2 não teve um desempenho tão bom como o GPT-4.
MMLU, HellaSwag e ARC-E. Os resultados revelaram que o GPT-4 superou o PaLM 2 em todos os casos, exceto num caso em que obtiveram pontuações iguais. Especificamente, no MMLU, o GPT-4 obteve uma pontuação de 86,4% enquanto o PaLM 2 alcançou 81%. Da mesma forma, no modelo HellaSwag, o GPT-4 registou uma pontuação impressionante de 95,3%, enquanto o desempenho do PaLM 2 foi ligeiramente inferior, com 86,8%. Por último, no modelo ARC-E, ambos os modelos tiveram um desempenho
O maior modelo da família PaLM 2 é o PaLM 2-L. Embora não saibamos o seu tamanho exato, sabemos que é significativamente mais pequeno do que o maior modelo PaLM, mas utiliza mais computação de treino. De acordo com o Google , o PaLM tem 540 mil milhões de parâmetros, pelo que o “significativamente mais pequeno” deve colocar o PaLM 2 entre 10 mil milhões e 300 mil milhões de parâmetros.Tenha em mente que estes números são apenas suposições baseadas no que o Google disse no documento PaLM 2.
Tendo em conta o facto de que, se o número mencionado se situar na proximidade de 100 mil milhões ou menos, é altamente provável que o PaLM 2 apresente menos parâmetros em comparação com o GPT-3. A noção de que um modelo potencial com limitações na sua escala pode ter a capacidade de competir e ultrapassar a GPT-4 em certas tarefas é de facto digna de nota. Por outro lado, o GPT-3.5 era inicialmente incomparável em termos de desempenho, chegando mesmo a ultrapassar o PaLM, mas o PaLM 2 demonstrou um admirável regresso.
O PaLM 2 oferece uma vantagem notável sobre o GPT-4 no que diz respeito à sua versatilidade em termos de tamanhos disponíveis. Isto permite que várias versões do modelo, como o Gecko, sejam utilizadas em dispositivos móveis, mesmo quando não existe uma ligação à Internet, proporcionando assim capacidades de inteligência artificial a bordo que ainda não foram vistas no GPT-4. A capacidade de processamento no dispositivo aumenta ainda mais a acessibilidade e o carácter prático do PaLM 2 em comparação com o GPT-4.
Diferenças entre os dados de treino do GPT-4 e do PaLM 2
A Google não divulgou a dimensão do conjunto de dados de treino utilizado para o PaLM 2, mas é evidente no seu documento de investigação que este novo modelo linguístico de grande dimensão foi treinado num conjunto de dados consideravelmente mais extenso do que o seu antecessor. De igual modo, Open
Para conseguir uma compreensão mais profunda dos conceitos matemáticos, lógicos e científicos, a Google deu ênfase a estas áreas no conjunto de dados de treino do PaLM 2. Tal como referido no seu documento de investigação, o corpus de pré-treino do PaLM 2 inclui várias fontes, tais como sítios Web, literatura, linguagem de programação, textos matemáticos e transcrições de conversas, o que resultou em melhorias relativamente ao modelo original em vários aspectos.
Considerando a sua extensa proficiência linguística, que abrange mais de 100 estruturas linguísticas, espera-se que o PaLM 2 apresente capacidades de conversação excepcionais, graças à sua melhor compreensão contextual e traduções perfeitas. A utilização reduzida de dados durante o treino resulta, alegadamente, na diminuição da produção de conteúdos nocivos, contornando os sítios que contêm discursos de ódio ou condutas prejudiciais. Nomeadamente, repositórios substanciais baseados em texto como o Reddit são excluídos do processo de aprendizagem, resultando num resultado caracterizado por um elevado grau de decoro e civismo.
No que diz respeito aos dados de treino do GPT-4, a OpenAI disse-nos que treinou o modelo utilizando dados publicamente disponíveis e os dados que licenciou. A página de pesquisa do GPT-4 afirma: “Os dados são um corpus de dados à escala da Web, incluindo soluções correctas e incorrectas para problemas matemáticos, raciocínios fracos e fortes, afirmações auto-contraditórias e consistentes, e representando uma grande variedade de ideologias e ideias.”
Através da utilização da aprendizagem por reforço e da incorporação de dados humanos, a OpenAI refinou o desempenho do GPT-4 para garantir que as respostas geradas estão mais alinhadas com o objetivo pretendido por detrás de um determinado inquérito. Este processo ajuda a filtrar quaisquer resultados estranhos ou irrelevantes produzidos pelo sistema, fornecendo aos utilizadores uma resposta mais precisa e satisfatória às suas perguntas.
É importante notar que os dados de treino específicos utilizados por cada modelo permanecem desconhecidos; no entanto, pode inferir-se que o objetivo pretendido por detrás dos respectivos treinos variou consideravelmente. O resultado final de tais discrepâncias só se tornará aparente quando ambos os modelos forem implementados num ambiente operacional real.
Dada a quantidade substancial de dados de treino utilizados pelo GPT-4, este está bem posicionado para compreender as subtilezas da linguagem de forma mais eficaz do que os seus antecessores, gerando assim uma qualidade superior de resultados. No entanto, uma utilização tão extensa exige a imposição de limitações rigorosas ao modelo para evitar qualquer comportamento indesejável, o que não se aplica à Google, dada a sua decisão de excluir conteúdos nocivos do processo de formação.
Chatbots e serviços PaLM 2 e GPT-4
Utilizando os respectivos chatbots de cada modelo linguístico, os utilizadores podem aceder a ambos através de dois portais separados. No entanto, o acesso ao GPT-4 é restrito aos subscritores do seu serviço premium, o ChatGPT Plus, enquanto aqueles que não estão dispostos a pagar podem interagir com o GPT-3. Por outro lado, o Bard do PaLM 2 é gratuito e está acessível em todo o mundo, em mais de 180 países.
Embora possa ser verdade que o GPT-4 pode ser acedido gratuitamente, é preciso ter em conta que o Bing AI Chat da Microsoft utiliza esta tecnologia e é de acesso livre a todos. De facto, está convenientemente localizado ao lado do Bing Search, que é um notável concorrente do Google no mesmo domínio.
Durante a recente iteração do Google I/O em 2023, foi revelado que os avanços significativos no PaLM 2 e a incorporação de IA generativa estão definidos para melhorar significativamente a experiência geral do utilizador no ecossistema do Google Workspace. Essa integração inovadora se estende a uma infinidade de serviços fornecidos pelo gigante da tecnologia, como Google Docs, Sheets, Slides, Gmail, entre outros.Além disso, vale a pena referir que a Google verificou que o PaLM 2 foi atualmente assimilado sem problemas em mais de vinte e cinco aplicações distintas do seu portfólio de produtos, incluindo o popular sistema operativo móvel Android e a plataforma de partilha de vídeos YouTube.
A Microsoft incorporou capacidades de IA no seu conjunto de aplicações Microsoft Office, bem como em numerosos serviços. Atualmente, os utilizadores têm a oportunidade de assistir a uma competição entre tecnologias de IA oferecidas por duas empresas concorrentes que disputam o domínio neste domínio.
Como resultado do seu lançamento antecipado e dos esforços diligentes para evitar os erros do seu antecessor, o GPT-4 tornou-se o modelo de linguagem grande (LLM) predominante entre os programadores terceiros, as empresas em fase de arranque e aqueles que procuram integrar uma solução de IA avançada nos seus serviços. Para ilustrar este ponto, compilei uma coleção de aplicações que utilizam o GPT-4 e que podem ser analisadas à sua conveniência.
É de notar que, embora os programadores possam experimentar ou adotar o PaLM 2, a Google terá de trabalhar arduamente para competir com a OpenAI a este respeito. Uma vantagem do PaLM 2 em relação ao GPT-4 é a sua disponibilidade como plataforma de código aberto, o que pode levar a uma maior adoção em comparação com uma API proprietária paga.
Considerando tudo isto, de momento, o Bard com PaLM 2 parece ser a melhor escolha quando se trata de investigação, uma vez que é melhor a responder a perguntas com informações relevantes e a aceder às informações mais recentes na Internet sobre um determinado assunto. De acordo com a última atualização da Bard , entregue em 19 de setembro de 2023, a Bard está agora a utilizar o seu “modelo mais capaz até à data”, com suporte para mais 40 idiomas, assistência de codificação aprofundada, capacidade de apresentar diferentes perspectivas sobre um determinado tópico e melhorias gerais de qualidade e precisão.
Embora seja possível cruzar as respostas do Bard utilizando motores de pesquisa externos como o Google, o sistema continua a ficar atrás dos seus concorrentes em termos de rapidez na geração de respostas, quando comparado com o ChatGPT baseado no GPT-4 ou com o Bing Chat da Microsoft.
O PaLM 2 pode enfrentar o GPT-4?
O PaLM 2, sendo um avanço relativamente recente, ainda tem de demonstrar a sua capacidade de competir com o GPT-4. No entanto, com base nos planos ambiciosos da Google e nos seus fortes esforços de promoção, há indicações de que o PaLM 2 pode constituir um desafio significativo ao GPT-4. Além disso, a Google está a desenvolver ativamente um modelo de IA multimodal chamado Gemini, o que aumenta a pressão sobre a OpenAI para que melhore o seu desempenho.
Embora o GPT-4 continue a ser formidável, o PaLM 2 apresenta uma vantagem significativa devido à sua utilização de vários modelos mais pequenos. Em particular, o componente Gecko do PaLM 2 funciona com uma eficiência notável, permitindo a operação em dispositivos móveis mesmo quando offline. Consequentemente, essa versatilidade permite que o PaLM 2 atenda a uma gama mais ampla de dispositivos e aplicativos que podem encontrar desafios no acesso ao GPT-4.
A corrida da IA está a aquecer
A revelação do PaLM2 intensificou a competição entre os programadores de inteligência artificial, com alguns a considerarem-no um formidável concorrente para desafiar a GPT. Além disso, a Google está alegadamente a preparar outro modelo de IA multimodal chamado Gemini, demonstrando ainda mais o seu empenho em fazer avançar este campo.