Por que o contexto de um milhão de tokens da Gemini 1.5 é um divisor de águas

Alicia Brunner included in Technology Explained Artificial Intelligence Chatbot Chatgpt Google

2024-02-23 1301 words 7 minutes

Contents

Ligações rápidas

⭐ O que é uma janela de contexto?

⭐ Por que a Janela de Contexto do Gemini 1.5 é importante

⭐ O Gemini 1.5 corresponderá às expectativas?

Principais conclusões

A última iteração da plataforma de publicidade baseada em IA do Google, conhecida como Gemini 1.5, introduziu um recurso impressionante que a diferencia de seus concorrentes no setor. Especificamente, esta nova versão apresenta uma notável janela de contexto de um milhão de tokens, que é significativamente maior do que a que outras plataformas como a Claude e a ChatGPT oferecem atualmente. Esta melhoria permite uma análise mais abrangente e capacidades de segmentação dentro das campanhas publicitárias geridas através da plataforma, levando, em última análise, a um melhor desempenho e resultados para os utilizadores.

Aumentar o tamanho de uma janela de contexto pode levar a um melhor desempenho dos modelos de inteligência artificial, reduzindo a probabilidade de ocorrência de erros. No entanto, é importante notar que isto não garante necessariamente o sucesso global.

O Gemini 1.5 tem potencial para aumentar significativamente o seu nível de precisão utilizando uma janela de contexto maior, resultando em menos erros e numa melhor compreensão global.

A última iteração da plataforma Gemini da Google, a versão 1.5, apresenta uma impressionante janela de contexto de um milhão de tokens, que ultrapassa a dos seus concorrentes, como o ChatGPT, o Claude e vários outros chatbots com IA.

O aperfeiçoamento proposto parece representar uma melhoria substancial, que tem o potencial de diferenciar o Gemini dos concorrentes. Embora a compreensão da magnitude deste avanço possa apresentar alguns desafios, é possível que a janela de contexto significativamente alargada oferecida pelo Gemini possa ter uma natureza transformadora.

O que é uma janela de contexto?

Os modelos de IA, ao fornecerem respostas como a clarificação de conceitos ou a condensação de textos, estão limitados pela extensão dos dados que podem ser tidos em conta na geração de uma resposta, o que é designado por “janela de contexto”.

Outra perspetiva a considerar é a visita a um mercado de provisões sem uma lista de controlo de inventário pré-estabelecida. Neste cenário, os limites da memória de uma pessoa definem a sua “janela de contexto”, que tem um impacto direto na probabilidade de concluir com êxito as compras pretendidas. Consequentemente, o aumento da capacidade da memória de um sistema de inteligência artificial permite-lhe reter toda a informação necessária e aumentar a probabilidade de obter resultados óptimos, respeitando as preferências do utilizador.

Atualmente, o Claude 2.1 do Anthropic possui a janela de contexto mais expansiva entre todos os modelos de IA facilmente acessíveis, medindo 200k tokens. Em perseguição está o GPT-4 Turbo, que tem uma janela de contexto de 128k tokens. No entanto, o Google Gemini 1.5 está pronto para introduzir uma surpreendente janela de contexto de um milhão de tokens, superando todas as ofertas existentes no mercado por uma margem substancial. O aparecimento de uma janela de contexto tão grande levanta uma questão importante relativamente ao seu potencial impacto e significado na indústria.

Porque é que a janela de contexto do Gemini 1.5 é importante

Smartmockups

Em termos mais simples, a Claude AI possui uma capacidade substancial de processar cerca de 150 000 palavras dentro da sua janela de contexto de 200k, o que é bastante impressionante. Por outro lado, o Gemini 1.5 da Google tem uma capacidade ainda mais alargada, uma vez que pode processar até 700.000 palavras em simultâneo.

A incorporação de grandes quantidades de informação nos limites de um chatbot de IA, como o ChatGPT ou o Gemini, nem sempre é viável devido às limitações impostas pela sua janela de contexto. Se este facto não for tido em conta, pode resultar na tentativa de processar mais dados do que aqueles que o sistema consegue gerir eficazmente, o que pode causar problemas durante a troca de mensagens.

Imaginemos o cenário em que temos de resumir uma longa-metragem depois de vermos apenas os primeiros vinte minutos. O resultado de tal esforço seria provavelmente insatisfatório, uma vez que fornecer uma descrição exaustiva do enredo e do desenvolvimento das personagens do filme seria um grande desafio. Nesta situação, seria razoável recusar-se a dar qualquer explicação ou, em alternativa, inventar uma narrativa fictícia devido às limitações inerentes à inteligência artificial para gerar respostas coerentes com base em informações limitadas. Consequentemente, estas histórias inventadas poderiam dar origem a percepções ilusórias resultantes da incapacidade da IA para compreender plenamente os meandros da comunicação humana.

É importante notar que o contexto de uma conversa não se limita a fornecer uma grande quantidade de texto a um modelo de IA numa única mensagem. O modelo de IA tem em conta todo o diálogo que ocorreu durante a sessão de conversação para gerar respostas que sejam apropriadas e pertinentes. Esta perspetiva mais ampla do contexto ajuda a garantir que o resultado gerado está em conformidade com o significado pretendido e as intenções subjacentes à comunicação do utilizador.

A natureza dinâmica dos nossos intercâmbios com modelos linguísticos de IA contribui para a sua compreensão do contexto.Embora não lhes forneçamos textos longos, o curso das nossas interacções e as respostas que elas geram enriquecem cada vez mais a janela de contexto. O fenómeno de estes sistemas parecerem ignorar tópicos previamente discutidos pode ser atribuído à ultrapassagem da capacidade de armazenamento da janela de contexto. Consequentemente, informações essenciais são descartadas, resultando em lapsos de memória.

Uma estrutura contextual mais expansiva é crucial quando se abordam tarefas que requerem uma compreensão intrincada do contexto, tais como condensar artigos extensos, responder a perguntas complicadas ou preservar a continuidade do discurso produzido. Pretende ser autor de um romance de cinquenta mil palavras com um enredo unificado? Procura um modelo capaz de analisar e responder a questões relativas a uma apresentação de vídeo de uma hora? Em ambos os casos, torna-se indispensável uma janela de contexto mais alargada.

Essencialmente, o âmbito contextual alargado proporcionado pelo Gemini 1.5 tem o potencial de aumentar substancialmente a eficácia do seu modelo de inteligência artificial, diminuindo os casos de deturpação e aumentando significativamente a precisão e o cumprimento das instruções.

O Gemini 1.5 corresponderá às expectativas?

Tendo em conta as experiências anteriores da Google com o desenvolvimento de modelos de IA instáveis, é prudente usar de contenção e não assumir que o aumento da janela de contexto resultará necessariamente num desempenho superior do Gemini 1.5. Embora exista potencial para que esta nova versão ultrapasse os actuais padrões da indústria, devemos manter-nos cautelosos e considerar outros factores para além de simples ajustes de parâmetros.

Ao longo da minha experiência utilizando a janela de contexto de 200k do Claude 2.1 desde o seu lançamento, ficou evidente que uma janela de contexto expandida pode aumentar a sensibilidade ao contexto. No entanto, as deficiências no desempenho do modelo subjacente podem fazer com que as janelas de contexto alargadas se tornem um obstáculo em vez de uma vantagem.

Será que o Google Gemini 1.5 nos vai mudar o jogo? Atualmente, as redes sociais estão repletas de críticas positivas ao Gemini 1.5 por parte dos utilizadores com acesso antecipado. No entanto, a maioria das críticas de 5 estrelas resulta de casos de utilização apressados ou simplificados. Um bom sítio para verificar o desempenho do Gemini 1.5 em condições reais é o relatório técnico [PDF] do Gemini 1.5, publicado em , da Google. O relatório mostra que, mesmo durante “testes controlados”, o modelo não conseguiu recuperar todos os pequenos detalhes dos documentos dentro do tamanho da sua janela de contexto.

De facto, embora a obtenção de uma janela de contexto de um milhão de tokens represente um feito tecnológico notável, a sua utilidade prática pode ser diminuída se não for possível obter de forma consistente uma recuperação fiável das especificidades de um documento. Por outro lado, essas limitações podem resultar numa precisão reduzida e em casos de especulação ou conjetura injustificadas.