Contents

O que é a Aprendizagem Zero Shot e como pode melhorar a IA

Key Takeaways

Para garantir previsões precisas ao encontrar novas informações, é crucial que os algoritmos de aprendizagem profunda efectuem generalizações de forma eficaz. A técnica de aprendizagem zero-shot facilita este objetivo ao permitir que os sistemas de inteligência artificial utilizem os seus conhecimentos pré-existentes e produzam previsões fiáveis sobre categorias anteriormente não observadas sem necessitar de quaisquer dados rotulados.

A aprendizagem avançada de zero-shot aproxima os processos cognitivos dos seres humanos através de uma entrada semântica suplementar, permitindo a classificação precisa de novas categorias com a ajuda de um modelo previamente treinado. Tal como a capacidade humana de reconhecer uma guitarra de corpo oco com base nos seus atributos definidores, esta abordagem permite uma identificação precisa numa série de domínios diversos.

A aprendizagem zero-shot é uma abordagem inovadora que melhora as capacidades da inteligência artificial, aumentando a sua capacidade de generalização, escala, evitando o sobreajuste e reduzindo os custos. Este método permite o treino de modelos com conjuntos de dados mais vastos, facilita a aprendizagem por transferência para adquirir conhecimentos adicionais, proporciona uma melhor compreensão contextual e reduz a dependência de informações rotuladas extensas. Tendo em conta o progresso do desenvolvimento da IA, a aprendizagem zero-shot será cada vez mais crucial na resolução de problemas complexos em diversos domínios.

Um objetivo primordial da aprendizagem profunda é cultivar modelos capazes de possuir uma compreensão universalmente aplicável. A concretização deste objetivo é crucial, pois significa que o modelo compreendeu padrões valiosos e produzirá proficientemente inferências ou juízos precisos em resposta a informações novas ou anteriormente não observadas. A construção deste tipo de modelos necessita geralmente de uma grande quantidade de material rotulado. No entanto, a obtenção desses recursos pode implicar despesas substanciais, exigir um esforço manual significativo e, por vezes, pode nem sequer ser viável devido a limitações práticas.

Para resolver a questão acima referida, foi introduzida a aprendizagem zero-shot como uma abordagem que utiliza a base de conhecimentos pré-existente da IA para gerar inferências razoáveis, mesmo na ausência de informação rotulada adequada.

O que é a aprendizagem zero-shot?

A aprendizagem zero-shot representa uma instância da aprendizagem por transferência, que envolve a utilização de modelos previamente treinados para reconhecer categorias desconhecidas através de detalhes suplementares relativos a essas novas categorias.

Aproveitando a extensa familiaridade de um modelo com assuntos específicos e fornecendo um contexto adicional relativamente às características pertinentes a focar, é possível discernir eficazmente o alvo pretendido com grande precisão.

Na ausência de um modelo especializado para identificar zebras, pode-se utilizar como substituto um modelo existente concebido para reconhecer cavalos. Ao informar este modelo de que os equídeos às riscas são de facto zebras, ele pode classificar eficazmente tanto as zebras como os cavalos com base nas suas características visuais. Esta abordagem aumenta a probabilidade de uma identificação exacta ao aplicar o modelo a dados de imagem que representem estas duas espécies.

A aprendizagem zero-shot é uma técnica semelhante à forma como os humanos adquirem naturalmente conhecimentos. A capacidade dos seres humanos para apreenderem rapidamente novos conceitos sem instruções explícitas é conhecida como “aprendizagem zero-shot”. Por exemplo, se alguém lhe pedisse para localizar uma guitarra de corpo oco numa loja de música, poderia ser um desafio. No entanto, se lhe for fornecida informação adicional, como o buraco caraterístico em forma de F que se encontra em ambos os lados, encontrar o instrumento desejado tornar-se-ia fácil.

/pt/images/viktor-forgacs-nurl2wveb6w-unsplash-muo.jpg

Para ilustrar este conceito com uma instância real, vamos utilizar a aplicação Zero-Shot Classification fornecida pela plataforma de código aberto Large Language Model (LLM), Hugging Face, que utiliza o modelo Clip-ViT-Large.

/pt/images/zero-shot-learning-example.jpg

A fotografia apresentada mostra uma representação de pão dentro de um saco de compras, que está preso de forma segura a uma cadeira alta com um cinto de segurança. O sujeito da imagem foi amplamente exposto a uma base de dados visual abrangente durante o seu processo de treino, permitindo-lhe reconhecer e classificar com precisão os vários elementos presentes na cena, incluindo, mas não se limitando a, pão, artigos diversos, mobiliário de assento e dispositivos de retenção.

Para que o modelo possa classificar com precisão as imagens relativamente a categorias previamente desconhecidas, tais como “Pão relaxado”, “Pão seguro”, “Pão sentado”, “Mercearia de condução” e “Mercearia segura”, deve primeiro ser treinado num conjunto diversificado de dados que inclua exemplos destas novas categorias. Isto permitirá que o modelo generalize bem quando lhe são apresentadas novas instâncias e preveja corretamente as respectivas etiquetas.

É de notar que, para ilustrar as capacidades da classificação zero-shot, seleccionámos deliberadamente classes menos comuns e anteriormente não encontradas, bem como imagens para esta demonstração.

/pt/images/huggingface-image-classification.jpg

Ao efetuar inferências a partir do modelo, este atingiu um nível de confiança de aproximadamente 80% ao classificar a imagem como “Pão Seguro”. Pode supor-se que esta determinação resulta da perceção do modelo de que as cadeiras destinadas à segurança são mais importantes do que as destinadas ao conforto, ao relaxamento ou mesmo à condução.

É certamente gratificante encontrar uma concordância entre as nossas expectativas e o resultado do modelo. No entanto, podemos interrogar-nos sobre o processo através do qual o modelo chegou a esta conclusão. Um conhecimento superficial da aprendizagem zero-shot pode fornecer algumas informações sobre os seus mecanismos.

Como funciona a aprendizagem zero-shot

A aprendizagem zero-shot permite que um modelo pré-existente reconheça novas categorias utilizando conhecimentos previamente adquiridos, sem fornecer informações anotadas adicionais. Este processo compreende três fases fundamentais:

Preparação

/pt/images/data-types.jpg

A aprendizagem zero-shot começa com a geração de três formas distintas de informação

A informação fornecida pelo modelo pré-treinado consiste em dados que foram utilizados durante a sua fase de treino inicial, relativamente às classes vistas reconhecidas. É importante notar que estes modelos oferecem uma base para o reconhecimento de certas classes sem qualquer entrada ou instrução adicional. Para obter resultados óptimos com a aprendizagem zero-shot, recomenda-se vivamente a seleção de um modelo pré-treinado cujo conjunto de dados de treino inclua classes que apresentem semelhanças próximas com a classe específica que se pretende reconhecer.

O conjunto de dados inclui informações que não foram utilizadas anteriormente para o processo de formação do algoritmo. Para aceder e analisar estes dados inexplorados, cabe aos utilizadores identificá-los e recolhê-los manualmente, uma vez que não podem ser obtidos diretamente através do modelo de aprendizagem automática.

Podem ser utilizadas informações semânticas adicionais para ajudar o modelo a reconhecer uma categoria não vista anteriormente. Esses dados suplementares podem assumir várias formas, tais como palavras individuais, frases, incorporação de palavras ou mesmo etiquetas de classe.

Mapeamento semântico

/pt/images/semantic-mapping-illustration-1.jpg

Para identificar as características de uma classe desconhecida, geramos word embeddings e criamos uma rede semântica que liga estes atributos a informações adicionais disponíveis. Utilizando o conhecimento pré-existente de aprendizes anteriores em inteligência artificial, conhecido como “aprendizagem por transferência de IA”, podemos acelerar este processo significativamente, uma vez que numerosas características relevantes para a nova classe foram previamente estabelecidas.

Inferencing

/pt/images/inferencing-model-illustration.jpg

A inferência envolve a utilização de um modelo pré-treinado para produzir previsões ou resultados com base numa instância de entrada. A classificação visual zero-shot implica a produção de palavras incorporadas a partir de imagens fornecidas e a sua comparação gráfica com informações de apoio adicionais. O grau de garantia dependerá da semelhança entre a entrada e os dados suplementares fornecidos.

Como a aprendizagem Zero-Shot melhora a IA

A aprendizagem Zero-Shot apresenta uma solução para vários obstáculos inerentes à aprendizagem automática, tais como:

Generalização aprimorada:Limitar a dependência de dados rotulados permite que os modelos sejam treinados em conjuntos de dados mais amplos, aumentando assim sua generalização e fortalecendo sua confiabilidade. À medida que os modelos se tornam cada vez mais conhecedores e versáteis, é possível que adquiram senso comum em vez de aderirem aos métodos convencionais de análise da informação.

Através de um processo conhecido como aprendizagem por transferência, os modelos linguísticos de IA podem adquirir conhecimentos adicionais e tornar-se cada vez mais competentes ao longo do tempo. Isto permite que tanto as empresas como os investigadores individuais melhorem as capacidades dos respectivos modelos numa base contínua, garantindo assim que estes permaneçam escaláveis e adaptáveis face a novos desafios e oportunidades.

A utilização da aprendizagem zero-shot na formação de modelos atenua o risco de sobreajuste, que ocorre quando um modelo é treinado com dados insuficientemente diversificados, levando a uma representação incompleta das potenciais variações de entrada. Ao utilizar esta abordagem, o modelo está equipado com uma melhor compreensão contextual de vários assuntos, diminuindo assim a probabilidade de sobreajuste.

A utilização da aprendizagem por transferência de zero-shot permite o desenvolvimento de uma abordagem eficiente e económica para a construção de um modelo robusto, tirando partido de modelos pré-treinados e utilizando menos quantidades de dados rotulados em comparação com os métodos tradicionais.

À medida que a inteligência artificial continua a progredir, métodos como a aprendizagem por transferência zero tornar-se-ão cada vez mais relevantes e essenciais na sua aplicação.

O futuro da aprendizagem zero-shot

A aprendizagem zero-shot surgiu como um componente crítico da aprendizagem automática, permitindo que os modelos identifiquem e categorizem classes desconhecidas sem qualquer instrução específica. À medida que se continua a progredir no que diz respeito à arquitetura dos modelos, às metodologias baseadas em atributos e à integração multimodal, espera-se que a aprendizagem zero-shot aumente consideravelmente a flexibilidade dos sistemas de inteligência artificial ao abordar questões complexas em domínios como a robótica, os cuidados de saúde e a visão por computador.