Contents

Os 7 melhores LLMs locais/offline que você pode experimentar agora mesmo

O acesso a grandes modelos linguísticos (LLMs) é facilitado principalmente através de interfaces fornecidas por Interfaces de Programação de Aplicações (APIs), que oferecem uma série de benefícios, mas também apresentam certas restrições, incluindo a necessidade de conetividade contínua à Internet, opções de personalização restritas, potenciais riscos de segurança e a possibilidade de as empresas imporem limitações aos seus modelos através de barreiras de pagamento.

O advento de LLMs quantizadas acessíveis através do HuggingFace, juntamente com vários ecossistemas de IA que permitem o carregamento de pesos LLM no dispositivo informático de cada um, apresenta uma possibilidade de obter uma solução de inteligência artificial económica, adaptável e protegida.

Para facilitar o seu início, apresento-lhe uma compilação de sete LLM excepcionais, locais ou não, que podem ser imediatamente utilizados.

Hermes GPTQ

Hermes, um modelo linguístico de vanguarda desenvolvido pela Nous Research, foi aperfeiçoado utilizando um corpus de 300.000 instruções. Este modelo baseia-se no LlaMA2 LLM da Meta e foi aperfeiçoado principalmente através da utilização de resultados gerados sinteticamente a partir do GPT-4.

Modelo
Hermes 13b GPTQ
Modelo Tamanho
7.26 GB
Parâmetros
13 mil milhões
Quantização
4-bit
Tipo
LlaMA2
Licença
GPL 3

A utilização do LlaMA2 como modelo de base permite ao Hermes expandir o tamanho do contexto até ao dobro do seu comprimento original ou um limite máximo de quatro tokens. Combinando este extenso tamanho de contexto com uma arquitetura de codificador, o Hermes demonstrou a capacidade de gerar respostas prolongadas, minimizando a incidência de fabricação, o que o torna uma opção altamente adequada para uma série de aplicações de PNL, tais como codificação, geração de conteúdos e utilização como agente de conversação.

O novo Hermes GPTQ foi lançado em várias formas quantizadas e modificadas. Para uma melhor experiência de implementação, sugerimos começar com o modelo Hermes-Llama2 13B-GPTQ, que oferece um desempenho excecional sem qualquer complexidade.

Falcon Instruct GPTQ

/pt/images/instruct.jpg Crédito da imagem: John Schnobrich/ Unsplash

A atual iteração do Falcon foi sujeita a processamento quântico, tendo o seu aspeto de descodificação sido aperfeiçoado através do modelo Falcon-7b não processado da TII. O modelo básico do Falcon foi preparado através da utilização de 1,5 sextilhões de tokens extraídos do domínio público. Sendo uma estrutura de descodificação orientada por instruções e licenciada sob os auspícios da Apache 2, o Falcon Instruct é adequado para empresas que procuram uma plataforma para conversão linguística e introdução de dados.

Modelo
Falcon-7B-Instruct
Modelo Tamanho
7.58 GB
Parâmetros
7 mil milhões
Quantização
4-bit
Tipo
Falcon
Licença
Apache 2.0

Embora esta iteração do Falcon possa ser utilizada para fins de inferência, não é adequada para afinação.Para efetuar o ajuste fino, é necessário utilizar o modelo não processado, o que requer o acesso a equipamento de formação avançado, como os aceleradores NVIDIA DGX ou AMD Instinct AI.

3.GPT4ALL-J Groovy

/pt/images/content-creation.jpg Crédito da imagem: Nubelson Fernandes/ Unplash

O GPT4All-J Groovy é um modelo de linguagem avançado especializado na geração de texto de alta qualidade através da utilização de conhecimentos e padrões pré-existentes derivados dos seus dados de treino. Desenvolvido pela Nomic AI, este modelo de descodificador funciona ao abrigo dos termos permissivos da licença Apache 2, permitindo aos utilizadores integrar e adaptar facilmente as suas capacidades a várias aplicações. Com base no desempenho impressionante do modelo GPT-J original, o GPT4All-J Groovy foi aperfeiçoado especificamente para tarefas de processamento de linguagem natural, tais como interacções de conversação, resultando em resultados eficientes e imaginativos adequados a numerosos empreendimentos criativos, incluindo a composição de trabalhos escritos, peças musicais e narrativas visuais.

Modelo
GPT4ALL-J Groovy
Modelo Tamanho
3.53 GB
Parâmetros
7 mil milhões
Quantização
4-bit
Tipo
GPT-J
Licença
Apache 2.0

Lamentavelmente, o modelo GPT-J original foi treinado utilizando apenas um conjunto de dados em língua inglesa, o que implica que, mesmo com o aperfeiçoamento do modelo GPT4ALL-J, as suas capacidades estão limitadas à execução de tarefas de geração de texto e conversação em língua inglesa.

4.WizardCoder-15B-GPTQ

/pt/images/programming.jpg Crédito da imagem: James Harrison/ Unsplash

WizardCoder é um modelo de codificação excecional que tem sido altamente considerado pelo seu desempenho notável em comparação com outros modelos proeminentes como LlaMA-65B, InstructCodeT5+ e CodeGeeX. Este modelo tem um tamanho consideravelmente mais pequeno, mas apresenta resultados extraordinários, devido à sua formação com uma nova abordagem Evol-Instruct específica para a codificação, que lhe permite compreender e responder eficazmente a pedidos relacionados com a codificação, editando-os automaticamente para aumentar a sua eficácia.

Modelo
WizardCoder-15B-GPTQ
Modelo Tamanho
7.58 GB
Parâmetros
15 mil milhões
Quantização
4-bit
Tipo
LlaMA
Licença
bigcode-openrail-m

A utilização de um modelo quântico de 4 bits permite que o WizardCoder seja utilizado em computadores convencionais, convencionais, permitindo aos utilizadores realizar operações experimentais e servir como ferramenta auxiliar para a criação de programas e scripts simples.

Wizard Vicuna Uncensored-GPTQ

O Wizard-Vicuna GPTQ é uma variante altamente avançada do modelo original do Wizard Vicuna, que foi optimizado utilizando a arquitetura de ponta LlaMA. Ao contrário da prática típica de libertação de modelos linguísticos licenciados para o público em geral, esta iteração em particular foi submetida a um processo de dessensibilização, resultando na remoção das suas salvaguardas éticas e morais. Assim, é imperativo que os utilizadores tenham cuidado ao interagir com este modelo, uma vez que lhe podem faltar algumas das restrições e limites convencionais que são tipicamente incorporados em tais sistemas.

Modelo
Feiticeiro-Vicunha30B-Uncensored-GPTQ
Modelo Tamanho
16.94 GB
Parâmetros
30 mil milhões
Quantização
4-bit
Tipo
LlaMA
Licença
GPL 3

Um modelo de aprendizagem de línguas sem censurapode representar um desafio em termos de alinhamento do seu comportamento com os valores humanos, mas também tem o potencial de mostrar todas as capacidades da tecnologia, permitindo-lhe responder livremente às solicitações. Além disso, os utilizadores podem adaptar o comportamento da IA de acordo com as suas próprias especificações através da utilização de parâmetros de alinhamento personalizados.

Orca Mini-GPTQ

/pt/images/experiment-1.jpg Crédito da imagem: Alex Kondratiev/ Unsplash

O Orca Mini é uma réplica não autorizada das publicações de investigação Orca da Microsoft, que utiliza uma abordagem de formação não convencional conhecida como metodologia de aprendizagem professor-aluno. Ao contrário dos modelos de linguagem tradicionais que se baseiam apenas em pares de entrada-saída, espera-se que este modelo demonstre maior inteligência ao compreender os problemas subjacentes, tornando-o assim mais competente na resolução de tarefas complexas.

Modelo
Orca Mini-GPTQ
Modelo Tamanho
8.11 GB
Parâmetros
3 mil milhões
Quantização
4-bit
Tipo
LlaMA
Licença
MIT

O Orca Mini GPTQ possui uma contagem de parâmetros relativamente modesta de três mil milhões, tornando-o altamente acessível em termos de requisitos computacionais, mesmo em dispositivos com equipamento mais modesto. No entanto, deve notar-se que esta iteração particular da família GPT-3 não é adequada para aplicações profissionais, uma vez que foi observado que produz resultados factualmente incorrectos e tendenciosos, bem como respostas potencialmente ofensivas. No entanto, este modelo pode ainda ser útil para explorar as capacidades e metodologias da plataforma Orca.

7.LlaMA 2 Chat GPTQ

A versão actualizada do modelo de linguagem LlaMA 2 foi desenvolvida como um melhoramento do seu antecessor, que serviu de base a muitos dos outros modelos de linguagem aqui listados. Esta nova iteração do LlaMA consiste em vários Modelos de Linguagem Grandes (LLMs), cada um dos quais foi treinado utilizando um número impressionante de parâmetros que variam entre 7 e 70 mil milhões. A totalidade do LlaMA 2 foi pré-treinada com um enorme conjunto de dados de 2 triliões de tokens retirados de conjuntos de instruções acessíveis ao público.

Modelo
Falcon-40B-Instruct-GPTQ
Modelo Tamanho
7.26 GB
Parâmetros
3 mil milhões
Quantização
4-bit
Tipo
OpenLlaMA
Licença
EULA (Meta License)

O modelo LlaMA 2 AI foi concebido para fins comerciais e experimentais, Por conseguinte, recomenda-se que seja objeto de uma maior personalização para melhorar a eficiência em tarefas específicas. A nossa versão chatGPTQ do LlaMA 2 foi especificamente treinada e optimizada para interacções de conversação na língua inglesa, o que a torna a escolha ideal para empresas e organizações que procuram um chatbot que necessite de uma formação adicional mínima. Além disso, as pequenas empresas com menos de 700 milhões de utilizadores estão autorizadas a utilizar o LlaMA 2 sem incorrer em quaisquer taxas de licenciamento da Meta ou da Microsoft, de acordo com os termos de utilização.

Experimente hoje os modelos locais de linguagem de grande porte

Os modelos acima mencionados abrangem várias iterações de parâmetros, sendo que um número elevado de parâmetros corresponde geralmente a melhores resultados, mas exige hardware mais robusto e vice-versa. Para verificar se o computador tem capacidade para lidar com o modelo, pode ser prudente começar com a versão de parâmetros mais baixos e atualizar gradualmente até que o declínio no desempenho se torne inaceitável.

Dado que os modelos quânticos aqui apresentados são relativamente compactos em tamanho, com requisitos mínimos de armazenamento, e podem ser convenientemente implantados através de plataformas populares como GPT4All e Text-Generation-WebUI usando processos de instalação simples, experimentar vários modelos e versões não deve ser uma tarefa árdua.

Porquê adiar? Experimente agora as vantagens de utilizar um modelo regional!