Contents

Como criar uma voz de IA que se pareça consigo com a ElevenLabs

A IA generativa e os deepfakes colidiram com o desenvolvimento de ferramentas de IA de voz. A ideia é simples: pega-se numa voz e manipula-se para que diga as palavras que lhe dermos.

A ferramenta de inteligência artificial da ElevenLabs destaca-se como líder nesta categoria, oferecendo um plano de utilização gratuito e alternativas premium muito apreciadas.

O que é a ElevenLabs?

Fundada por um antigo especialista em aprendizagem automática da Google e um antigo especialista em implementação da Palantir, a ElevenLabs é uma empresa de investigação de tecnologia de voz. O ponto central da sua abordagem é o desenvolvimento de software avançado de reconhecimento de voz, que, em última análise, procura facilitar a tradução perfeita de palavras faladas em diferentes idiomas em tempo real.

O Voice AI da ElevenLabs é um sistema avançado de conversão de texto em fala capaz de produzir uma voz humana altamente autêntica. O sítio Web da empresa declara que o seu objetivo é fornecer assistência áudio multilingue acessível em vários sectores, como a educação, serviços de streaming, livros áudio, jogos, filmes e até comunicação em tempo real.

Uma ferramenta avançada de tradução de línguas, como o Google Translate ou os seus substitutos, tem um valor significativo para facilitar a comunicação através das barreiras linguísticas. No entanto, não existe atualmente nenhuma tecnologia disponível para traduzir instantaneamente palavras faladas de uma língua para outra com total precisão. No entanto, o desenvolvimento de um sistema capaz de captar e converter com precisão a linguagem falada é considerado um passo crucial para a concretização deste objetivo. Ao reproduzir a cadência, o tom e a pronúncia da voz do orador original, esse sistema pode transmitir eficazmente o significado pretendido da mensagem, melhorando assim a compreensão e a comunicação interlinguística.

O que é a geração de voz por IA?

A geração de voz com IA permite que os utilizadores criem um discurso personalizado, seleccionando um tom vocal desejado e introduzindo conteúdo textual, com a tecnologia a produzir automaticamente um discurso que reflicta os parâmetros especificados.

De facto, embora as primeiras tecnologias de síntese de voz, como o Microsoft Sam, fossem capazes de gerar vozes semelhantes às humanas durante a década de 1990, ainda lhes faltava um grau significativo de naturalidade e autenticidade quando comparadas com os sistemas modernos de conversão de texto em voz. Em contraste, a solução inovadora da ElevenLabs exibe um nível de fluência linguística e expressividade que está muito mais alinhado com as nuances e subtilezas inerentes à comunicação humana.

A ElevenLabs oferece uma variedade de opções de IA de fala, incluindo as suas vozes “pré-fabricadas” gratuitas, bem como um gerador de vozes de IA que permite aos utilizadores personalizar parâmetros como o sexo, a idade e o dialeto, mediante o pagamento de uma taxa. Além disso, oferecem vozes “clonadas” premium através de um serviço de subscrição que permite aos utilizadores carregar as suas próprias vozes de IA personalizadas.

Aqui está um exemplo:

A utilização de inteligência artificial em empreendimentos criativos implica certas obrigações morais e éticas, incluindo a geração de saídas de voz usando a tecnologia de IA de fala da ElevenLabs, que devem ser consideradas e abordadas diligentemente.

Essencialmente, é aconselhável obter o consentimento antes de utilizar a vocalização de outra pessoa. Embora tal ação possa não ser proibida por lei, pode potencialmente suscitar sentimentos de descontentamento ou ressentimento por parte do indivíduo em causa.

Tenha em atenção que, quando este conteúdo foi criado, a tecnologia de inteligência artificial de voz da ElevenLabs ainda estava na sua fase beta. Por conseguinte, ainda não foi totalmente desenvolvida e aperfeiçoada.

Gerar um diálogo básico de IA

Um método simples para iniciar o processo é utilizar o utilitário gratuito de inteligência artificial de fala fornecido pela ElevenLabs.

Para o usar, vá a beta.elevenlabs.io e crie uma conta (pode usar o seu próprio e-mail, uma conta Google ou o Facebook).

Próximo:

⭐ClickSpeech Synthesis

No menu “Definições”, pode escolher entre uma variedade de opções de voz pré-existentes, incluindo selecções masculinas e femininas.

⭐ Expandir Definições de Voz para definir Estabilidade e Clareza \\+ Melhoria da Semelhança (alta estabilidade é monotonal, alta clareza mais próxima da voz pretendida) controlos deslizantes /pt/images/muo-tech-explained-elevenlabs-speech-ai-synthesis-settings.jpg

⭐SelectEleven Monolingual(inglês padrão)

Introduza o texto que pretende converter em fala." Este é um comando que instrui o utilizador a introduzir o texto desejado que pretende que seja falado em voz alta utilizando a tecnologia de conversão de texto em voz. O utilizador pode introduzir qualquer tipo de conteúdo escrito, como frases ou parágrafos, e convertê-lo num formato de áudio para reprodução.

⭐ Clique em Generate /pt/images/muo-tech-explained-elevenlabs-speech-ai-synthesis-generate.jpg

Após a conclusão do processo, o vídeo será reproduzido automaticamente. Caso isso não ocorra, por favor, clique em “Play” para iniciar o vídeo.

Também pode fazer o download da amostra gerada.

Como criar uma voz de IA com a ElevenLabs

De facto, se alguém desejar estabelecer um estilo vocal inovador, pode utilizar a opção “Adicionar Voz” para navegar para a interface “VoiceLab”. Em alternativa, pode optar por gerar um tom novo utilizando os parâmetros de voz pré-estabelecidos da ElevenLabs.

⭐ Clique em Adicionar Voz > Design de Voz /pt/images/muo-tech-explained-elevenlabs-speech-ai-voice-design-button.jpg

Por favor, defina o género, a faixa etária e o sotaque para a gravação da voz do seu personagem, preenchendo os campos correspondentes abaixo.

Ajuste o controlo deslizante da Intensidade do sotaque para a preferência desejada, assegurando-se de que satisfaz os seus requisitos e preferências específicos para uma pronúncia precisa de palavras numa língua estrangeira.

O processo de conversão de um texto de uma língua para outra é conhecido como tradução. A tradução envolve mais do que a simples substituição de palavras numa língua pelos seus equivalentes noutra língua. Requer uma compreensão do contexto, da cultura e das nuances de ambas as línguas envolvidas. Isto garante que o texto traduzido transmite com exatidão o significado pretendido do texto original, ao mesmo tempo que é apropriado para o público-alvo. Os tradutores qualificados são treinados para reconhecer referências culturais, expressões idiomáticas, coloquialismos e outras características linguísticas específicas de cada língua com que trabalham. Utilizam ferramentas de software especializadas e materiais de referência para garantir a exatidão e a coerência ao longo de todo o processo de tradução.

⭐ Clique em Gerar /pt/images/muo-tech-explained-elevenlabs-speech-ai-voice-design-options.jpg

⭐ Quando estiver pronto, ouça

Após a análise, observou-se que tanto o sotaque feminino/jovem/australiano como o masculino/velho/australiano exibiam uma qualidade “americana” discernível. Embora isto se apresente atualmente como uma inconsistência, é de esperar que seja resolvido com os avanços da tecnologia.

Criar a sua própria voz em IA

O aspeto intrigante da tecnologia da ElevenLabs reside na sua inovadora funcionalidade de Clonagem de Voz Instantânea, que oferece opções pré-configuradas e personalizáveis para a geração de voz.

A subscrição do Instant Voice Cloning está sujeita a uma taxa recorrente que requer uma subscrição. Oferecemos vários níveis de preços, com o plano mais económico a custar-lhe 5 dólares por mês. Atualmente, no entanto, temos o prazer de oferecer aos novos clientes uma promoção aliciante, reduzindo a nossa taxa padrão em 80%, de modo que o seu desembolso inicial será de apenas 1 dólar durante o período introdutório.

Estão disponíveis alternativas adicionais a preços de $22, $99 e $330 numa base recorrente, cada uma capaz de produzir até 40 horas de conteúdo áudio por mês.

Para utilizar a tecnologia de clonagem de voz fornecida pela ElevenLabs, tem de fornecer uma troca verbal juntamente com uma gravação da sua própria vocalização. É essencial que o diálogo seja facilmente compreensível e guardado num formato de ficheiro MP3. Para obter os melhores resultados, recomenda-se um clip de áudio mais longo, com uma duração máxima de cinco minutos.

No ecrã do VoiceLab:

Seleccione uma das opções abaixo para adicionar uma voz à sua conta. Pode escolher entre “Clonagem instantânea de voz” ou “Personalizar a sua própria voz”.

No painel de interface seguinte, atribua um moniker à moldura apresentada.

Forneça um ficheiro para análise clicando e arrastando-o para este campo; podem ser carregados até um máximo de 25 ficheiros em simultâneo para aumentar a precisão.

⭐ Clique em Labels (Etiquetas) e especifique um valor de chave \\+ (por exemplo, Accent/British) - faça isto até 5 vezes /pt/images/muo-tech-explained-elevenlabs-speech-ai-voice-cloning.jpg

A entrada fornece instruções para os utilizadores descreverem as suas características vocais desejadas de forma concisa, tais como altura, tom e volume, introduzindo uma frase curta ou uma frase que capte a essência do som pretendido.

Reveja e aceite os termos de serviço antes de continuar a adicionar a funcionalidade de introdução de voz, seleccionando a caixa de verificação “Confirmação de consentimento”, seguida de um clique em “Adicionar voz”.

Ao incorporar um componente vocal, é possível afinar as suas características na interface de Síntese de voz, como mencionado anteriormente.

O que se pode fazer com uma voz de IA?

As aplicações potenciais da utilização de vocalizações pré-existentes e replicadas na inteligência artificial são vastas, tal como indicado pelo objetivo final da ElevenLabs de conversão de linguagem em tempo real. No entanto, a empresa também reconheceu uma multiplicidade de utilizações alternativas.

Os audiolivros, que podem ser narrados por uma ilustre figura cinematográfica de outrora, são frequentemente discutidos juntamente com os jogos de vídeo que utilizam a inteligência artificial para o diálogo falado, eliminando assim a necessidade de actores de voz humanos. No entanto, as suas potenciais aplicações vão muito para além destes domínios, abrangendo géneros como a música, a sátira e a literatura de auto-aperfeiçoamento, entre outros.

É possível criar um podcast utilizando discurso gerado por inteligência artificial; no entanto, o resultado pode apresentar uma qualidade monótona e pouco cativante.

O segmento introdutório de um dos nossos episódios de podcast, intitulado “Podcast realmente útil”, foi criado utilizando os serviços fornecidos pela ElevenLabs.

Apesar de os resultados não serem os melhores, o resultado é considerado aceitável para a aplicação prática e existe uma ampla margem para o avanço tecnológico no futuro.

Além disso, a ElevenLabs também expressou planos para o desenvolvimento de uma funcionalidade inovadora de “conversação por voz gerada” que será lançada num futuro próximo.

Use sua voz de uma nova maneira com a IA de fala da ElevenLabs

A inteligência artificial tem sido fundamental para nos fornecer uma infinidade de inovações notáveis nos últimos tempos. Por exemplo, o Chat-GPT oferece uma funcionalidade versátil para gerar texto, responder a perguntas, compor resumos e muito mais. Além disso, o Midjourney destaca-se como uma plataforma criativa excecional que emprega tecnologia de IA para gerar obras de arte visuais inspiradas nos dados introduzidos pelo utilizador.

A inovadora Speech AI Tool desenvolvida pela ElevenLabs simplifica o processo de manipulação de voz, criando uma imitação perfeita do tom e da inflexão do orador original. Esta tecnologia avançada permite aos utilizadores produzir clones de áudio convincentes que se assemelham muito às características vocais únicas do orador.

A utilização da tecnologia de voz levanta preocupações éticas relativamente à obtenção do consentimento dos indivíduos antes da sua utilização; no entanto, apresenta um meio extraordinário com várias potencialidades intrigantes. O aspeto mais notável desta técnica é a sua facilidade de utilização e a sua notável eficácia.