A Inteligência Artificial (IA), da Microsoft não só copia a voz humana, como reproduz as emoções de uma pessoa
Imagina conseguir reproduzir a voz e as emoções de qualquer pessoa que você ama utilizando Inteligência Artificial, IA da Microsoft. Com uma nova tecnologia que copia a voz humana em apenas três segundos! Parece até mágica!
Batizada de VALL-E, a tecnologia precisa apenas de uma pequena amostra da voz que será copiada para fazer todo o trabalho. A ferramenta consegue até mesmo pronunciar palavras que o indivíduo não disse originalmente.
A ferramenta treinada com mais de 60 mil horas de áudios em inglês e uma inteligência artificial text-to-speech (“texto para fala”, em português, ou TTS) e objeto de estudo de um projeto apresentado na Universidade de Cornell, em Nova York, Estados Unidos.
Trata-se de um modelo de linguagem codec natural, capaz de sintetizar falas personalizadas de alta qualidade com apenas gravações de segundos.
Vozes idênticas
As amostras de voz compartilhadas pela Microsoft são muito idênticas aos modelos originais. A empresa, no entanto, sabe que pode acontecer de uma amostra ou outra fugir um pouco dessa naturalidade e afirma que a ferramenta ainda passa por testes que podem deixar a imitação mais realista.
Segundo a Microsoft, a VALL-E pega as pequenas faixas de voz como exemplo e vai modificando para ler um trecho pequeno de texto, com pausas e diferentes entonações dependendo da pontuação do trecho.
Na apresentação da ferramenta, a empresa apresentou vários resultados de simulações de voz feitas pelo VALL-E. Algumas das vozes simuladas convincentes e leem o trecho apresentado de forma coesa e coerente, enquanto outros exemplos claramente gerados por computador, mais travados e robotizados.
Questões éticas
Como toda nova solução baseada em inteligência artificial, a VALL-E se preocupa com especialistas em cibersegurança, porque possibilidade as imitações das vozes usadas como ferramenta para aplicar e sofisticar golpes.
Um exemplo é o golpe do falso sequestro. Utilizando a tecnologia, criminosos conseguiriam gerar áudios falsos para induzir uma vítima a achar que um familiar está em uma emergência. Assim como precisa dos seus dados bancários para fazer um saque.
Aplicações como a VALL-E preocupam também comunicadores e especialistas em desinformação. Se cair nas mãos erradas, a tecnologia poderá facilitar e ampliar a disseminação de fake news. Uma vez que as vozes de pessoas públicas como políticos e artistas podem facilmente imitados pela IA. Seria ainda mais difícil saber se determinada declaração é verdadeira ou se manipulada. A possibilidade de a tecnologia reduzir ou até acabar com o trabalho de dubladores também é uma preocupação.
Mas por conta desse perigo, a Microsoft detém de uma declaração de ética sobre o uso da VALL-E. Além disso, a empresa não disponibilizou a ferramenta para o público geral. Assim, somente pode ser conferida a partir das amostras divulgadas pela companhia.
“Os experimentos deste trabalho são realizados sob a suposição de que o usuário do modelo é o locutor alvo e aprovado pelo locutor”