A Microsoft desenvolveu um programa avançado de conversão de texto em voz, baseado em inteligência artificial (IA), cujo índice de credibilidade é semelhante ao humano. O VALL-E 2 é o primeiro programa do género a atingir “paridade humana”, o que significa que o seu discurso não pode ser distinguido do registo humano. No entanto, a tecnologia continua a ser estritamente um projecto de investigação e não está disponível para o público.

Os investigadores justificam assim a não disponibilização do sistema aos utilizadores dos seus serviços:

“[O sistema] pode acarretar riscos potenciais por utilização incorrecta, como a falsificação da identificação da voz ou a imitação de um orador específico. Por conseguinte, não temos planos para incorporar o VALL-E 2 num produto ou alargar o acesso ao público”.

O programa consegue reproduzir vozes com uma fidelidade notável após processar apenas três segundos de áudio, ultrapassando os sistemas anteriores em termos de robustez, naturalidade e semelhança com o orador original.

A falsificação de vozes suscita preocupações, uma vez que a tecnologia pode ser utilizada para personificar declarações falsas, atribuindo-as a pessoas que não as fizeram, ou desencadear processos fraudulentos pelo telefone.

A utilização incorrecta da IA continua a ser uma preocupação relativa às próximas eleições presidenciais nos EUA, tendo sido utilizada para chamadas automáticas falsas com a voz de Joe Biden, no início deste ano, em New Hampshire.

Alguns apoiantes de Biden têm sugerido, para espanto de toda a gente que tenha um mínimo sentido ético, que a IA deve ser utilizada pela campanha de Biden para esconder do público o seu declínio cognitivo e disfarçar as suas incongruências de discurso.