O VALL-E da Microsoft pode imitar qualquer voz com apenas uma amostra de três segundos

O que você precisa saber

A Microsoft lançou recentemente uma ferramenta de IA chamada VALL-E que pode criar replicações convincentes das vozes das pessoas.
A ferramenta usa apenas uma gravação de 3 segundos como um prompt para gerar conteúdo.
O VALL-E pode replicar as emoções de um orador, diferenciando-o de vários modelos de IA.

A Microsoft lançou recentemente uma ferramenta de inteligência artificial conhecida como VALL-E que pode replicar as vozes das pessoas (via AITopics). A ferramenta foi treinada em 60.000 horas de dados de fala em inglês e usa clipes de 3 segundos de vozes específicas para gerar conteúdo. Ao contrário de muitas ferramentas de IA, o VALL-E pode replicar as emoções e o tom de um orador, mesmo ao criar uma gravação de palavras que o orador original nunca disse.

UMA artigo da Cornell University usou VALL-E para sintetizar várias vozes. Alguns exemplos do trabalho são disponível no GitHub.

As amostras de voz compartilhadas pela Microsoft variam em qualidade. Enquanto alguns deles soam naturais, outros são claramente gerados por máquinas e soam robóticos. Obviamente, a IA tende a melhorar com o tempo, portanto, no futuro, as gravações geradas provavelmente serão mais convincentes. Além disso, o VALL-E usa apenas gravações de 3 segundos como um prompt. Se a tecnologia fosse usada com um conjunto de amostras maior, sem dúvida poderia criar amostras mais realistas.

No momento, o VALL-E não está disponível em geral, o que pode ser bom, pois as replicações das vozes das pessoas geradas por IA podem ser usadas de maneiras perigosas por agentes de ameaças e outras pessoas com intenções maliciosas.

Tomada do Windows Central: Impressionante, mas assustador

Embora o VALL-E seja indubitavelmente impressionante, ele levanta várias questões éticas. À medida que a inteligência artificial se torna mais poderosa, as vozes geradas pelo VALL-E e tecnologias semelhantes se tornam mais convincentes. Isso abriria a porta para chamadas de spam realistas, replicando as vozes de pessoas reais que uma vítima em potencial conhece.

Políticos e outras figuras públicas também podem ser representados. Com a velocidade da mídia social e a polaridade das discussões políticas, é improvável que muitos parem para perguntar se uma gravação escandalosa é genuína, desde que soe pelo menos um pouco autêntica.

Preocupações com a segurança também vêm à mente. Meu banco usa minha voz como senha quando ligo. Existem medidas para detectar gravações de voz e presumo que a tecnologia possa detectar se uma voz VALL-E foi usada. Dito isso, os seres ainda me deixam inquieto. Há uma boa chance de que a corrida armamentista aumente entre o conteúdo gerado por IA e o software de detecção de IA.

Embora não seja uma preocupação de segurança, alguns levantaram o fato de que os dubladores podem perder trabalho para VALL-E e tecnologia concorrente. Embora seja lamentável ver as pessoas perderem o trabalho, não vejo uma maneira de contornar isso. Se o VALL-E chegar a um ponto em que possa substituir os dubladores por livros de áudio ou outro conteúdo, as empresas o usarão. Essa é apenas a realidade do avanço da tecnologia. Na verdade, a Apple anunciou recentemente um recurso que usa AI para ler livros de áudio.

Como qualquer tecnologia, o VALL-E será usado para o bem, para o mal e tudo mais. A Microsoft tem uma declaração de ética sobre o uso do VALL-E, mas o futuro de seu uso ainda é obscuro. O presidente da Microsoft, Brad Smith, discutiu a regulamentação da IA no passado (via GeekWireGenericName). Teremos que ver quais medidas a Microsoft implementa para regular o uso do VALL-E.

O VALL-E da Microsoft pode imitar qualquer voz com apenas uma amostra de três segundos

O que você precisa saber

Links rápidos