VALL-E mostra um futuro de discurso alimentado por IA que é fantástico e aterrorizante

A inteligência artificial promete se espremer no centro das atenções em 2023, com o termo vago se espalhando em várias formas de hardware e software mostrados na recente convenção da CES em Las Vegas, com ainda mais expectativa nos próximos meses.

Laptops atualizados para jogos de última geração, como o Lenovo Legion Pro, possuem a capacidade de gerenciar componentes internos de forma inteligente para desempenho máximo usando aprendizado de máquina alimentado por seu chip Lenovo LA. Tecnologia de ajuste automático semelhante já está presente em outros dispositivos, tornando-se uma perspectiva relativamente monótona com um título extravagante.

No entanto, há um lado diferente da pseudo-sensibilidade da IA rastejando no horizonte, que pode servir a partes quase iguais de utilidade e mau comportamento se aberto ao público em geral.

Até agora, pouco convincente e robótico

A utilização de IA para sintetizar a fala humana com base em dados de treinamento já é praticada há algum tempo. Várias empresas lutaram com a tecnologia durante anos para desenvolver algo que soasse mais natural e convincente para os consumidores comuns. Ainda assim, na maioria das vezes, os resultados geralmente se afundam no vale misterioso.

A exibição perfeita de nuances sutis em nosso discurso é complicada, não importa o quão fantástica seja sua tecnologia subjacente. Todos nós falamos em vários idiomas divididos em sotaques sutis e até diferimos em nossa cadência, e é improvável que duas pessoas falem exatamente da mesma maneira.

É parte do motivo pelo qual só ouvimos fala sintetizada usada para entretenimento, seja alterando vozes gravadas em vídeos curtos ou imitando o sotaque de um fisiculturista famoso em particular para dublagem de cenas de filmes populares.

Aplicações mais focadas em saúde e medicina permitem um uso mais profundo dessa tecnologia de ponta, ajudando aqueles que perdem o uso da voz a falar naturalmente novamente com a ajuda da IA. O professor Stephen Hawking perdeu a chance de substituir sua famosa voz robótica por outra, já que a configuração padrão em sua tecnologia de síntese baseada em DECtalk já havia se tornado uma parte reconhecível de sua identidade.

Se gravações mais abrangentes de sua voz mais jovem e natural estivessem disponíveis, ele poderia ter aproveitado os recentes avanços da IA, mas ninguém poderia dizer com certeza além do próprio homem.

Microsoft lança VALL-E

VALE (Crédito da imagem: Cornell University)

Treinamento em 60.000 horas de dados de fala em inglês, uma nova ferramenta de síntese de IA chamada VALL-E (abre em nova aba) foi detalhado em um trabalho de pesquisa (abre em nova aba) da Cornell University, agora sob propriedade da Microsoft. Sua existência não é particularmente alarmante, visto que a IA se tornou um foco significativo para a empresa nos últimos anos. Explicações de quão pouca entrada o sistema precisa para produzir resultados surpreendentemente convincentes são o verdadeiro fator de levantar as sobrancelhas desta vez, com apenas três segundos de gravações usadas para gerar mensagens inteiramente novas, totalmente sem relação com a mensagem original.

UMA demonstração do VALL-E no GitHub (abre em nova aba) inclui uma riqueza de amostras de áudio para qualquer um ouvir, variando de rígido e antinatural a beira da perfeição. Atualmente, o mecanismo de aprendizado de máquina não está disponível para o público em geral, em oposição a alternativas comparativamente rudimentares, como Uberduck (abre em nova aba)que realisticamente não se estende além de agir como um brinquedo divertido em seu estado atual.

Uma declaração de ética de parágrafo único fica no final da demonstração para explicar que todos os envolvidos no experimento estavam dispostos e aprovaram os resultados, seguido por uma advertência implícita de que esse tipo de tecnologia deve sempre acompanhar um acordo de consentimento de todas as partes. Dado que o VALL-E gerou resultados tão fascinantes com apenas uma lasca de dados de referência, as implicações para seus usos no mundo aberto são complexas.

A implicação da personificação

Daniel Rubino usando um telefone Lumia

(Crédito da imagem: Daniel Rubino | Windows Central)

Meu fascínio pela IA que imita humanos da vida real tende a me fazer primeiro imaginar como isso poderia enriquecer a humanidade. Um padrão de fala mais natural poderia aliviar alguma aversão a operadores de chamadas robóticas ou dar nova vida a painéis de informações em espaços públicos. Descarregar tarefas de fornecimento de informações gerais para máquinas humanizadas pode significar pular conversa fiada para os consumidores se puder progredir além do estado atual de gritar palavras-chave em algum software básico.

Os vídeos deepfake já geraram polêmica, e uma voz acompanhante é a única peça que falta para representar uma pessoa digitalmente.

Por mais que eu prefira que a síntese de fala permaneça nos campos criativo e humanitário, a realidade de que ela se aplica exclusivamente à geração de audiolivros e conteúdo cômico de memes é extremamente improvável.

Mesmo que a Microsoft nunca divulgasse publicamente o funcionamento subjacente do VALL-E, outro concorrente sem dúvida inventaria um equivalente se tivesse tempo suficiente.

Infelizmente, os dubladores dos meus videogames e programas de TV favoritos da infância continuam a falecer tristemente, deixando uma triste percepção de que nunca mais os ouvirei atuar em seus papéis icônicos. Se os talentos criativos concordarem em preservar sua voz no futuro, esse tipo de tecnologia poderá ter aplicações interessantes, mas sempre com uma sensação de potencial uso indevido. Sem diretrizes e controles rígidos, a probabilidade de personificações nefastas aumenta a cada iteração da síntese de voz.

Esse tipo de consideração vai e vem me mantém ambivalente sobre a IA, sempre me perguntando quanto tempo pode levar até que as vozes geradas se tornem tão convincentes que se tornem um problema real. Vídeos deepfake já provocaram polêmica semelhante, e uma voz acompanhante é praticamente a única peça que falta para representar uma pessoa de forma convincente.

Pisando com cuidado

Logotipo da Microsoft no MWC

Microsoft no MWC (Crédito da imagem: Futuro)

Mais uma vez, a Microsoft não é estranha às possibilidades da IA. Com supostos planos para aumentar os resultados de pesquisa do Bing e todo o pacote Office, faz sentido para eles adquirir tecnologia de desenvolvimento e obter uma vantagem inicial. É emocionante ver como isso pode crescer dentro de uma empresa que produz o hardware e o software que uso diariamente. Ainda assim, há sempre um pensamento persistente de que poderia eventualmente ter adoções perturbadoras por indivíduos ou grupos nefastos.

Ainda sou um grande fã de tecnologia, e avanços como esses sempre me farão imaginar como eles podem melhorar nossa vida cotidiana. No entanto, passei o que parece ser todos os dias da minha vida adulta usando a Internet e vi como a intenção do novo software às vezes não se alinha com o uso final.

Talvez um dia minha voz desencarnada leia todos os meus artigos em voz alta, mas verei o que a Microsoft planejou para tornar minhas planilhas do Excel mais sofisticadas por enquanto. Talvez a Cortana pudesse até fazer um retorno mais falante; quem sabe?

VALL-E mostra um futuro de discurso alimentado por IA que é fantástico e aterrorizante

Links rápidos