Na semana passada, a Nvidia lançou uma nova versão do Nvidia Broadcast (abre em nova aba) – o software de aprendizado profundo e alimentado por IA que pode fazer supressão de ruído, remoção/substituição de fundo, enquadramento de câmera e agora… Contato visual. Esse último está atualmente em beta e … provavelmente deve permanecer em beta.
A IA e o aprendizado profundo têm estado muito nas notícias ultimamente, por um bom motivo. Coisas como Dall-E, Midjourney e Stable Diffusion estão criando arte a partir de texto, muitas vezes com resultados impressionantes. Claro, outras vezes você acaba com criaturas mutantes mutiladas com duas cabeças e meia e muitos membros. No lado do texto, o ChatGPT está produzindo uma escrita legível que muitos temem significar a sentença de morte para ensaios e jornalismo em inglês (e não, ele não escreveu este post de notícias).
A ideia por trás do contato visual é bastante simples: quando você está em um webcast ou reunião, muitas vezes você desvia o olhar da câmera. Na verdade, há uma chance real de você ser sempre olhando para longe da câmera – porque ela está no topo da tela e as coisas que você quer ver estão na tela. Mas e se houvesse uma maneira de parecer que você está olhando para sua câmera sem olhar para ela?
E se você pudesse treinar um modelo de IA em rostos e ensiná-lo a corrigir a imagem onde alguém não está olhando diretamente para a lente? Obtenha milhões de imagens devidamente marcadas, alimente-as na rede e aparecerá uma ferramenta incrível, certo?
A implementação não é tão simples; A Nvidia fala sobre seu recurso Eye Contact há mais de um ano, e só agora está sendo lançado ao público (beta). As diferenças entre uma miríade de rostos ao redor do mundo tornam um problema difícil de “resolver” e, mesmo agora, os resultados são … imperfeitos (e isso é bom).
Fui em frente e testei mesmo assim, em um sistema com uma RTX 3090 Ti:
Uma das coisas que notei no teste é que muitas vezes o feed de vídeo ao vivo oscilava entre eu olhando para a câmera e eu olhando para outro lugar, mesmo que meu foco permanecesse no mesmo local. Acho que isso pode ser intencional, porque ter alguém olhando diretamente para a câmera durante todo um bate-papo por vídeo seria um pouco assustador – mas, se for, alguns ajustes no tempo precisam ser feitos.
O que é mais difícil dizer é se esse tipo de efeito é benéfico em primeiro lugar. Se você quer parecer que está olhando para a câmera, provavelmente deveria aprender a olhar… para a câmera. Resolver o erro humano por meio da IA pode acabar incentivando maus hábitos – o que acontece se você acabar em um feed de vídeo que não corrige o contato visual?
Independentemente disso, a Nvidia Broadcast com contato visual agora está disponível para os proprietários de RTX testarem. Eu testei com um RTX 3090 Ti, mas a Nvidia lista o RTX 2060 como ponto de entrada (e isso deve incluir GPUs móveis RTX 3050, até onde eu sei). A longo prazo, suspeito que em algum momento a Nvidia acabará com alguns modelos de AI que são mais complexos e requerem hardware mais rápido do que um RTX 2060 – assim como o recurso Frame Generation do DLSS 3 requer uma placa de vídeo da série RTX 40 – mas por enquanto qualquer GPU RTX feita nos últimos quatro anos pode potencializar esse recurso.
Você gosta do efeito, odeia, acha assustador ou algo mais? Deixe-nos saber nos comentários, junto com outros efeitos que você prefere ver. Pessoalmente, estou ansioso pelo momento em que todos poderemos ter avatares de desenhos animados virtuais como Toy Jensen falando no lugar de pessoas reais, talvez lendo artigos escritos por IA, com os vídeos e artigos sendo consumidos por IA.
É bots todo o caminho de lá!