O Google vai raspar toda a Internet pública para treinar suas ferramentas de IA e não há nada que possamos fazer sobre isso

O que você precisa saber

A mais recente política de privacidade do Google entrou em vigor em 1º de julho e será um pouco controversa.
O dono do maior mecanismo de busca do planeta agora vai usar toda essa sucata para treinar seus modelos de IA e basicamente teremos que conviver com isso.
O uso de dados para treinar modelos de IA já oferece seu próprio drama, principalmente de grandes fontes como o Reddit.

A atualização mais recente da política de privacidade do Google não é necessariamente surpreendente, mas também dispara alguns alarmes. Principalmente para quem já tem dúvidas sobre a revolução da IA.

Conforme destacado por Gizmodo a última declaração sobre o gigante das buscas política de Privacidade contém uma atualização importante relacionada à IA:

“Por exemplo, usamos informações disponíveis publicamente para ajudar a treinar os modelos de IA do Google e criar produtos e recursos como Google Tradutor, Bard e recursos de IA em nuvem.”

A política mais recente anterior a esta mencionou apenas “modelos de idioma” e, especificamente, o Google Tradutor. A atualização mais recente deixa claro que qualquer coisa pública na Internet que o Google alimentará em suas ferramentas de IA, como o Bard.

Isso é surpreendente? De jeito nenhum. O Google é o guardião da Internet, especialmente para editores como nós e nossa empresa controladora. Jogar o jogo de conseguir que seu conteúdo tenha uma boa classificação no Google é exaustivo, mas também crítico. E agora todo esse conteúdo será inserido no Google AI. Tudo isso.

Certamente vai atiçar as chamas do debate. Recentemente, vimos problemas no Reddit com relação ao acesso à sua API, cujos perdedores eram basicamente os usuários do Reddit. O proprietário do Twitter, Elon Musk, também falou sobre o scraping, alegando que o recente desastre na plataforma com limites de taxa é uma resposta a isso (mesmo que não seja 100% verdadeiro).

AI é o futuro, mas vai ficar confuso. (Crédito da imagem: Windows Central)

Este movimento só vai alimentar ainda mais o debate e a reação sobre o treinamento de ferramentas de IA. O OpenAI já teve sua parte justa nos dados usados para treinar o modelo GPT, o mesmo que alimenta o Bing Chat da Microsoft. A Microsoft também tem um mecanismo de busca, mas seu alcance é insignificante em comparação com o Google Search.

A legalidade também será questionada. Estamos em águas turvas e desconhecidas com tudo isso. O UE já tem problemas com o Google Bard, e será interessante descobrir como isso se alinhará às regras do GDPR do território. Até que tecnicamente não seja ilegal, talvez o Google simplesmente faça o que o Google faz. Que é o que quer.

Os modelos de IA precisam ser treinados de alguma forma. Mas a política mais recente do Google não parece indicar que a empresa está disposta a compensar qualquer um dos criadores desse conteúdo. Todo mundo precisa que suas coisas apareçam no Google, e parece que o Google está abusando disso para seus próprios fins.

Aperte o cinto, vai ser um passeio acidentado.

O Google vai raspar toda a Internet pública para treinar suas ferramentas de IA e não há nada que possamos fazer sobre isso

O que você precisa saber

Links rápidos