Romancistas processam OpenAI por violação de direitos autorais sobre livros usados como dados de treinamento

Vários artistas visuais abriram processos pelo uso de suas imagens como dados de treinamento para geradores de texto para imagem. Agora, dois romancistas conhecidos entraram com sua própria ação coletiva contra a OpenAI, acusando a empresa por trás do ChatGPT e do Bing Chat de violação de direitos autorais porque supostamente usou seus livros como dados de treinamento. Este parece ser o primeiro processo movido sobre o uso de texto (em oposição a imagens ou código) sendo usado como dados de treinamento.

No ação judicial arquivado no Tribunal Distrital dos Estados Unidos do Distrito Norte da Califórnia, os demandantes Paul Tremblay e Mona Awad alegam que a OpenAI e suas subsidiárias cometeram violação de direitos autorais, violaram a Lei de Direitos Autorais do Milênio Digital e também entraram em conflito com as restrições da Califórnia e da lei comum sobre concorrência desleal. Os escritores são representados por Joseph Saveri Law Firm e Matthew Butterick, a mesma equipe que está por trás de processos recentes movidos contra a Diffusion AI e o GitHub (sobre o copiloto do GitHub).

A denúncia alega que o romance de Tremblay A Cabana do Fim do Mundo e dois romances de Awad: 13 maneiras de olhar para uma garota gorda e Coelhinho foram usados como dados de treinamento para GPT-3.5 e GPT-4. Embora a OpenAI não tenha divulgado que os romances protegidos por direitos autorais estão em seus dados de treinamento (que são mantidos em segredo), os queixosos concluem que devem estar porque o ChatGPT foi capaz de fornecer resumos detalhados da trama e responder a perguntas sobre os livros, uma façanha que exigiria isso. para ter acesso aos textos completos.

“Como os Modelos de Linguagem OpenAI não podem funcionar sem as informações expressivas extraídas dos trabalhos dos Requerentes (e outros) e retidas dentro deles, os Modelos de Linguagem OpenAI estão infringindo trabalhos derivados, feitos sem a permissão dos Requerentes e em violação de seus direitos exclusivos sob o Lei de Direitos Autorais”, diz a denúncia.

Todos os três livros também contêm informações de gerenciamento de direitos autorais (CMI), como ISBN e números de registro de direitos autorais. A Lei de Direitos Autorais do Milênio Digital (DMCA) afirma que remover ou falsificar CMI é ilegal e, como a saída do ChatGPT não contém essas informações, os queixosos alegam que a OpenAI é culpada de violar o DMCA além da violação regular de direitos autorais.

Embora o processo tenha apenas dois autores no momento, os advogados estão buscando o status de ação coletiva que permitiria a outros autores que tiveram obras protegidas por direitos autorais usadas pela OpenAI também receberem indenização. Os advogados estão buscando indenização monetária, custas judiciais e uma liminar forçando a OpenAI a mudar seu software e práticas comerciais em torno de material protegido por direitos autorais.

Entramos em contato com Butterick para comentar o processo e ele nos encaminhou para seu site, Litígio LLMque tem uma explicação detalhada da posição dos queixosos e por que eles estão processando.

“Entramos com uma ação coletiva contra a OpenAI desafiando o ChatGPT e seus grandes modelos de linguagem subjacentes, GPT-3.5 e GPT-4, que remixam as obras protegidas por direitos autorais de milhares de autores de livros – e muitos outros – sem consentimento, compensação ou crédito”, escrevem os advogados.

Eles também criticam o conceito de IA generativa, escrevendo que “‘inteligência artificial generativa’ é apenas inteligência humana, reembalada e divorciada de seus criadores.”

Como o processo de Saveri e Butterick contra a Stability AI por usar imagens protegidas por direitos autorais como dados de treinamento, este depende da crença de que pegar texto da Internet aberta para alimentar um LLM não é um uso justo. Essa é uma pergunta que ainda não foi respondida no tribunal.

Em um caso de 2006, Blake x Google, um escritor processou o mecanismo de busca por armazenar em cache seu trabalho e disponibilizar as versões em cache por meio de pesquisa. No entanto, um tribunal distrital dos EUA indeferiu o processo, sustentando que o armazenamento em cache dos dados pelo Google era uso justo. O juiz Robert C. Jones escreveu que guardar documentos em cache é um uso transformador (um dos quatro fatores usados para determinar o uso justo) e que não prejudica o mercado potencial para o trabalho (outro fator). Portanto, simplesmente armazenar dados protegidos por direitos autorais em seu servidor na forma de um cache não tornava o Google responsável.

No entanto, usar um trabalho criativo protegido por direitos autorais como dados de treinamento é um pouco diferente de indexar conteúdo para pesquisa. Alguém poderia argumentar que, se o LLM é capaz de repetir detalhes importantes do livro, está prejudicando o mercado dessas obras e não é verdadeiramente transformador. Por outro lado, se um ser humano escreve um resumo da trama de um livro, isso geralmente não entra em conflito com a lei de direitos autorais. Em última análise, essas questões serão decididas por causa de processos como este.

A OpenAI não é a única empresa que usa materiais protegidos por direitos autorais para treinamento ou até mesmo produção. O Google SGE, a nova experiência de pesquisa da empresa, geralmente plagia frases inteiras e parágrafos palavra por palavra de artigos protegidos por direitos autorais. O que acontece neste processo pode ter um impacto muito mais amplo na indústria de IA generativa.

Romancistas processam OpenAI por violação de direitos autorais sobre livros usados ​​como dados de treinamento

Links rápidos

Romancistas processam OpenAI por violação de direitos autorais sobre livros usados como dados de treinamento