Treinar inteligências artificiais sem dados protegidos é impraticável.

A OpenAI reconheceu, em uma declaração escrita, que é inviável treinar modelos de linguagem como o GPT-4 (basicamente, a “base” para chatbots como o ChatGPT), sem utilizar materiais protegidos por direitos autorais.

O documento, divulgado no Reino Unido durante um processo em tramitação na Câmara dos Comuns, expressa de forma resumida a posição de que, sem utilizar materiais criados por terceiros, recursos tecnológicos como o ChatGPT, DALL-E e outras inovações de inteligência artificial (IA) generativa jamais existiriam.

data:image/svg+xml,%3Csvg%20xmlns=

Imagem mostra um smartphone com a logomarca da OpenAI na tela, à frente de um monitor de computador com vários códigos de programação em vermelho

Imagem: Camilo Concha / Shutterstock.com

De acordo com o documento:

“Os modelos de linguagem da OpenAI, inclusive aqueles que são a base do ChatGPT, são desenvolvidos a partir de três fontes principais de dados: informações disponíveis no domínio público, informações licenciadas de terceiros e, por fim, informações fornecidas por treinadores humanos.

Devido ao fato de que os direitos autorais atualmente protegem virtualmente qualquer tipo de expressão humana – incluindo postagens em blogs, fotografias, mensagens em fóruns, partes de código de software etc. – seria impossível treinar modelos de IA sem a utilização de materiais protegidos. Restringir os dados de treinamento apenas ao domínio público, com livros e desenhos criados há mais de 100 anos, poderia resultar em um experimento interessante, mas não permitiria que os sistemas de IA atendessem às demandas dos cidadãos atuais.”

A empresa ainda afirma que, embora utilize conteúdos protegidos por direitos autorais, ela os obtém por meio de licenciamento adequado desse material, mesmo que ela mesma acredite que o “uso para treinamento” não deva estar incluído nessa forma de proteção.

Essa situação se relaciona a um dos vários processos que a OpenAI – assim como a sua principal apoiadora, a Microsoft – estão enfrentando no âmbito legal em vários países. Basicamente, as empresas estão sendo acusadas de utilizar materiais protegidos por lei, sem a devida autorização, para treinar seus chatbots de IA.

Entre novembro e dezembro, capturas de tela de conversas da equipe da OpenAI no Slack foram vazadas na internet, revelando como os funcionários se orgulhavam de usar materiais protegidos por direitos autorais nas atualizações dos modelos de linguagem da empresa. No entanto, as imagens não detalhavam se o material tinha sido licenciado ou obtido ilegalmente.

Em um caso mais recente, a OpenAI foi processada pelo jornal New York Times nos Estados Unidos, sob a mesma acusação: o jornal afirma ter sofrido danos devido à cópia e ao uso ilegal das obras valiosas e únicas do The Times. O processo foi apresentado em 20 de dezembro e ainda não tem uma data definida para o julgamento.

“Na imensidão do ciberespaço, nosso blog GGames se destaca como um verdadeiro entusiasta e amante fervoroso da tecnologia, trazendo conteúdos inovadores e empolgantes para os aficionados por esse universo digital.”
Imagens e vídeos de terceiros