La inteligencia artificial generativa sintetiza, no copia

OpenAI, y por representación, la inteligencia artificial generativa en su conjunto, obtiene el triunfo en el primer asalto de la batalla judicial planteada por Raw Story Media Inc. y Alternet Media Inc. con respecto al uso de sus datos en el entrenamiento de algoritmos.

Las dos compañías, que gestionan páginas de noticias, habían denunciado a OpenAI el pasado febrero por infracciones de los derechos de autor, por haber utilizado miles de artículos de sus páginas para entrenar a ChatGPT con el fin de que pudiese responder a indicaciones humanas. Según las compañías, el chatbot de OpenAI, ChatGPT, reproducía su material protegido por derechos de autor de manera «textual o casi textual» cuando se le solicitaba.

Las demandas acusaban a OpenAI de violar la Digital Millennium Copyright Act (DMCA) al eliminar la información de identificación de derechos de autor, tal como los nombres de los autores y los títulos, para facilitar la infracción, y pedían al tribunal daños monetarios de al menos $2,500 por cada violación y una orden que obligaría a OpenAI a abandonar el uso supuestamente indebido de su trabajo.

¿La respuesta de la jueza Colleen McMahon? Que la eliminación de información de gestión de derechos de autor, como los nombres de los autores o de los artículos de los medios, con el fin de entrenar herramientas de inteligencia artificial generativa (sin implicar la difusión de esas obras) no puede calificarse como un efecto adverso necesario para establecer la legitimación del caso, que por tanto queda desestimado. Los litigantes pueden volver a plantearlo, pero en principio, el resultado de esta primera batalla favorece a OpenAI.

¿Lo fundamental? Que la IA generativa sintetiza, no copia. Funciona como nuestros cerebros: vemos, escuchamos y leemos cosas, pero nuestra memoria no lleva a cabo un proceso de copia, sino un proceso de síntesis, y el recuerdo plasmado no constituye ni puede constituir una copia, sino una reconstrucción.

Además, los conjuntos de datos utilizados en el entrenamiento de algoritmos tienen un tamaño tan descomunal, que resulta extremadamente poco probable que se lleve a cabo un plagio de alguna parte en concreto. Dado que nos llevaría en torno a 170,000 años ser capaces de leer el conjunto de datos de la base de datos de entrenamiento de GPT4 leyendo ininterrumpidamente ocho horas al día, cualquier parte es cuantificablemente minúscula.

Frente a muchos que creen que la inteligencia artificial generativa, como Chat GPT o Midjourney, es algo inmoral porque supuestamente roba a los artistas con cuyas obras se entrenó, alegando que no hay nada nuevo en todo lo que generan y que se basan en datos extraídos de Internet sin el consentimiento de los creadores, hay que alegar que en ningún caso esos algoritmos obtienen suficiente información de ninguna fuente específica como para ser considerados un robo. Desde una perspectiva legal, la ley de derechos de autor requiere que cualquier infracción no solo muestre similitudes sustanciales con una obra original, sino que además, el supuesto infractor debe haber tenido acceso a la obra original. Y si bien es obvio que tuvieron acceso a las obras originales, no parece que ningún arte producido por ese procedimiento sea como tal un robo.

Desde sus orígenes con el Estatuto de la Reina Ana, los fundamentos básicos de las leyes de protección de derechos de autor dependen de la copia y de la distribución, y esos procesos no se están produciendo en el caso de la inteligencia artificial generativa. Todo contenido recién creado se basa, por supuesto, en contenido anterior en cierta medida, pero aquí no hablamos únicamente de una cuestión de nivel de similaridad, que es extremadamente pequeño al diluirse entre la enorme magnitud de los datos empleados, sino también de los métodos utilizados, que en ningún caso constituyen ni una copia, ni una distribución. Si la inteligencia artificial es un robo, todas las obras de arte desde la Edad de Piedra lo es. Los escritores y artistas de hoy fueron influenciados por los de ayer, e influirán en los de mañana.

Dejémonos de tonterías y de intentar elevar los derechos de autor a modo de protección contra absolutamente cualquier cosa: todo lo que está en internet a disposición pública, es decir, cualquier página a la que una persona puede legítimamente acceder, puede también ser accedida, y de hecho lo es, por procedimientos automáticos para su indexación, pero también para su consulta y, a partir de ahí, para el entrenamiento de cualquier algoritmo, del mismo modo que es accedida por una persona. En ningún caso puede pretenderse que una persona, cuando accede a una página, lleva a cabo una copia en su memoria, del mismo modo que no puede pretenderse que viola derecho de autor alguno cuando cuenta a otra persona lo que vio. El algoritmo está exactamente en el mismo caso.

Por supuesto que la inteligencia artificial generativa desafía a los derechos de autor, y es muy bueno que lo haga. Los derechos de autor tienen que limitarse, no extenderse, porque lo contrario nos llevaría a todo tipo de sinsentidos absurdos y a un nivel de razonamiento absolutamente retrógrado, contrario a toda innovación. Si no quieres que unas obras puedan ser utilizadas para el entrenamiento de algoritmos, no las pongas en internet a disposición de cualquiera: guárdalas bajo llave donde nadie las pueda ver. Pero dado que seguramente no las creaste para eso, estarías incurriendo en tu propio contrasentido, como llevamos años haciendo bajo unas leyes de propiedad intelectual supuestamente diseñadas para proteger al autor e incentivar la creación, pero que en realidad protegían a los propietarios de los medios por los que se distribuían esas obras, incluso cuando los autores llevaban ya muchos años muertos (y, por tanto, no podían ser incentivados para crear nada más).

Esperemos que la doctrina de la jueza siga prevaleciendo en futuras instancias. Lo contrario sería, simplemente, una barbaridad.

La inteligencia artificial generativa sintetiza, no copia

Sé el primero en comentar

Dejar una contestacion Cancelar la respuesta